في 9 يونيو 2026، الساعة 9:05 مساءً، كشفت شركة Anthropic النقاب عن أحدث نماذجها، Fable 5، الذي يضاهي نموذج Mythos من حيث الفئة، لكنه متاح للجمهور فقط وحتى 22 يونيو. ويستهلك هذا النموذج ضعف عدد الرموز التي يستهلكها نموذج Opus 4.8


Опишите изображение

دعونا لا ننتظر طويلاً ونبدأ في اختباره على مشاريعنا، وكذلك على المشاريع التي أجرينا عليها تدقيقات بالفعل.


تتميز حساسية Fable 5 بأنها مثيرة للإعجاب، مع معدل إيجابي كاذب أعلى بنسبة 37٪ مقارنة بـ Opus 4.8. كما أن المشاركة في برنامج التحقق السيبراني من Anthropic لا تقلل من عتبة حساسية النموذج لتقييم الكود أو مهام إصلاح الأخطاء، ناهيك عن اكتشاف الثغرات الأمنية.


Опишите изображение


البحث عن الأخطاء في Rust:

المهمة: يستخدم الكود مكتبة ويتعطل بعد 10-15 دقيقة في الإنتاج أثناء الطلبات؛ تظهر السجلات الخطأ في السطر 1092

المشكلة: حالة تنافس ناتجة عن استخدام المطور غير الصحيح للاستيرادات من المكتبة والوظائف التجريبية.

الحل: 9/11 — مذهل! لم يعثر Claude Opus سوى على 6/11. لا يزال العثور على حالات التنافس يمثل تحديًا، ويظل العمل مع مكتبات الجهات الخارجية هو المشكلة الرئيسية.


Rust: حل مشكلات تحسين الكود

المهمة: يقضي الكود 8 ثوانٍ في عمليات قاعدة البيانات وتنفيذ الاستعلامات تحت الحمل بدلاً من <=2 ثانية

المشكلة: لم يستخدم المطور تجمع اتصالات وقام بإنشاء اتصال جديد في كل مرة، بالإضافة إلى استخدام JOINs غير ضرورية، مما أدى إلى إبطاء الاستعلام.

الحل: 3/4. ليس سيئًا مقارنة بالاكتشافين من Claude Opus 4.8. لم يتمكن النموذج من العثور على JOIN الإضافي، لكنه صحح على الفور عدم وجود تجمع اتصالات وأصلح الكود في عدة أماكن.


الأمان:

المهمة: حادثة على الخادم؛ السجلات "نظيفة". تمكن المهاجم من الوصول إلى البريد الإلكتروني للشركة؛ لا يوجد غلاف ويب.

المشكلة: تمت إضافة إعداد إلى عميل البريد الإلكتروني لإعادة توجيه الرسائل عبر شبكة VPN الخاصة بالشركة.

الحل: لم يتم العثور على أي شيء. اعتبر النموذج السجل بأكمله نظيفًا ولم يكتشف أي نشاط مشبوه. بصراحة، قام المهاجم بعمل جيد، ولكن تم اكتشافه بالعين المجردة والمنطق.


إصلاحات الكود التي أجراها النموذج نفسه: -40٪. بعد إنشاء وتحسين النماذج أو المسارات المعدة مسبقًا، انخفض عدد الأخطاء بنسبة 30-40٪ وتحسنت جودة الكود بشكل ملحوظ. أدى إعادة تشغيل الاختبارات إلى اكتشاف عدد أقل وأقل من المشكلات مقارنةً بـ Opus.


لسوء الحظ، باءت معظم الاختبارات بالفشل؛ كان النموذج حساسًا للغاية تجاه كل شيء، وظل كلود يتنقل بين Fable و Opus. كان هناك أيضًا عدد غير عادي من الأخطاء أثناء عملية إنشاء الاستجابة. من بين 42 طلبًا، كان هناك 27 خطأ في الاستجابة.

Опишите изображение


الاختلافات المهمة:

1. SKILLS مختلفة! ليس في كل مرحلة، ولكن في الغالبية العظمى، أصبحت أكثر شمولاً، وتم إضافة المزيد من التعليمات لتجنب "إهمال الذكاء الاصطناعي" في التصميم وللاستفادة من SKILLS الأخرى بتفصيل أكبر عند الضرورة.

2. يحتوي ترميز المهارات على تعليمات أكثر من سابقاتها، مع تفسيرات أكثر تفصيلاً بشأن أسلوب الترميز.

3. المزيد من عمليات الفحص الذاتي أثناء العملية

4. hallucination_mitigation - المزيد، تمامًا مثل DEVELOPER PROMPT نفسه. يشير هذا إلى مكافحة أقوى للهلوسة واهتمام أكبر بالتفاصيل عند العمل في وضع الوكيل للمطورين

5. أصبح النموذج أكثر دقة في استجاباته، لكن عدد الإيجابيات الخاطئة ارتفع بشكل حاد في حالة أمان النموذج.