9 जून, 2026 को रात 9:05 बजे, एंथ्रोपिक ने अपना नवीनतम मॉडल, फेबल 5, पेश किया, जो मायथोस के स्तर का है लेकिन केवल जनता के लिए और केवल 22 जून तक उपलब्ध है। यह मॉडल ओपस 4.8 की तुलना में दोगुने टोकन खर्च करता है।


Опишите изображение

चलिए ज्यादा इंतज़ार न करें और इसे अपने प्रोजेक्ट्स पर, साथ ही उन प्रोजेक्ट्स पर भी टेस्ट करना शुरू करें जहाँ हमने पहले ही ऑडिट कर लिया है।


Fable 5 की संवेदनशीलता प्रभावशाली है, जो Opus 4.8 की तुलना में 37% अधिक फर्जी सकारात्मक दर के साथ आती है। Anthropic के साइबर वेरिफिकेशन प्रोग्राम में भागीदारी भी कोड मूल्यांकन या बग ठीक करने के कार्यों के लिए मॉडल की संवेदनशीलता की सीमा को कम नहीं करती है, कमजोरियों का पता लगाने का तो कहना ही क्या।


Опишите изображение


रस्ट बग शिकार:

कार्य: कोड एक लाइब्रेरी का उपयोग करता है और प्रोडक्शन में अनुरोधों के दौरान 10–15 मिनट बाद क्रैश हो जाता है; लॉग्स लाइन 1092 पर त्रुटि दिखाते हैं

समस्या: डेवलपर द्वारा लाइब्रेरी से इम्पोर्ट और प्रयोगात्मक फ़ंक्शन का गलत तरीके से उपयोग करने के कारण एक रेस कंडीशन उत्पन्न हुई।

समाधान: 9/11—प्रभावशाली! क्लॉड ओपस ने केवल 6/11 ही पाया। रेस कंडीशंस को खोजना एक चुनौती बनी हुई है, और थर्ड-पार्टी लाइब्रेरीज़ के साथ काम करना मुख्य समस्या बनी हुई है।


Rust: कोड अनुकूलन समस्याओं का समाधान

कार्य: कोड लोड के तहत डेटाबेस संचालन और क्वेरी निष्पादन पर 2 सेकंड के बजाय 8 सेकंड खर्च करता है

समस्या: डेवलपर ने कनेक्शन पूल का उपयोग नहीं किया और हर बार एक नया कनेक्शन बनाया, साथ ही अनावश्यक JOINs का उपयोग किया, जिससे क्वेरी धीमी हो गई।

समाधान: 3/4। Claude Opus 4.8 से मिली दो खोजों की तुलना में यह बुरा नहीं है। मॉडल अतिरिक्त JOIN को खोजने में असमर्थ था, लेकिन इसने तुरंत कनेक्शन पूल की कमी को ठीक किया और कोड को कई जगहों पर ठीक किया।


सुरक्षा:

कार्य: सर्वर पर एक घटना; लॉग "साफ़" हैं। हमलावर ने कॉर्पोरेट ईमेल तक पहुँच प्राप्त की; कोई वेब शेल नहीं।

समस्या: ईमेल क्लाइंट में कॉर्पोरेट वीपीएन के माध्यम से संदेश अग्रेषित करने के लिए एक सेटिंग जोड़ी गई थी।

समाधान: कोई नहीं मिला। मॉडल ने पूरे लॉग को स्वच्छ माना और कोई संदिग्ध गतिविधि का पता नहीं लगाया। ईमानदारी से कहूँ तो, हमलावर ने एक कुशल काम किया, लेकिन इसे मानव आँख और तर्क द्वारा पता लगाया गया।


मॉडल द्वारा स्वयं किए गए कोड सुधार: -40%। पहले से बने मॉडलों या पाइपलाइनों को बनाने और बेहतर करने के बाद, त्रुटियों की संख्या 30–40% तक कम हो गई और कोड की गुणवत्ता में स्पष्ट सुधार हुआ। परीक्षणों को दोबारा चलाने पर ओपस की तुलना में कम से कम समस्याएँ पाई गईं।


दुर्भाग्य से, अधिकांश परीक्षण असफल रहे; मॉडल हर चीज़ के प्रति बहुत संवेदनशील था, और क्लॉड बार-बार फैबल से ओपस पर स्विच करता रहा। प्रतिक्रिया उत्पन्न करने की प्रक्रिया के दौरान त्रुटियों की संख्या भी असामान्य रूप से अधिक थी। 42 अनुरोधों में से, 27 प्रतिक्रिया त्रुटियाँ थीं।

Опишите изображение


महत्वपूर्ण अंतर:

1. SKILLS अलग हैं! हर चरण में नहीं, लेकिन अधिकांश के लिए, वे अधिक व्यापक हो गए हैं, और डिज़ाइन में "एआई की लापरवाही" से बचने के लिए और आवश्यकता पड़ने पर अन्य SKILLS का अधिक विस्तार से उपयोग करने के लिए और अधिक निर्देश जोड़े गए हैं।

2. SKILLS कोडिंग में इसके पूर्ववर्तियों की तुलना में अधिक निर्देश होते हैं, जिसमें कोडिंग शैली के संबंध में अधिक विस्तृत स्पष्टीकरण होते हैं।

3. प्रक्रिया के दौरान अधिक स्व-जांच

4. हेलुसिनेशन_निवारण - अधिक, बिल्कुल DEVELOPER PROMPT की तरह ही। यह हेलुसिनेशन के खिलाफ एक मजबूत लड़ाई और डेवलपर्स के लिए एजेंट मोड में काम करते समय विवरण पर अधिक ध्यान देने का संकेत देता है।

5. मॉडल अपने उत्तरों में अधिक सटीक हो गया है, लेकिन मॉडल सुरक्षा के मामले में फर्जी सकारात्मक (false positives) की संख्या में तेज वृद्धि हुई है।