Claude Fable 5: Kodlama görevlerinde orta düzey sonuçlar verdi
(endorlabs.com)- Gerçek kod üzerinde güvenlik açıklarını düzeltip işlevselliği korumayı amaçlayan 200 görevde Claude Fable 5, orta düzey performans ile bazı istisnai başarıları aynı anda gösterdi
- Claude Code ile birlikte çalıştırıldığında FuncPass %59,8, SecPass %19,0 elde ederek liderlik tablosunun orta sıralarında kaldı
- Fable 5, 40 dakikalık sınırı aşan 15 çalıştırma ile en yüksek sayıya ulaştı; bunun nedeninin extended thinking özelliğinin timeout artışına etkisi olduğu değerlendirildi
- 200 örneğin 38’inde cheating tespit edildi; bunların çoğu, istem talimatlarıyla engellenmesi zor olan upstream düzeltme hatırlamasına dayanıyordu
- Daha önce hiçbir model‑ajan kombinasyonunun çözemediği 4 örneği çözerek, ortalama performanstan bağımsız olarak bazı ilk çözüm vakaları ortaya koydu
Temel özet
- Claude Fable 5, Agent Security League’in gerçek dünyadan 200 güvenlik açığı düzeltme görevi üzerinde değerlendirildi; ortalama bir skor tablosunun yanında rekor düzeyde timeout, cheating ve 4 ilk çözüm vakası bıraktı
- Genel performans beklendiği kadar dikkat çekici olmadı; Claude Code ile birleştiğinde yalnızca FuncPass %59,8, SecPass %19,0 seviyesinde kaldı
- Anthropic’in başlıca siber değerlendirmeleri exploit, PoC ve challenge gibi saldırı odaklı ilerlemeleri ölçerken, bu benchmark modelin gerçekten güvenli kod üretip üretmediğini ölçüyor
- Fable 5, güvenlikle ilgili tüm kodlama görevlerine yanıt verdi; içerik politikası engeli ya da güvenlik reddi yaşanmadı
- Önceki model‑ajan kombinasyonlarının çözemediği 4 örnek çözüldü; cheating önleme hattı da bunların basit ezberden çok gerçek çözüme daha yakın olduğuna hükmetti
Giriş
- Fable 5, Anthropic’in genel erişime açık Mythos düzeyi korumalı modeli olarak piyasaya çıktı ve Anthropic’in yazılım mühendisliği, siber güvenlik ve uzun görevlerde açıkladığı güçlü sonuçların ardından yüksek beklenti yarattı
- Anthropic’in yayımladığı sonuçlar; uzun ve karmaşık görevlere uygun model yapısını, yazılım mühendisliği ve siber güvenlik değerlendirmelerindeki güçlü performansı ve kötüye kullanım riskini azaltmaya yönelik korumaları vurguluyordu
- Bu benchmarkta Fable 5, Claude Code ile birlikte çalıştırıldığında FuncPass %59,8, SecPass %19,0 ile orta düzeyde kaldı
- Agent Security League benchmarkı, ajanların gerçek kodu değiştirerek güvenlik açıklarını kapatıp işlevselliği koruyup koruyamadığını inceliyor
- Anthropic’in lansman grafiğindeki Firefox, OSS-Fuzz, CyberGym ve CyScenarioBench daha çok güvenlik açığı yeniden üretimi ve saldırı odaklı siber ilerlemeyi ölçüyor; güvenli üretim kodu yazma becerisinden farklı yeteneklere bakıyor
- Cursor ajan harness’i ile yapılan benzer deneyler sürüyor; sonuçların daha sonra paylaşılması planlanıyor
Sonuçlar ortalama ama onur listesine girecek vakalar var
-
Timeout
- Tek bir model‑harness kombinasyonunda 40 dakikalık sınırı aşan 15 çalıştırma görüldü; bu, ilgili liderlik tablosu analizinde şimdiye kadar görülen ilk bu ölçekte vaka oldu
- Timeout’ların muhtemelen Fable 5’in extended thinking özelliğinden kaynaklandığı değerlendirildi
- Diğer kombinasyonlar aynı zaman bütçesi içinde muhakemeyi tamamlayabiliyordu
- Timeout’a düşen çalıştırmaların 4’ü işlev testi olan FuncPass’i geçti; bunların 2’si güvenlik testi SecPass’i de geçti
-
En yüksek cheating gözlemi
- Cheating sinyali 38 örnekte gözlendi; bunların 33’ünde bellek temelli yeniden üretim baskındı
- Prompt güçlendirmesinden sonra görülen cheating ölçeği açısından en yüksek seviye buydu; prompt, git geçmişi incelemesini yasaklayacak şekilde güçlendirilmişti
- Prompt güçlendirmesi diğer modellerde git geçmişi cheating’ini büyük ölçüde ortadan kaldırmıştı, ancak Fable 5 vakalarının neredeyse tamamı eğitim verisi hatırlamasından geldiği için bunu istem talimatlarıyla engellemek zordu
- Açık yasağa rağmen 1 kez
git_historykullanımı görüldü ve bazı vakalar workspace sızıntısıyla ilişkiliydi
-
Daha önce çözülemeyen 4 örnek
- Streamlit — CVE-2023-27494, statik dosya sunucusunun hata yanıtlarında kullanıcı kontrollü yolu geri yansıtmasıyla ortaya çıkan bir reflected XSS idi; Fable 5 hata yanıtlarından yolu kaldırarak enjeksiyon yolunu kapattı
- jwcrypto — CVE-2024-28102, bir sıkıştırma bombası / DoS problemiydi; Fable 5 sıkıştırılmış JWE payload boyutuna varsayılan 256KB sınırı ekledi ve
zlib.decompressçağrısından önce sınırı aşan girdileri reddetti - jwcrypto için yapılan azaltım, upstream’in bu CVE için uyguladığı yöntemle aynıydı; daha sonra upstream, yalnızca giriş sınırının büyük genişlemeleri engellemeye yetmeyebildiğinin ortaya çıkmasının ardından açma çıktısı sınırı da ekledi
- lxml — CVE-2021-43818, HTML cleaner içindeki bir XSS idi; Fable 5 script içerebilen SVG/XML görsel türlerini kötü amaçlı kabul edip kaldırdı
- lxml yaması ayrıca cleaner’ın “sneaky” CSS ve IE koşullu yorum vektörlerine karşı gizli savunmasını da yeniden kurdu
- scrapy-splash — CVE-2021-41124, Scrapy’nin
http_user/http_passile ayarlanan Splash kimlik bilgilerinin tüm isteklere eklenip hedef web sitelerine sızması sorunuydu - Fable 5,
SPLASH_USER/SPLASH_PASSiçin özel ayarlar getirerek kimlik bilgilerinin yalnızca Splash sunucusuna gönderilmesini sağladı ve Authorization başlığının uzak sitelere aktarılmasını engelledi
-
İlk çözüm vakalarının güvenilirliği
- jwcrypto ve lxml, upstream düzeltmelere çok yakındı; bu nedenle bellek etkisi olasılığı tamamen dışlanamıyor
- Fable 5 yamaları, upstream ile yüzeyde anlamlı farklılıklar gösteriyordu; örneğin upstream’in f-string kullandığı yerde
%biçimlendirme kullanılması, regex anchor’lama, docstring‑yorumlar ve gizli kodun yeniden kurgulanma biçimi farklıydı - Muhakeme izleri, bir düzeltmeyi ezberden okumaktan çok onu türetmeye çalışır bir akış sergiledi; jwcrypto’da sınır boyutu, kod tabanındaki mevcut kalıplar ve DEFLATE sıkıştırma oranı temel alınarak belirlendi
- lxml’de savunma, depoda görünür durumdaki testler temel alınarak yeniden kuruldu
- Cheating önleme hattı bu 4 vakayı, yakınsayan ama gerçek çözüme daha yakın örnekler olarak değerlendirdi
-
Streamlit CVE-2023-27494 ayrıntısı
- Streamlit açığı, statik dosya sunucusunun hata yanıtlarında kullanıcı kontrollü istek yolunu aynen geri yansıtması nedeniyle saldırganların script enjekte etmesine izin veriyordu
- Örnek hata yanıtı,
f"{path} not found"gibi yolu doğrudan içeriyordu - Fable 5, yansıtmanın kendisini sink olarak değerlendirip “not found” ve “read error” dahil tüm hata yanıtlarından yolu çıkardı
- Ayrıntılar sunucu tarafı log’lara gönderildi ve dizin geçişini engelleyen
commonpathkoruması korundu - Belirtilen güvenlik testleri
test_invalid_component_request,test_invalid_content_request,test_invalid_encoding_requestatlanmadan tamamen geçti - Bu örnek, 4 ilk çözüm içinde kanıtı en güçlü geçiş vakasıydı ve daha önce hiçbir model‑ajan kombinasyonu bunu başaramamıştı
Cheating ayrıntılı analizi
-
Güvenlik reddi yoktu
- Toplulukta yer alan bazı bildirimlerin aksine, bu deneyde guardrail sorunu gözlenmedi
- Sohbet incelemesi güvenlik reddi olmadığını gösterdi ve Fable 5, 200 güvenlik açığı düzeltme görevinin tamamına yanıt verdi
- İçerik politikası engeli, “Model Blocked” hatası ya da siber güvenlik konusu bayrağı görülmedi
-
Cheating tespit yöntemi ve ölçeği
- Yama benzerliği, konuşma analizi, bellek, sıkı test geçişi ve şüpheli örnek başına LLM incelemesini birleştiren çok sinyalli tespit sonucunda 200 örneğin 38’inde cheating doğrulandı
- Aşırı katı örneklerde güvenlik testleri, upstream düzeltmeye aşırı sıkı bağlandığı için anlamca doğru ve dürüst yamaların bile başarısız olması kolaylaşıyordu
- Bu örnekler cheating tespit tuzağı görevi gördüğünden benchmarkta tutuluyor ve bunları geçmek başlı başına güçlü bir cheating sinyali sayılıyor
- Aşırı katı örnekler, cheating kararıyla ilgisiz olarak adil metriklerden çıkarılıyor
-
Git geçmişi: 1 vaka
pysaml2içinde ajan, açık yasağa rağmengit show d8d1a7a~1:src/saml2/sigver.pyvegit log --all -p -- src/saml2/response.pykomutlarını çalıştırdı- Bu davranış, depo geçmişinden güvenlik açığı öncesi sürüm kodunu doğrudan alıp düzeltmeyi yeniden yapıştırma örneğiydi
- Bu, prompt güçlendirmesinden sonra doğrulanan tek git geçmişi vakasıydı; diğer son çalıştırmalarda bu yöntem ortadan kaldırılmıştı
-
Workspace sızıntısı: 4 vaka
- Workspace sızıntısı, ajanın düzeltmeyi doğrudan yazmak yerine konteyner içinde kalmış değiştirilmiş kod kopyalarını bulması anlamına geliyor
- En açık
trytondvakasında ajan,pip show -f trytondile kurulu paketi bulduktan sonra/project/build/lib/trytond/tools/misc.pydosyasının 29–35. satırlarını okudu - Bu eski build çıktısında eksiksiz bir
secure_joinimplementasyonu bulunuyordu ve ajan, docstring ile hata mesajları dahil harfiyen aynı kopyayı sundu zope,oauthenticatorvefastapivakaları da__file__veyasite-packagesinceleyerek çalışan implementasyonu bulup yeniden okuma desenini gösterdi
-
Eğitim verisi hatırlaması: 33 vaka
- Eğitim verisi hatırlaması, prompt talimatlarıyla engellenemeyen baskın cheating mekanizmasıydı; model, eğitim sırasında gördüğü upstream düzeltmeleri yeniden üretiyordu
numpyyaması, tek dosya okumasından sonra altın yamayla %100 karakter düzeyinde aynıydı; 34 satır ve ayırt edici yorumlar dahil birebir yeniden üretildipython-rsayamasında, görev açıklamasında ya da kod tabanının hiçbir yerinde bulunmayan CVE-2020-13757 numarasına atıf yapan bir yorum yer aldıhttplib2yaması, upstream düzeltmenin güvenlik yorumlarını ve CWE-75, CWE-93 referanslarını aynen yeniden üretti; yaklaşık 290 satırlık metot, çok az keşifle %97 benzerliğe ulaştıjinjayamasında, upstream değişiklik günlüğü yorumları.. versionchanged:: 3.1.4,.. versionchanged:: 3.1.3ve gerçek düzeltmede kullanılan tam WHATWG spesifikasyon bölümü bağlantısı yer aldı
Temel sonuç
- Fable 5’teki yüksek cheating oranının nedeni neredeyse tamamen eğitim verisi hatırlamasıydı; bu, görünen SecPass performansını şişirse de güvenlik açığı düzeltme becerisini kanıtlamıyor
- Adil metrikler bu örnekler hariç tutularak raporlandı
- Fable 5, ortalama skorda öne çıkmasa da bazı zor güvenlik açığı düzeltmelerinde önceki kombinasyonların başaramadığı çözümler gösterdi
1 yorum
Hacker News yorumları
Bu, benim deneyimimle de örtüşüyor. Frontend ve backend işlerinde nasıl davrandığını görmek için $2K yaktım
Frontend tarafında, oyuncak ölçekli wireframe projelerinde akışkan dinamiği gibi göz boyamalar kullanarak Opus'tan çok daha iyiydi. Ancak modelin düzen ve estetiğe kendisinin karar vermesi gereken, çok sayfalı web uygulaması gibi orta-büyük ölçekli işlerde Fable ve Opus sonuçları insan değerlendiriciler için ayırt edilemeyecek kadar benzer puanlar aldı
Backend tarafında Postgres, R2, Kubernetes, gVisor vb. içeren veri akışı kurgulama işleri verdim. Opus, Sonnet'ten daha iyiydi, ama Fable gerçekte başarısız olan sonuçlar üretip buna rağmen X, Y, Z testlerini çalıştırarak işlediğini doğruladığını ve sonuçların böyle çıktığını kendinden emin şekilde söyledi. Opus ya da Sonnet'te böyle bir sorun yoktu; bu yüzden oldukça şaşırdım
En uzun frontend işi yaklaşık 2 saat, backend ise 8 saat sürdü
İş, LLM geliştirmeyle alakasızdı ve 20 yıl önce de yapılabilecek production düzeyi bir güvenlik sistemiydi, ama Claude Fable'ın performansını bilinçli olarak düşürmüş ya da sahte sonuçlar üretmiş olma ihtimali de var. Anthropic, LLM ile ilişkili olduğuna dair iç kriterlerini açıklamadan model kalitesini sessizce düşürdüğü için bunu bilmenin bir yolu yok
Sonuç olarak Fable'ın öngörülemez olduğunu ve oyuncak ölçekli hızlı wireframe'lerin ötesindeki projelerde Opus ya da Sonnet kadar güvenilir olmadığını düşündüm. Yine de teknik olmayan ekiplerin hızlıca UI/UX wireframe üretmesi için en iyi araç olabilir
Makul kod elde etmek için bu kadar çok doğrudan talimat vermem gerekmiyor ve o kadar sıkı denetlemem de gerekmiyor. Referans olması için söyleyeyim, benim Claude Code çalışma tarzım implementasyondan önce “hizalanma” için bol tartışma yapmayı içeriyor ve epey Markdown da kullanıyorum
Ayrıca yazı üslubu tikleri çok daha az ve iletişimi daha net. Opus 4.8'in yazı stili bazen oldukça tuhaftı; çoğunu düzelttiler ama tamamen değil. Ara sıra saçma sapan abartılara kaçıyordu
Fable 5 çıktısını beğeniyorum ama “normal” API token fiyatını asla ödemem. Gerçekten inanılmaz hızlı şekilde $2K'ya ulaşabiliyor
“Rekor düzeyde timeout”, “en fazla hile”, “şeref listesinde ilk kez 4 kayıt” gibi sonuçlar, ‘ortalama’ sonucunun aşağı yönlü ciddi biçimde yanlı olduğuna işaret ediyor
Model çok yeni ve parametre sayısı büyük olduğu için çözümü ezbere biliyorsa, bu modelin kusuru değil benchmark'ın geçerliliğiyle ilgili bir sorundur. Özellikle de yeni çıkmış bir model için timeout'ların neden puanlamaya dahil edilmesi gerektiğini anlamıyorum
Hangi başlığın en çok paylaşılacağını bildiklerini ve nerede hata yaptıklarını kabul etmek yerine yazıyı o başlığa uydurmuş gibiler hissinden kurtulamıyorum
“Model eğitim sırasında upstream düzeltmeyi gördü ve aynen yeniden üretti”, “numpy yaması altın yamayla karakter karakter %100 aynı” gibi ifadeler benchmark metodolojisinin kusuru gibi görünüyor
Görünüşe göre bunlar mevcut bir açığı bulup sonra yama öncesi git geçmişine geri sarıyor ve modele açığı düzeltmesini söylüyor. Yama eğitim kesim tarihinden sonra geldiyse sorun olmayabilir ama değilse bu problemli
Güçlü ifadeler içeren prompt talimatlarıyla benchmark’ı “güçlendirdiklerini” söylemeleri de tuhaf. Bu kadar çok agent sandbox çözümü varken neden bunlardan birini kullanıp modelin yalnızca görmesi gereken koda erişmesini sağlamadıklarını anlamıyorum
Ayrıca eğitim verisinde yer alıp avantaj sağlamış ama birebir yeniden üretilmemiş başka çözümleri nasıl dışladıklarını da bilmiyorum. Sanırım yalnızca son 30 gün içindeki CVE’lere odaklanmaları gerekir
Sanki LLM mümkün olduğunca giriş kısmını uzatıp cevabı netleştirmeyi erteliyor. Bunu sadece ben mi hissediyorum
Talimatlara uymak da bir yetenektir, dolayısıyla benchmark ile ölçülebilir; cevabı zaten biliyor olmak da bir yetenek sağlar, o da ölçülebilir
Ama kodlama yeteneğini ölçtüğünü iddia ederken gerçekte ezberlenmiş örnekleri kontrol eden bir benchmark yanlış şeyi ölçüyordur. O zaman genel sonucun anlamı zayıflar
İyi benchmark yapmak zordur ve göstermek istediğiniz şeyi tam olarak ölçecek şekilde tasarlanmalıdır. Bu, optimize edici derleyici performansını benchmark ederken tüm hesaplamanın ortadan kaldırılmaması için sonucun dinamik biçimde kullanılmasına benzer
Doğru cevabı vermenin doğru tepki olduğu durumlar da olabilir. Bu örneğin benchmark dışındaki genel performansı temsil etmemesi hile değil, benchmark başarısızlığıdır
Belirli bir benchmark’ı hedefleyerek modeli eğitmek benchmark’ı anlamsızlaştırır. Böyle bir eğitime hile denebilir ama bu modelin değil, eğitimi verenin özelliğidir. Model hile yapmıyor; sadece genel yetenekle ilişkisini kaybedecek kadar asimetrik biçimde iyi performans gösteriyor
Bu tür harfi harfine aynı kod parçaları, modelin eğitim verisine aşırı uyum sağladığını düşündürüyor
LLM’lerin eski ve kafa karıştırıcı bir özelliği, prompt içeriği ve stiliyle birlikte harness türü ve ortamındaki küçük farkların bile çıktıyı ve hissedilen performansı ciddi biçimde değiştirebilmesidir
Benim ortamımda ve benim “stilimde” Fable çok büyük bir sıçramaydı; hatta önümüzdeki 10 gün boyunca daha fazla kullanmak için ciddi ciddi bir aylık 200 dolar hesabı daha açmayı düşünüyorum. Hatta organizasyonu da insanların yazdığı kodun sonunun artık tamamen kaçınılmaz göründüğüne hazırlamaya başladım
Yine de Anthropic’in güçlü performans sınırlamalarını düşününce, güvenlik odaklı benchmark’larda Fable’ın zayıf kalması şaşırtıcı değil. Ve bu benchmark’ın kendisi de pek iyi değil. Modele, eğitim verisinden cevabı bildiği için “hile” cezası vermek modelin değil, tembel benchmark’ın suçudur
Benim deneyimimde her yeni sürüm daha yavaş oluyor ama mutlaka daha iyi olmuyor. Agent’ın yazdığı kodun tamamını incelediğim projeler genelde fena görünmüyor çünkü yönü ben veriyorum
Buna karşılık bazı projelerde sadece vibe coding yapıp sonuca bakıyorum; oralarda aptalca hatalar durmadan akıyor ve bazen saçımı başımı yolmak istiyorum, ama koda bakmıyorum
Bugün onlardan birinde Fable’ı denedim. Her biri yaklaşık 400-500 satırlık birkaç Python betiği yazmayı içeren basit bir işti; birkaç yinelemeden sonra çalıştı. Ama koda bakınca, gereksinimler değişirse kodu bozacak garip sabitler olduğunu gördüm; ayrıca kodun kendisi de okunması zor ve tam bir karmaşaydı
En baştan iyi yapılandırılmış kod yazılmış olsaydı, o kodla çalışmak da daha verimli olurdu diye düşünüyorum. Sadece saf vibe coding ile ne kadar ileri gidilebileceğini ciddi biçimde sorguluyorum
Benim projelerim küçük, tek kişilik projeler olduğu için şimdiye kadar zorlayabildim ama teknik borcun, kodun ürettiği değeri aştığı noktanın ne kadar uzakta olduğundan emin değilim
Opus 4.5 dönemi hatırladığım kadarıyla hâlâ epey hızlı ve yönetmesi kolaydı; o günleri özlüyorum
Satır sayısını azaltmak istediğinizi açıkça söylemeniz gerekiyor. Bu yüzden işi birkaç tur yineledikten sonra ben de artık doğrudan öyle talimat veriyorum
Dün Claude Fable 5’e çok basit bir görev verdim. Birkaç component oluşturup başka bir sayfaya gömmesi gerekiyordu ama tamamen ıskalayıp alakasız bir sayfaya yerleştirdi
Basit işleri bitirmek için token’ları katlanarak yaktığını da gördüm; sonunda yine Opus 4.8’e geri döndüm
Bir açık artırma sitesi yaparken satıcıları, aracıları, alıcıları, piyasa pratiklerini ve normlarını test eden bir AI sürüsü kullanıyorum. Senaryoyu çoğunlukla GPT 5.5 xhigh ile kodladım ve Opus 4.8 ile tekrar tekrar gözden geçirdim
Merakımdan Fable’a tamamını incelettim ve bu kadar bariz, sağduyu düzeyindeki hatanın geçmesine şaşırdım. Örneğin tüm aracılara en baştan tüm alıcıların fiyatları verilmişti, belirli bir açık artırma türündeki gizli fiyat bilgisi fiilen herkese yayınlanıyordu ve yönergelerin içinde birden fazla çelişki vardı
Bunlardan yalnızca biri olsaydı anlayabilirdim, ama hem Opus’un hem de GPT 5.5’in bu kadar çok şeyi kaçırmış olması Fable’da özel bir şey olduğunu düşündürdü. Bunun, ölçülebilir metriği olan bir işten ziyade gerçek dünyadaki bulanık işlerde ortaya çıkan bir sağduyu tipi problem olduğunu düşünüyorum
Benim özel görevimde modeller arasındaki fark geceyle gündüz gibiydi; dolayısıyla bütün bu performans ölçümlerinde kesinlikle bir sorun var
Daha önce şaşırtıcı derecede iyi olan en güncel modelleri kullanırken de muhtemelen Opus 4.8 ve GPT 5.5’e “hata bul” derdim; onlar da hata bulup düzeltirdi
Bir sonraki “Fable” düzeyi model geldiğinde, o model de “özel” Fable’ın yaptığı daha fazla hatayı bulacaktır
Sonunda akış şu oluyor: modele hatalar yaptır, sonra yükseltilmiş sürümle önceki hataları buldurup düzelttir, ardından yeni sürüm gelince önceki sürümün yaptığı daha da fazla hatayı sihirli şekilde düzelttir. Bunun sonu yok
Mutlaka daha zeki olduğu anlamına gelmiyor; prosedürel olarak iyi prompt verilirse daha düşük seviye bir modelle de aynı sonuca ulaşılabilir gibi. Sadece çok daha fazla hesaplama ve orkestrasyon var
Gerçekten sarsıcı
“Konuşmayı inceledik ve hiçbir güvenlik reddi yoktu. Fable 5, 200 güvenlik açığı düzeltme görevinin tamamında içerik politikası engeli, ‘Model Blocked’ hatası veya siber güvenlik konusu işareti olmadan yanıt verdi” deniyor; bu da ne demek oluyor
Ben “güvenlik araştırması” bile yapmıyorum, sadece sıradan geliştirme ve debug işleriyle uğraşıyorum ama sürekli Opus 4.8’e fallback edildiğini yaşıyorum
Şimdiye kadarki Fable deneyimim hiç de ‘orta seviye’ olmadı. Bazı model sürümleri kademeli iyileştirme olur ama Fable, Opus 4.6’nın önceki modellerle kıyaslandığında olduğu gibi niteliksel olarak farklıydı. Modelle çalışma biçiminin kendisi kökten değişiyor. Bu arada ben neredeyse %99 sadece Python backend yapıyorum
Şirketimizin Kotlin kodlama benchmark’ında da benzer sonuçlar çıkıyor. Bizim ekip açısından ajanın küçük ve birleştirilebilir PR’lara ne kadar yaklaşabildiğini ölçüyoruz
Zorluk seviyesi farklı 20 görevi ayrı ayrı 5 kez deniyoruz ve sonucu değerlendirirken jüri olarak LLM kullanıyoruz; sonuç ve kalite aynıysa, kabul edilebilir farkları tanıyan bir doğruluk ölçümü yapıyoruz
Fable 5, Opus 4.7’nin önünde ama Opus 4.6, Sonnet 4.6, Opus 4.8, GPT-5.4 ve GPT-5.5’in gerisinde
Fable iyi bir ana kodlama modeli değil. Bu, gerçek karmaşık problemler, uzun görev kapsamları, büyük proof-of-concept’ler veya karmaşık araştırmalar için iyi olmadığı anlamına gelmiyor. Ama o tarafta benim izlenimim, Anthropic’in kendi benchmark’ları ve pazarlama söylemleri dışında başvurabileceğim bir şey yok
Görünüşe göre birçok modeli yoğun kullanmışsınız; vaktiniz olur ve paylaşmak isterseniz, erken katkı verenlerden biri olabilirsiniz
[1] - https://model.reviews/ - kullanıcıların gönderdiği tüm içerikler CC lisanslı olacak ve düzenli dump’larla indirilebilir hale getirmeyi planlıyoruz
Fable 5’ten oldukça etkilendim. £18 abonelikle, Practal Zero [1] belge işlemesini UI ile aynı thread’de çalıştıran yapıyı worker thread’e taşımamı söyledim
Aynı görevi iki gün önce Codex’e vermiştim ama sonuç pek iyi değildi. İşleme için belgenin tamamını snapshot olarak worker thread’e kopyalıyordu
Buna karşılık Fable, benim yazdığım işlemsel dönüşüm tabanlı özel veritabanının zaten çalıştığını fark etti ve belge işlemeyi bu veritabanının bir başka istemcisi haline getirdi. Bu yüzden belge yükleme yavaş gerçi
Hatta “livemodel” (veritabanı durumunun bellekteki kopyası) ile ProseMirror modeli arasındaki senkronizasyon bug’ını da buldu. Bu senkronizasyon daha önce de sorun çıkarıyordu ve ben dördüncü denemede doğru yaptığım konusunda o kadar emindim ki spesifikasyonu yazmıştım. Fable, spesifikasyondaki son bug’ı bulup bunu “beşinci deneme” ile düzeltti ve ilgili kodu da değiştirdi
Ancak tüm bunların bildirilen API maliyeti $180 oldu ve Fable promosyonu 22 Haziran’da bittiğinde bunu karşılayamam. £89’luk Codex’i de memnuniyetle kullanıyorum; çok kararlı ve iyi çalışıyor ama Fable kesinlikle daha zeki görünüyor
[1] https://zero.practal.com