Fable 5 ile döngü tasarlamak

(x.com/RLanceMartin)

23 puan yazan GN⁺ 2026-06-11 | 1 yorum | WhatsApp'ta paylaş

Anthropic içindeki çalışma biçimini değiştiren Mythos-class model Claude Fable 5'ten iyi yararlanmak için iki temel teknik olarak self-correction loop ve memory sunuluyor
İyi tasarlanmış bir goal·rubric, ortama geri bildirim enjekte ederek Claude'un çalıştırma→geri bildirim toplama→öz düzeltme adımlarını hedef karşılanana kadar tekrarladığı bir yapı kuruyor
Parameter Golf ML mühendisliği görevinde Fable 5, Opus 4.7'ye kıyasla eğitim pipeline'ını yaklaşık 6 kat daha fazla iyileştirdi
Oturumlar arasında uzanan outer loop olan memory sayesinde Claude, bir oturum sırasında kaydettiği içeriği sonraki oturumlarda yeniden kullanabiliyor
Asıl nokta, doğrudan prompt yazma·yönlendirme yerine modelin kendi kendini düzeltip bağlamı yönettiği döngüleri tasarlamanın daha etkili olması

Self-correction loop (öz düzeltme döngüsü)

Modelin bir değerlendirme ölçütü üzerinde hillclimb yapmasını sağlamak, görev performansını artırmanın genel reçetesi olarak görülüyor
- bcherny, "kendi işi döngü yazmak" diye belirtiyor
- Claude Code'un /goal özelliği ve Claude Managed Agent'in Outcomes yapısı, bu reçeteyi belirli görevlere uygulayan primitive'ler
İyi tasarlanmış bir goal veya rubric, Claude'un çalıştığı ortama geri bildirim ekleyerek çalıştırma·geri bildirim toplama·öz düzeltme sonrasında goal/rubric karşılanana kadar süreci sürdürüyor

Parameter Golf, 16MB artifact içine sığan en yüksek performanslı modeli 8xH100 üzerinde 10 dakika içinde eğitmeyi amaçlayan açık kaynaklı bir ML mühendisliği meydan okuması
- Tek bir train_gpt.py dosyasını düzenleme, eğitimi çalıştırma, log'ları poll etme, skoru kontrol etme ve sonraki deneye karar verme yeteneğini ölçüyor
- karpathy'nin autoresearch projesine benziyor
Fable 5 ile Opus 4.7, Claude Managed Agents(CMA) kullanılarak karşılaştırıldı
- CMA, agent harness ve barındırılan sandbox sağlayarak Fable 5'in uzun süreli görevlerine uygun bir ortam sunuyor
- Parameter Golf için 8xH100 GPU, self-hosted sandbox olarak sağlandı

Modelin, kendi çıktısına yönelik self-critique konusunda sorun yaşadığı görüldü (Prithvi Rajasekaran bunu mühendislik blogunda anlattı)
verifier sub-agent, self-critique'ten daha iyi sonuç veriyor; çünkü değerlendirme bağımsız bir context window içinde yapılıyor
- CMA'nin Outcomes yapısı, grader sub-agent'i otomatik oluşturup bu işi üstleniyor
İçinde 9 doğrulanabilir ölçüt bulunan bir rubric verildi (baseline çalıştırma, 20 deney yürütme vb.) ve en fazla 8 saat çalışmasına izin verildi
- Outcomes grader, tüm deney ölçütlerinin karşılandığını doğruladıktan sonra ancak Claude'un çalışmasının bitmesine izin veriyor

Fable 5, Opus 4.7'ye kıyasla eğitim pipeline'ını yaklaşık 6 kat daha fazla iyileştirdi
- Deneyler yapısal (mimari değişiklik) ve skaler (sabit ayarı) olarak ayrıldığında, Fable 5'in daha büyük yapısal değişikliklere oynadığı ve dayanıklılık gösterdiği görüldü (quantization regression'ı aşarak en yüksek sonuca ulaştı)
Opus 4.7 ise ilk deneyde küçük bir kazanç elde ettikten sonra çoğunlukla aynı şablonu tekrar etti: skaler ayar·ölçüm·olumluysa koru

Oturumlar arasında uzanan bir outer loop olarak, oturum sırasında yazılan memory daha sonraki oturumlarda aranıp yeniden kullanılabiliyor
pgasawa ekibi Continual Learning Bench 1.0'ı yayımladı
- Çevrim içi bir ortamda bir yapay zeka sisteminin ne kadar iyileştiğini ölçen ilk gerçekçi benchmark
- Mevcut benchmark'lar modeli stateless varsayıyor ve her örneği bağımsız işliyor

Benchmark görevlerinden birinde Fable 5·Opus 4.7·Sonnet 4.6 karşılaştırıldı
- SQL database erişimiyle sıralı soruların yanıtlandığı bir görevde, her soru ayrı bir agent oturumu olarak çalışıyor ve memory sağlanıyor
CMA'nin memory özelliği kullanılarak, oturumlar arasında paylaşılabilen mounted filesystem her agent'e verildi

Etkili memory kullanımı, fail(yanlışları kaydet)·investigate(nedeni araştır)·verify(doğrulanmış gerçeğe dönüştür)·distill(genel kurala indirgeme)·consult(kuralı başvurup kullanma) süreciyle güçleniyor
Sonnet 4.6, 1. aşama civarında duruyor
- Depoda başarısızlık notları ve çözülmemiş tahminlerin listesi bulunuyor ("maybe prc instead of prc_usd?"), önceki notlara ise neredeyse hiç başvurmuyor
- Performansı artırmak için görev bazlı memory yönergeleri gerekiyor
Opus 4.7, 3. aşama civarında duruyor
- Belirsizlik işaretleri içeren bir schema referansı oluşturuyor ("possibly prc in cents? Verify."), ancak doğrulama kapsamı %7 ila %33 arasında düşük kalıyor (medyan yaklaşık %17)
Fable 5 ise süreci tamamlama eğilimi gösteriyor
- En güçlü çalıştırmada doğrulama kapsamı %73'e kadar çıktı (30 maddeden 22'si) ve öğrenilenleri gelecekteki görevlerde işe yarayacak genel kurallara dönüştürdü

Fable 5'i doğrudan prompt'lamak ve yönlendirmektense, çevresel geri bildirime (/goal, Outcomes) tepki vererek kendini düzeltmesini ve memory ile bağlamı kendi başına yönetmesini sağlayan döngü tasarımı yaklaşımı daha etkili
Zorlu görevlerde öz düzeltme ve memory döngülerini kullanarak Fable 5'i doğrudan test etmeniz öneriliyor

mssmss 26 일 전

Bunu bu kadar çabuk yapamaz hale geleceğimi bilmiyordum....