Fable 5 ile döngü tasarlamak
(x.com/RLanceMartin)- Anthropic içindeki çalışma biçimini değiştiren Mythos-class model Claude Fable 5'ten iyi yararlanmak için iki temel teknik olarak self-correction loop ve memory sunuluyor
- İyi tasarlanmış bir goal·rubric, ortama geri bildirim enjekte ederek Claude'un çalıştırma→geri bildirim toplama→öz düzeltme adımlarını hedef karşılanana kadar tekrarladığı bir yapı kuruyor
- Parameter Golf ML mühendisliği görevinde Fable 5, Opus 4.7'ye kıyasla eğitim pipeline'ını yaklaşık 6 kat daha fazla iyileştirdi
- Oturumlar arasında uzanan outer loop olan memory sayesinde Claude, bir oturum sırasında kaydettiği içeriği sonraki oturumlarda yeniden kullanabiliyor
- Asıl nokta, doğrudan prompt yazma·yönlendirme yerine modelin kendi kendini düzeltip bağlamı yönettiği döngüleri tasarlamanın daha etkili olması
Self-correction loop (öz düzeltme döngüsü)
- Modelin bir değerlendirme ölçütü üzerinde hillclimb yapmasını sağlamak, görev performansını artırmanın genel reçetesi olarak görülüyor
- bcherny, "kendi işi döngü yazmak" diye belirtiyor
- Claude Code'un /goal özelliği ve Claude Managed Agent'in Outcomes yapısı, bu reçeteyi belirli görevlere uygulayan primitive'ler
- İyi tasarlanmış bir goal veya rubric, Claude'un çalıştığı ortama geri bildirim ekleyerek çalıştırma·geri bildirim toplama·öz düzeltme sonrasında goal/rubric karşılanana kadar süreci sürdürüyor
Parameter Golf testi
- Parameter Golf, 16MB artifact içine sığan en yüksek performanslı modeli 8xH100 üzerinde 10 dakika içinde eğitmeyi amaçlayan açık kaynaklı bir ML mühendisliği meydan okuması
- Tek bir
train_gpt.pydosyasını düzenleme, eğitimi çalıştırma, log'ları poll etme, skoru kontrol etme ve sonraki deneye karar verme yeteneğini ölçüyor - karpathy'nin autoresearch projesine benziyor
- Tek bir
- Fable 5 ile Opus 4.7, Claude Managed Agents(CMA) kullanılarak karşılaştırıldı
- CMA, agent harness ve barındırılan sandbox sağlayarak Fable 5'in uzun süreli görevlerine uygun bir ortam sunuyor
- Parameter Golf için 8xH100 GPU, self-hosted sandbox olarak sağlandı
Değerlendiricinin önemı
- Modelin, kendi çıktısına yönelik self-critique konusunda sorun yaşadığı görüldü (Prithvi Rajasekaran bunu mühendislik blogunda anlattı)
- verifier sub-agent, self-critique'ten daha iyi sonuç veriyor; çünkü değerlendirme bağımsız bir context window içinde yapılıyor
- CMA'nin Outcomes yapısı, grader sub-agent'i otomatik oluşturup bu işi üstleniyor
- İçinde 9 doğrulanabilir ölçüt bulunan bir rubric verildi (baseline çalıştırma, 20 deney yürütme vb.) ve en fazla 8 saat çalışmasına izin verildi
- Outcomes grader, tüm deney ölçütlerinin karşılandığını doğruladıktan sonra ancak Claude'un çalışmasının bitmesine izin veriyor
Sonuç karşılaştırması
- Fable 5, Opus 4.7'ye kıyasla eğitim pipeline'ını yaklaşık 6 kat daha fazla iyileştirdi
- Deneyler yapısal (mimari değişiklik) ve skaler (sabit ayarı) olarak ayrıldığında, Fable 5'in daha büyük yapısal değişikliklere oynadığı ve dayanıklılık gösterdiği görüldü (quantization regression'ı aşarak en yüksek sonuca ulaştı)
- Opus 4.7 ise ilk deneyde küçük bir kazanç elde ettikten sonra çoğunlukla aynı şablonu tekrar etti: skaler ayar·ölçüm·olumluysa koru
Memory (hafıza)
- Oturumlar arasında uzanan bir outer loop olarak, oturum sırasında yazılan memory daha sonraki oturumlarda aranıp yeniden kullanılabiliyor
- pgasawa ekibi Continual Learning Bench 1.0'ı yayımladı
- Çevrim içi bir ortamda bir yapay zeka sisteminin ne kadar iyileştiğini ölçen ilk gerçekçi benchmark
- Mevcut benchmark'lar modeli stateless varsayıyor ve her örneği bağımsız işliyor
Test yapısı
- Benchmark görevlerinden birinde Fable 5·Opus 4.7·Sonnet 4.6 karşılaştırıldı
- SQL database erişimiyle sıralı soruların yanıtlandığı bir görevde, her soru ayrı bir agent oturumu olarak çalışıyor ve memory sağlanıyor
- CMA'nin memory özelliği kullanılarak, oturumlar arasında paylaşılabilen mounted filesystem her agent'e verildi
Etkili memory kullanımının aşamaları
- Etkili memory kullanımı, fail(yanlışları kaydet)·investigate(nedeni araştır)·verify(doğrulanmış gerçeğe dönüştür)·distill(genel kurala indirgeme)·consult(kuralı başvurup kullanma) süreciyle güçleniyor
- Sonnet 4.6, 1. aşama civarında duruyor
- Depoda başarısızlık notları ve çözülmemiş tahminlerin listesi bulunuyor ("maybe prc instead of prc_usd?"), önceki notlara ise neredeyse hiç başvurmuyor
- Performansı artırmak için görev bazlı memory yönergeleri gerekiyor
- Opus 4.7, 3. aşama civarında duruyor
- Belirsizlik işaretleri içeren bir schema referansı oluşturuyor ("possibly prc in cents? Verify."), ancak doğrulama kapsamı %7 ila %33 arasında düşük kalıyor (medyan yaklaşık %17)
- Fable 5 ise süreci tamamlama eğilimi gösteriyor
- En güçlü çalıştırmada doğrulama kapsamı %73'e kadar çıktı (30 maddeden 22'si) ve öğrenilenleri gelecekteki görevlerde işe yarayacak genel kurallara dönüştürdü
Genel değerlendirme
- Fable 5'i doğrudan prompt'lamak ve yönlendirmektense, çevresel geri bildirime (/goal, Outcomes) tepki vererek kendini düzeltmesini ve memory ile bağlamı kendi başına yönetmesini sağlayan döngü tasarımı yaklaşımı daha etkili
- Zorlu görevlerde öz düzeltme ve memory döngülerini kullanarak Fable 5'i doğrudan test etmeniz öneriliyor
Henüz yorum yok.