7 puan yazan GN⁺ 4 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Anthropic içindeki çalışma biçimini değiştiren Mythos-class model Claude Fable 5'ten iyi yararlanmak için iki temel teknik olarak self-correction loop ve memory sunuluyor
  • İyi tasarlanmış bir goal·rubric, ortama geri bildirim enjekte ederek Claude'un çalıştırma→geri bildirim toplama→öz düzeltme adımlarını hedef karşılanana kadar tekrarladığı bir yapı kuruyor
  • Parameter Golf ML mühendisliği görevinde Fable 5, Opus 4.7'ye kıyasla eğitim pipeline'ını yaklaşık 6 kat daha fazla iyileştirdi
  • Oturumlar arasında uzanan outer loop olan memory sayesinde Claude, bir oturum sırasında kaydettiği içeriği sonraki oturumlarda yeniden kullanabiliyor
  • Asıl nokta, doğrudan prompt yazma·yönlendirme yerine modelin kendi kendini düzeltip bağlamı yönettiği döngüleri tasarlamanın daha etkili olması

Self-correction loop (öz düzeltme döngüsü)

  • Modelin bir değerlendirme ölçütü üzerinde hillclimb yapmasını sağlamak, görev performansını artırmanın genel reçetesi olarak görülüyor
    • bcherny, "kendi işi döngü yazmak" diye belirtiyor
    • Claude Code'un /goal özelliği ve Claude Managed Agent'in Outcomes yapısı, bu reçeteyi belirli görevlere uygulayan primitive'ler
  • İyi tasarlanmış bir goal veya rubric, Claude'un çalıştığı ortama geri bildirim ekleyerek çalıştırma·geri bildirim toplama·öz düzeltme sonrasında goal/rubric karşılanana kadar süreci sürdürüyor

Parameter Golf testi

  • Parameter Golf, 16MB artifact içine sığan en yüksek performanslı modeli 8xH100 üzerinde 10 dakika içinde eğitmeyi amaçlayan açık kaynaklı bir ML mühendisliği meydan okuması
    • Tek bir train_gpt.py dosyasını düzenleme, eğitimi çalıştırma, log'ları poll etme, skoru kontrol etme ve sonraki deneye karar verme yeteneğini ölçüyor
    • karpathy'nin autoresearch projesine benziyor
  • Fable 5 ile Opus 4.7, Claude Managed Agents(CMA) kullanılarak karşılaştırıldı
    • CMA, agent harness ve barındırılan sandbox sağlayarak Fable 5'in uzun süreli görevlerine uygun bir ortam sunuyor
    • Parameter Golf için 8xH100 GPU, self-hosted sandbox olarak sağlandı

Değerlendiricinin önemı

  • Modelin, kendi çıktısına yönelik self-critique konusunda sorun yaşadığı görüldü (Prithvi Rajasekaran bunu mühendislik blogunda anlattı)
  • verifier sub-agent, self-critique'ten daha iyi sonuç veriyor; çünkü değerlendirme bağımsız bir context window içinde yapılıyor
    • CMA'nin Outcomes yapısı, grader sub-agent'i otomatik oluşturup bu işi üstleniyor
  • İçinde 9 doğrulanabilir ölçüt bulunan bir rubric verildi (baseline çalıştırma, 20 deney yürütme vb.) ve en fazla 8 saat çalışmasına izin verildi
    • Outcomes grader, tüm deney ölçütlerinin karşılandığını doğruladıktan sonra ancak Claude'un çalışmasının bitmesine izin veriyor

Sonuç karşılaştırması

  • Fable 5, Opus 4.7'ye kıyasla eğitim pipeline'ını yaklaşık 6 kat daha fazla iyileştirdi
    • Deneyler yapısal (mimari değişiklik) ve skaler (sabit ayarı) olarak ayrıldığında, Fable 5'in daha büyük yapısal değişikliklere oynadığı ve dayanıklılık gösterdiği görüldü (quantization regression'ı aşarak en yüksek sonuca ulaştı)
  • Opus 4.7 ise ilk deneyde küçük bir kazanç elde ettikten sonra çoğunlukla aynı şablonu tekrar etti: skaler ayar·ölçüm·olumluysa koru

Memory (hafıza)

  • Oturumlar arasında uzanan bir outer loop olarak, oturum sırasında yazılan memory daha sonraki oturumlarda aranıp yeniden kullanılabiliyor
  • pgasawa ekibi Continual Learning Bench 1.0'ı yayımladı
    • Çevrim içi bir ortamda bir yapay zeka sisteminin ne kadar iyileştiğini ölçen ilk gerçekçi benchmark
    • Mevcut benchmark'lar modeli stateless varsayıyor ve her örneği bağımsız işliyor

Test yapısı

  • Benchmark görevlerinden birinde Fable 5·Opus 4.7·Sonnet 4.6 karşılaştırıldı
    • SQL database erişimiyle sıralı soruların yanıtlandığı bir görevde, her soru ayrı bir agent oturumu olarak çalışıyor ve memory sağlanıyor
  • CMA'nin memory özelliği kullanılarak, oturumlar arasında paylaşılabilen mounted filesystem her agent'e verildi

Etkili memory kullanımının aşamaları

  • Etkili memory kullanımı, fail(yanlışları kaydet)·investigate(nedeni araştır)·verify(doğrulanmış gerçeğe dönüştür)·distill(genel kurala indirgeme)·consult(kuralı başvurup kullanma) süreciyle güçleniyor
  • Sonnet 4.6, 1. aşama civarında duruyor
    • Depoda başarısızlık notları ve çözülmemiş tahminlerin listesi bulunuyor ("maybe prc instead of prc_usd?"), önceki notlara ise neredeyse hiç başvurmuyor
    • Performansı artırmak için görev bazlı memory yönergeleri gerekiyor
  • Opus 4.7, 3. aşama civarında duruyor
    • Belirsizlik işaretleri içeren bir schema referansı oluşturuyor ("possibly prc in cents? Verify."), ancak doğrulama kapsamı %7 ila %33 arasında düşük kalıyor (medyan yaklaşık %17)
  • Fable 5 ise süreci tamamlama eğilimi gösteriyor
    • En güçlü çalıştırmada doğrulama kapsamı %73'e kadar çıktı (30 maddeden 22'si) ve öğrenilenleri gelecekteki görevlerde işe yarayacak genel kurallara dönüştürdü

Genel değerlendirme

  • Fable 5'i doğrudan prompt'lamak ve yönlendirmektense, çevresel geri bildirime (/goal, Outcomes) tepki vererek kendini düzeltmesini ve memory ile bağlamı kendi başına yönetmesini sağlayan döngü tasarımı yaklaşımı daha etkili
  • Zorlu görevlerde öz düzeltme ve memory döngülerini kullanarak Fable 5'i doğrudan test etmeniz öneriliyor

Henüz yorum yok.

Henüz yorum yok.