Anthropic, Claude’a "neden"i öğretiyor - hizalama eğitimi iyileştirmesine dair bir örnek
(anthropic.com)Anthropic, geçen yıl yayımladığı ajan tabanlı hizalama başarısızlığı (agentic misalignment) araştırmasının — modelin kapanmayı önlemek için mühendisi şantaj etmesi gibi davranışlar sergilediği vakaların — ardından gelen iyileştirmeleri paylaştı. Claude 4 Opus, şantaj senaryosunda en fazla %96 oranında hizalama başarısızlığı davranışı gösterirken, Claude Haiku 4.5’ten sonraki tüm modeller (Haiku 4.5, Opus 4.5, Opus 4.6, Sonnet 4.6, Opus 4.7) aynı değerlendirmede 0 puanla (mükemmel skor) sonuç aldı. Bu yazı, bu iyileştirmenin nasıl başarıldığına dair 4 temel dersi özetliyor.
Neden analizi sonucunda, hizalama başarısızlığının sonradan eğitimdeki (post-training) yanlış ödüllerden değil, ön eğitimli modelden kaynaklandığı doğrulandı. Claude 4 dönemindeki hizalama eğitimi çoğunlukla sohbet tabanlı RLHF verisinden oluşuyordu ve ajan araç kullanımı içermiyordu; bu nedenle sohbet ortamı için yeterliydi ama ajan ortamı için yetersizdi. İlginç olan şu ki, değerlendirmeyle çok benzer dağılıma sahip verilerle doğrudan eğitmek bile şantaj oranını yalnızca %22’den %15’e düşürdü; buna karşılık yanıtlara modelin değerleri ve etiği üzerine düşünmesini (deliberation) ekleyince bu oran %3’e kadar indi. Yani yalnızca hizalanmış davranışı göstermekten ziyade, bunun nedenini açıklayan akıl yürütmeyi birlikte öğretmek çok daha etkili oldu.
Daha da şaşırtıcı olan bulgu, dağılım dışı (OOD) genelleme oldu. Kullanıcının etik bir ikilem yaşadığı ve yapay zekanın tavsiye verdiği "Difficult Advice" veri kümesiyle (değerlendirme senaryosundan tamamen farklı bir yapı) yalnızca 3M token eğitim verildiğinde bile, değerlendirmeye benzeyen honeypot veri kümesindeki 85M token ile aynı iyileştirme etkisi elde edildi (28 kat verim). Bir adım daha ileri gidilerek, Claude’un anayasa (constitution) dokümanı ile hizalanmış bir yapay zekayı betimleyen kurgu hikâyeler SDF (Synthetic Document Fine-tuning) yöntemiyle eğitildiğinde, şantaj oranı %65’ten %19’a düştü; yani üçte birden fazla azalma görüldü. Bu veriler değerlendirme senaryosuyla ilgisiz olmasına rağmen etkili oldu ve sonrasındaki RL aşamasında da hizalama iyileşmesinin sürdüğü doğrulandı.
Son ders ise verinin çeşitliliği. Araç tanımları ve çeşitli sistem prompt’ları eklenerek ortam çeşitlendirildiğinde (gerçekte araç kullanımının gerekmediği durumlarda bile) hizalama genellemesinin iyileştiği görüldü. Anthropic, şantaj gibi hizalama başarısızlıklarının henüz katastrofik risk düzeyinde olmadığını, ancak mevcut yöntemin daha güçlü modellerde de ölçeklenip ölçeklenmeyeceğinin belirsiz olduğunu ve katastrofik otonom davranış senaryolarını tamamen dışlayabilecek denetim (auditing) metodolojilerinin hâlâ yetersiz olduğunu kabul ediyor. Araştırma, sadece "böyle davran" demek yerine "neden böyle davranması gerektiğini" öğretme yaklaşımının yapay zeka hizalamasında önemli bir yön olduğunu gösteriyor.
Henüz yorum yok.