Pekiştirmeli öğrenmeyle dil modellerinin kendini düzeltme becerisini eğitmek

(arxiv.org)

2 puan yazan GN⁺ 2024-09-22 | 1 yorum | WhatsApp'ta paylaş

Google DeepMind’in SCoRe yaklaşımı, dış geri bildirim olmadan LLM’lerin kendi yanıtlarını düzeltme becerisini geliştirmek için, modelin bizzat ürettiği düzeltme izlerinden öğrenen çok turlu çevrimiçi pekiştirmeli öğrenme yaklaşımıdır
Mevcut SFT yaklaşımı, eğitim verilerindeki hatalar ile gerçek model hatalarının ayrıştığı dağılım uyumsuzluğuna veya ikinci yanıtta neredeyse hiç düzeltme yapılmayan davranış çöküşüne karşı kırılgandır
SCoRe, ilk deneme dağılımını temel modele yakın tutup ikinci denemeyi iyileştirecek şekilde başlatır, ardından reward shaping ile gerçek düzeltme davranışını güçlendirir
Gemini 1.0 Pro ve Gemini 1.5 Flash deneylerinde, temel modele kıyasla kendini düzeltme performansı MATH’ta 15.6 yüzde puan, HumanEval’de 9.1 yüzde puan iyileşmiştir
Yalnızca prompting veya çevrimdışı SFT ile içsel kendini düzeltme becerisinin istikrarlı biçimde ortaya çıkması zordur; bunun için kendi üretilen veri üzerinde çöküşü engelleyen bir pekiştirmeli öğrenme tasarımı gerekir

SCoRe’un hedeflediği kendini düzeltme problemi

LLM’ler matematik ve kodlama gibi akıl yürütme görevlerinde faydalıdır, ancak test anında kendi yanıtlarını gözden geçirip düzelten bu meta stratejiyi istikrarlı biçimde uygulayamazlar
Kendini düzeltme, modelin ilk yanıtını yeniden değerlendirip bunu daha iyi bir nihai yanıta dönüştürme becerisidir
Bu çalışma, dış girdi olmadan modelin kendi yanıtını düzelttiği içsel kendini düzeltme ayarına odaklanır
- Test anında doğru yanıt denetleyicisi veya dış geri bildirim kullanılmaz
- Eğitim sırasında ise model çıktısının doğru olup olmadığını değerlendiren bir reward fonksiyonuna erişildiği varsayılır
SCoRe, ayrı bir düzeltme modeli olmadan, tek bir modelin hem ilk yanıtı hem de hata düzeltmesini üretmesini sağlayacak şekilde eğitilir

Mevcut yaklaşımların tıkandığı noktalar

Yalnızca prompting ile kendini düzeltmeyi teşvik etmek, birçok önceki çalışmada performansı düşürebilir
Bazı yöntemler doğru cevaplar, test case’ler, daha güçlü bir model, insan anotasyonları veya ayrı bir refinement modeli gibi ek koşullara dayanır
SFT tabanlı yaklaşımlar kendi üretilen düzeltme izlerini kullanabilse de, deneylerde bu durum güçlü bir kendini düzeltme etkisine dönüşmez
MATH karşılaştırma deneylerinde STaR ve Pair-SFT varyantları kullanılmıştır
- STaR, yanlış yanıtı başarıyla düzelten izleri bırakıp bunlarla SFT uygular
- Pair-SFT, yanlış yanıt ile doğru yanıtı eşleyen sentetik repair trace üzerinden tek bir modeli eğitir

SFT tabanlı kendini düzeltme deney sonuçları

Gemini 1.5 Flash tabanlı MATH deneyinde temel modelin ilk deneme doğruluğu %52.6, ikinci deneme doğruluğu %41.4’tür; yani performans 11.2 yüzde puan kötüleşmiştir
Pair-SFT ikinci deneme doğruluğunu %54.2’ye çıkarmış, ancak ilk denemeye göre iyileşme yalnızca 1.8 yüzde puan olmuştur
STaR’ın temel ayarında ilk deneme %55.4, ikinci deneme %41.2 olmuş ve 14.2 yüzde puan düşüş görülmüştür
correct-to-correct verisi eklenen STaR’da Δ(t1,t2) 0.4 yüzde puana iyileşmiştir, ancak kendini düzeltme etkisi sınırlı kalmıştır
correct-to-correct verisi eklenen Pair-SFT’de ise ilk ve ikinci deneme de %55.0 olmuş, model yanıtı değiştirmemeye doğru kaymıştır

İki tür başarısızlık modu

SFT tabanlı yöntemler dağılım uyumsuzluğuna karşı zayıftır
- Eğitim verisi, temel modelin ürettiği ilk deneme hatalarına göre kuruludur
- Eğitilmiş modelin kendi ürettiği ilk deneme hata dağılımında düzeltme performansı düşebilir
Pair-SFT, sabit bir ilk yanıt kümesinde correction accuracy’yi artırsa da, öğrenicinin kendisinin ürettiği ilk yanıtlarda kendini düzeltme doğruluğu kötüleşir
Davranış çöküşü oluştuğunda model ikinci denemede gerçek bir düzeltme yapmaz veya yalnızca çok muhafazakâr düzeltmeler yapar
Edit distance ratio analizi, STaR ve SFT modellerinin sık sık neredeyse hiç değişiklik yapmayan bir örüntü sergilediğini gösterir
Standart çok turlu RL her iki denemenin performansını artırabilir, ancak ilk ve ikinci deneme arasındaki farkı Δ(t1,t2) büyütemediği için bunu kendini düzeltme becerisine dönüştürmek zordur

SCoRe’un eğitim yapısı

SCoRe, kendi üretilen çevrimiçi veriden öğrenerek dağılım uyumsuzluğunu azaltan bir on-policy çok turlu RL yaklaşımıdır
Temel RL eğitiminde, sabit bir modele karşı KL-divergence penalty içeren REINFORCE politika gradyanı yöntemi kullanılır
Stage I, iki denemenin davranışlarını ayırmaya yönelik bir başlatma aşamasıdır
- İlk deneme dağılımını temel modele yakın tutmak için KL kısıtı uygulanır
- İkinci deneme yüksek reward alacak şekilde eğitilir
- Amaç, ikinci denemede daha iyi yanıtlar keşfedebilecek bir başlangıç politikası oluşturmaktır
Stage II, iki denemeyi birlikte optimize eder
- İkinci deneme reward’una bir progress bonus eklenir
- İkinci deneme, birinci denemeye göre doğruluk durumunu iyileştirdiğinde bonus güçlenir
- Doğru olan ilk yanıtı yanlış bir yanıta dönüştüren geçişler güçlü negatif etki alır

Neden reward shaping gerekli?

Yalnızca standart RL hedefi kullanıldığında iki farklı strateji de mümkün olur
- İlk yanıtı ikinci yanıtta iyileştirme stratejisi
- İlk yanıtı olabildiğince iyi yapıp ikinci yanıtta neredeyse hiç düzeltme yapmama stratejisi
Eğitim verisinde iki strateji de iyi görünebilir, ancak ikincisi yeni problemlerde kendini düzeltme olarak genellenmez
SCoRe’un reward shaping yaklaşımı, yalnızca nihai doğruluğu değil, doğruluktaki değişimi de ödüle yansıtır
Bu tasarım, sadece yüksek reward alan yanıtı bulmak yerine, yanlış ilk yanıtı doğru ikinci yanıta dönüştüren davranışı güçlendirir

Performans ve örnekler

SCoRe, MATH’ta ikinci denemede aritmetik hataları ve akıl yürütme hatalarını düzelten örnekler gösterir
- Aritmetik örneğinde, modüler çarpım hesabındaki ilk yanıt 1 iken ikinci denemede 3’e düzeltilir
- Akıl yürütme örneğinde, fonksiyonun değer kümesinin eleman sayısı probleminde ilk yanıt ∞ iken ikinci denemede 3’e düzeltilir
Gemini 1.0 Pro ve Gemini 1.5 Flash üzerinde SCoRe, en üst düzey kendini düzeltme performansına ulaşır
Temel Gemini modellerine kıyasla kendini düzeltme iyileşmesi MATH’ta 15.6 yüzde puan, HumanEval’de 9.1 yüzde puandır
MATH çıkarım zamanı scaling deneylerinde, örnekleri yalnızca paralel doğrudan üretime ayırmak yerine sıralı kendini düzeltmeye ayırmanın daha etkili olduğu bir aralık görülür

Pratik çıkarımlar

Kendini düzeltme eğitimi, yalnızca doğru yanıt verisi toplayıp SFT yapmakla ele alınması zor bir problemdir
Modelin test anında kendi ürettiği hataları düzeltmesi gerekiyorsa, eğitim sırasında da modelin kendi yanıt dağılımı üzerinde düzeltme davranışını öğrenmesi gerekir
SCoRe’un temel kısıtı, eğitim sırasında doğruluğu değerlendiren bir reward fonksiyonuna ihtiyaç duyması, ancak test anında bu reward’un kullanılmamasıdır
Tek model dağıtımını koruyarak kendini düzeltme becerisini geliştirmek için, ayrı bir düzeltme modeli veya teacher supervision olmadan da çok turlu RL ve çöküşü önleyen reward tasarımı gerekir

1 yorum

GN⁺ 2024-09-22

Hacker News yorumları

OpenAI’nin o1 modeline benzer bir yaklaşım gibi görünüyor, ancak o1 makalesi yayımlanmadığı için atıf yok.
Ne yazık ki ağırlıkların yayımlanması konusunda bir ifade görünmüyor.
- Bu makale, ana eğitimin bir parçası olarak ya da sonrasında pekiştirmeli öğrenme kullanmayı ve ardından modelin her zamanki gibi çıkarım yapmasını ele alıyor gibi.
  o1’de de böyle olmuş olabilir, ancak bence daha büyük değişim, prompt alındıktan sonra kesin yanıtı vermeden önce kelimelerle “düşünerek” çalışma anında yeniden ayar yapan çalışma zamanı düşünme süreci.
  Bu anlayış doğruysa iki yaklaşım benzer değil. Bildiğim kadarıyla OpenAI, ChatGPT’nin ilk sürümünden sonraki tüm modellerde pekiştirmeli öğrenme kullandı; zaten arayüzde geri bildirim bırakılabilmesinin nedeni de bu.
- Hangi açıdan benzer olduğunu merak ediyorum.
Makale, temel önermeyi doğrudan açıklamak yerine etrafında fazla dolaştığı için anlaması biraz zordu. Benim anladığım kadarıyla amaç, zor problemlerde LLM’in daha doğru yanıtlar vermesini sağlamak.
Bir hipotez, modele öz düzeltme davranışı öğretilerek, yanlış bir yanıtı girdi olarak alıp daha iyi bir yanıta ya da doğru yanıta iyileştirmesinin sağlanabileceği.
Daha önce de düzeltilmiş yanıtın kalitesini ödül olarak kullanan çeşitli pekiştirmeli öğrenme teknikleriyle bu davranış öğretilmeye çalışılmış, ancak iyi çalışmamış ve öğrenilen davranış da iyi genellenmemiş.
Bu makalenin özü şu: Model Answer 1, Reasoning, Corrected Answer eğitim örnekleri ve “Corrected Answer’ı daha iyi yap” sinyali aldığında, aslında tamamen olası iki çözüm yolu var. Biri bizim istediğimiz gibi Reasoning, Corrected Answer’ı iyileştirmek; diğeri ise sadece Answer 1’in kendisini iyileştirip Corrected Answer = Answer 1 olmasını sağlamak.
Önceki çalışmalarda ikincisinin gerçekten gerçekleştiği ve bu yüzden istenen davranışın öğrenilemediği düşünülüyor. Model, düzeltme davranışını iyileştirmek yerine sadece ilk yanıtı iyileştirmeye çalışıyor.
Bu makalenin çözümü, eğitim prosedürünü biraz değiştirerek ilk yaklaşımı teşvik etmek. Yani önceki yanıtı düzeltme yönündeki istenen davranışı gerçekten öğretmeye yönelik bir deneme.
Eğitim iki aşamada ilerliyor. 1. aşamada, KL ayrışımı kaybıyla ilk yanıtı olduğu gibi korumaya zorlayıp ikinci yanıt iyileştiğinde ödül veriyor. Böylece başlangıçtaki yanıt dağılımı korunuyor; daha sonra yanlış yanıtların eğitimle modelden kaybolup modelin “yanlış yanıtları” daha az görmesi sorunu önlenirken, modelde öz düzeltme davranışı başlatılabiliyor.
2. aşamada model ilk yanıtı da değiştirebiliyor, ancak ödül fonksiyonu ayarlanarak ilk yanıtın kötü, ikinci yanıtın iyi olduğu tersine çevirmelere daha yüksek ödül veriliyor. Bu aşamada hem ilk yanıtı iyileştirme stratejisi hem de öz düzeltmeyi iyileştirme stratejisi kullanılabiliyor, fakat daha büyük ödül ikincisine gidiyor. Genel performansı inceltirken öz düzeltme davranışını korumaya çalışan bir arıtma süreci gibi görünüyor.
Metriklere göre bu teknik daha iyi çalışıyor ve daha iyi genelleniyor.
Yine de 2. aşamada modelin tersine çevirme ödülünü maksimize etmek için Answer 1’i bilerek daha kötü yazmayı öğrenmesinden biraz endişeliyim. Answer 1’in kötüleşmemesi için bir denge mekanizması gerekir; bunun ödül fonksiyonunda olup olmadığından ya da gerçekten geçerli bir endişe olup olmadığından pek emin değilim.
- Yanıtlarda fikrin etrafında dolaşma biçimi, birçok LLM çıktısında görülen olguyu iyi açıklıyor. o1’i doğrudan kullanmadım, ama sanki bu sorunu düzeltiyormuş gibi görünüyor.
- “Diğeri ise sadece Answer 1’in kendisini iyileştirip Corrected Answer = Answer 1 olmasını sağlamak” kısmının ne anlama geldiğini merak ediyorum.
  Answer 1’i iyileştirmek zaten amaç değil mi? Sadece açıklamaya bakınca Answer 1 girdi değil de LLM’in çıktısıymış gibi geliyor.
LLM, kendi öğrenme sürecinin duyusal deneyimini doğrudan hatırlayamaz. Kendimi düzeltmemin başlıca yollarından biri, bir şey hakkında konuşmaya çalışırken onu nasıl/neden bildiğimi sorgulamak; gerçekten bilip bilmediğimi, uydurup uydurmadığımı ya da güvenilirliği düşük bir kaynaktan duyup duymadığımı kestirmektir.
LLM herhangi bir şekilde kendi öğrenmesini hatırlayamıyorsa kendini düzeltmenin zor olduğunu düşünüyorum
- Yani çözüm, her eğitim partisinin başına duyusal deneyim betimlemesi eklemek mi demek? Örneğin “1997’de Paris’te bir kafede aşağıdaki içeriği okudun. Okurken harika bir baget, haşlanmış yumurta ve fazla kavrulmuş kahve yiyip içiyordun. Yan masadaki kadın güzel mavi bir şapka takıyordu” gibi.
  Sonra da nihai modeli sonradan eğitip hangi metni nerede okuduğunu hatırlamasını ya da okumadığı bir metin çıkarsa hiçbir deneyimi hatırlamamasını mı sağlamak?
  Biri bunu deneyip başarılı olursa doktorayı bırakıp kamp danışmanlığına geri döneceğim
- Benzer bir yönde görünüyor. Gerçekten işe yarıyor: Source-Aware Training Enables Knowledge Attribution in Language Models (https://arxiv.org/abs/2404.01019)
  Özete göre, LLM’lere böyle bir yetenek kazandırmak için kaynak farkındalıklı eğitimi inceliyorlar. Daha somut olarak (i) LLM’i her belgedeki bilgiyi benzersiz bir kaynak belge tanımlayıcısıyla ilişkilendirecek şekilde eğitiyor, ardından (ii) bir istem verildiğinde destekleyici ön eğitim kaynaklarını alıntılaması için talimat ayarı yapıyorlar
- Kesinlikle katılmıyorum: https://mypapers.nyc3.cdn.digitaloceanspaces.com/the_phenomenology_of_machine.pdf
  Bu da bakmaya değer: https://www.sciencedirect.com/science/article/pii/S1571064523001094
  o1’in eğitim biçimi bu formülasyonda strange particle modeliyle açıklanıyor
- Günlük kullanımda bunun değerine fazla ağırlık veriyor gibisin. Bilgi biriktiğinde, özellikle de bir sistemin içine gömülü olmayan ansiklopedik kırıntı bilgilerde, “bunu neden bildiğimi bilmiyorum ama cevap X” örüntüsü yaygındır.
  Bilgisayar bilimi gibi bir sistem içindeki bilgi söz konusu olsa bile, zaman geçtikçe duyusal deneyim arka planda silikleşir. Örneğin bilgisayar bilimiyle uğraşanlar gibi ben de epey çok algoritmanın O() performans özelliklerini anında söyleyebilirim, ama belirli bir algoritmayı nerede öğrendiğim çoktan bulanıklaştı.
  İnsanların kendini düzeltirken izlediği genel süreç “bunu bilip bilmediğimi kestirmek” ya da “güvenilirliği düşük bir kaynaktan duyup duymadığımı hatırlamak” gibi büyük bir iş değildir. Genellikle “tam olarak anlamadım” diye bulanık bir his vardır; kendini düzeltme de bilgiyi güvenilir bir kaynaktan yeniden doğrulamaktır.
  Bu yüzden hafıza geri çağırımında duyusal deneyimin sanıldığı kadar önemli olduğunu düşünmüyorum
- Uyuşturucu etkisi altında değilsen ya da ciddi bir ruh sağlığı krizi yaşamıyorsan, bu halüsinasyondan çok konfabulasyona yakındır
Spoiler: otoregresif sonraki token tahmini paradigmasında halüsinasyonları ortadan kaldıramazsınız; namıdiğer LeCun yasası.
Buradaki sorun, insanların dil modellerini gerçekten iyi oldukları iş olan yarı yaratıcı metin üretimi yerine deterministik problem çözücü olarak kullanmaya çalışması
- LeCun yasası diye gerçekten bir şey var mı? Arayınca neredeyse hiç sonuç çıkmıyor; sadece farklı bir tanımla kullanılan bir HN yorumu gibi şeyler çıkıyor. Pek bilinmeyen bir makaleden çıkmış olabilir ama belgelendirme bu kadar zayıfken bu bağlamda gündeme getirmek garip görünüyor
- Önceki token’ların perplexity değerini modele geri besleyip modelin raydan çıktığını fark etmesini sağlamaya çalışan biri var mı merak ediyorum.
  Böyle bir durumda, daha az kendinden emin yanıtlar vermek üzere eğitilerek halüsinasyon eğilimi azaltılabilir belki
- Bu bakış açısının ortaya çıkmasına sevindim.
  İnsanlara bunu şöyle anlatıyorum: Yalnızca halkla ilişkiler departmanı olan bir şirket hayal edin. Basın bülteni hazırlamakta ve gazetecilerin sorularını yanıtlamakta çok iyi, ama şirketin geri kalanı olmadığı için çıktı metnini anlamlı biçimde kısıtlayan hiçbir şey yok.
  İnsanların bunu anladığı başka bir evrende, LLM’ler ciddi işlerde hiç kullanılmaz, eğlenceli küçük sanat projelerinde bolca kullanılırdı
- LeCun’un argümanı ciddi biçimde kusurlu. Hiç titiz değil ve hiçbir dayanak olmadan bu kadar kapsamlı bir sonuca varılmamalı
- Sorun “asla” kelimesinin kendisi değil. İnsanlar da benzer şekilde davranıyor.
  Nükleer füzyonu yalnızca bir kez düzgün çözmek yeterli
Bu aslında bir tür bilgi damıtma mı?
Yapay zeka eleştirmenlerinin halüsinasyon ifadesini popülerleştirmesinden hoşlanmıyorum. İstatistik yığınını insanlaştırıp, sanki insan zihnine benzer derin bir düşünme süreci yürütüyormuş gibi gösteriyor
Hayır, “halüsinasyon” görmüyor. Yalan söylemiyor ya da uydurmuyor da. underlying weights neyi tetikliyorsa veriyi dışarı kusuyor
Bu sıradan bir JSON API endpoint’i olsaydı, API halüsinasyon görüyor demezdik; bozuk olduğu için “bu API berbat” derdik
- Ben tersinden bakıyorum. İnsanlar insan zihninin “derin düşünme” yaptığını sanıyor, ama gerçekte o da sadece bir istatistik yığını olabilir
- Doğru kelime konfabulasyon. Eksik bilgiyi dolduran, ama bunu yaptığının farkında olmayabilen bir olgu
  Hiçbir sinir sistemi eğitim verisini kusursuz biçimde saklayamadığı için hepimiz bir ölçüde konfabulasyon yaparız
  Buna karşılık insanın “halüsinasyonu”, duyusal geri bildirim döngüsünün belirli bir çöküşüne daha yakındır. LLM’lerde baştan böyle bir süreç yoktur
  Halüsinasyon, iç duyusal geri bildirim döngüsü gerçek duyusal girdiyi bastırdığında; sahte bir duyusal deneyim ya da sinyal akışı üretilip işlendiğinde ortaya çıkar. Bu sahte ilerleyen deneyim, gerçek duyusal bilgilerin bir kısmını içerebilir de içermeyebilir de
  Rüya gördüğümüzde halüsinasyon görürüz. Gerçek duyulardan kopmuş bir duyusal deneyim döngüsü serbestçe çalışır, ama üretken bir amacı da vardır
  Duyularda geri bildirim olmasının nedeni, duyusal girdiye dair yorumu ipucu olarak kullanıp bir sonraki andaki girdinin yorumlanmasını kolaylaştırmaktır. Ancak yeni girdi beklentiden büyük ölçüde saparsa, sürmekte olan yorumun sıfırlanıp hızla yönünü yeniden bulması önemlidir
  Gerçek bağlam değişimine göre yanlış yorumu düzeltmek için ham girdi yorumuna geri dönmek önemli olmakla kalmaz; bu tür bir sıfırlama, yeni ya da beklenmedik bir şey olduğuna dair sinyal olduğundan öğrenmeyi tetikleme olasılığı da yüksektir
  Bu yüzden “halüsinasyon” teriminin seçimi talihsizdi ve yanlış anlaşılmalara yol açtı
- Kötü haber ama bu terim, LLM’ler ortaya çıkmadan çok önce derin öğrenme araştırmalarında kullanılıyordu. Eleştirmenlerin bir şeyi popülerleştirmeye ya da LLM’lerin eksiklerini meşrulaştırmaya çalışması değil; araştırmacıların üzerinde çalıştıkları olguya verdiği addı
  LLM’lerden önce bu şekilde kullanıldığı makale örnekleri şunlar
  2021: The Curious Case of Hallucinations in Neural Machine Translation (https://arxiv.org/abs/2104.06683)
  2019: Identifying Fluently Inadequate Output in Neural and Statistical Machine Translation (https://aclanthology.org/W19-6623/)
Zeki bir algoritmayla aptal, zekâsız bir sonraki kelime tahmincisini yönlendirseniz bile, sonuçta bu yalnızca zekâsız bir algoritmadır
Çöpü daha zarif biçimde sınıflandırdığı doğru, ama sonuçta çöp olduğu gerçeği değişmiyor
Pekiştirmeli öğrenmeye benzer bir yaklaşımın Transformer benzeri yaklaşımların yerini almasını ummuştum, ama bu neredeyse boş bir hayaldi

Pekiştirmeli öğrenmeyle dil modellerinin kendini düzeltme becerisini eğitmek

SCoRe’un hedeflediği kendini düzeltme problemi

Mevcut yaklaşımların tıkandığı noktalar

SFT tabanlı kendini düzeltme deney sonuçları

İki tür başarısızlık modu

SCoRe’un eğitim yapısı

Neden reward shaping gerekli?

Performans ve örnekler

Pratik çıkarımlar

İlgili okumalar

1 yorum

Hacker News yorumları