2 puan yazan GN⁺ 2024-09-22 | 1 yorum | WhatsApp'ta paylaş

Dil modellerinde öz düzeltme eğitimi için pekiştirmeli öğrenme

  • Öz düzeltme ihtiyacı

    • Büyük dil modellerinin (LLM) öz düzeltme yeteneği oldukça arzu edilir, ancak modern LLM'lerde etkili değildir
    • Mevcut öz düzeltme eğitim yöntemleri birden fazla model gerektirir ya da daha yetenekli bir model veya başka türde gözetim gerektirir
  • SCoRe yaklaşımı

    • SCoRe, tamamen kendi kendine üretilmiş verileri kullanarak LLM'lerin öz düzeltme yeteneğini büyük ölçüde artıran çok turlu çevrimiçi pekiştirmeli öğrenme (RL) yaklaşımıdır
    • SCoRe'u oluşturmak için, çevrimdışı model tarafından üretilen düzeltme izleri üzerindeki denetimli ince ayar (SFT) varyantlarının öz düzeltme davranışını aşılamak için yeterli olmadığını gösteriyor
    • SFT ile yapılan eğitim, eğitim verisi ile modelin kendi yanıtları arasındaki dağılım uyumsuzluğundan zarar görür ya da yalnızca belirli düzeltme davranışı modlarını tercih ederek test sırasında etkili olmaz
  • SCoRe'un çözümü

    • Eğitim süreci, modelin kendi ürettiği düzeltme izi dağılımı altında eğitilecek ve uygun düzenlileştirme kullanılarak test sırasında etkili öz düzeltme stratejileri öğrenilecek şekilde ayarlanır
    • İlk RL aşaması çalıştırılarak politika başlatması oluşturulur ve eğitim sırasında öz düzeltmeyi güçlendirmek için ödül bonusu kullanılır
  • Performans sonuçları

    • Gemini 1.0 Pro ve 1.5 Flash modellerine uygulandığında, SCoRe sırasıyla MATH ve HumanEval kıyaslamalarında öz düzeltme performansında %15,6 ve %9,1 artış elde etti

GN⁺ özeti

  • Bu makale, büyük dil modellerinin öz düzeltme yeteneğini pekiştirmeli öğrenme yoluyla önemli ölçüde artıran bir yöntem öneriyor
  • SCoRe yaklaşımı, kendi kendine üretilmiş verileri kullanarak modelin dağılım uyumsuzluğu sorununu çözüyor ve test sırasında etkili düzeltme stratejileri öğrenmesini sağlıyor
  • Bu çalışma özellikle Gemini modellerinde dikkat çekici performans artışı gösteriyor
  • Öz düzeltme yeteneği, dil modellerinin güvenilirliğini ve doğruluğunu artırmada önemli bir unsur
  • Benzer işlevlere sahip projeler arasında OpenAI'nin GPT serisi bulunuyor

1 yorum

 
GN⁺ 2024-09-22
Hacker News görüşü
  • OpenAI'nin o1 modeliyle benzer bir yaklaşım

    • Makalede ağırlıkların yayımlanmasına dair bir ifade yok
    • Makale konuyu doğrudan anlatmak yerine dolanarak anlattığı için anlaşılması zordu
    • Zor problemlerde LLM'in doğru cevap oranını artırmak için "kendi kendini düzeltme" davranışını eğitmeye yönelik bir teori var
    • Bu davranışı çeşitli pekiştirmeli öğrenme teknikleriyle eğitmeye çalışmışlar, ancak iyi çalışmamış
    • Makalenin iddiasına göre model Answer 1, Reasoning, Corrected Answer ve "Corrected Answer'ı iyileştir" sinyalini aldığında iki yol var
      • Reasoning, Corrected Answer kısmını iyileştirmek
      • Answer 1i iyileştirip Corrected Answerı Answer 1 ile aynı hale getirmek
    • Önceki araştırmalar, çoğunlukla ikinci yolun ortaya çıktığını ve bu yüzden istenen davranışın eğitilemediğini gösteriyor
    • Makale, eğitim yöntemini biraz değiştirerek modeli birinci yolu kullanmaya yönlendiriyor
    • İlk aşamada KL divergence loss ile modelin ilk cevabı korurken ikinci cevabı iyileştirmesi zorlanıyor
    • İkinci aşamada ilk cevap değiştirilebilir hale geliyor, ancak ödül fonksiyonu "flip"lere daha yüksek ödül verecek şekilde ayarlanıyor
    • Bu yöntem, genel olarak modeli iyileştirirken kendi kendini düzeltme davranışını da koruyor
      1. aşamada modelin ödülü maksimize etmek için ilk cevabı bilerek daha kötü yazmaya çalışabileceğine dair endişe var
  • LLM'in kendi eğitimiyle ilgili doğrudan bir hafızası yok

    • İnsanlar, bildikleri bir şeyi söylemeden önce onu nasıl/neden bildiklerini kontrol eder
    • LLM ise eğitimini hatırlamadığı için kendi kendini düzeltmekte zorlanır
  • Bunun bir tür bilgi damıtma olup olmadığı soruluyor

  • Oto-regresif, sonraki token tahmini paradigmasında halüsinasyonun ortadan kaldırılamayacağı görüşü var

    • Sorun, dil modelini deterministik bir problem çözücü gibi kullanmaya çalışmak
  • Yapay zeka uzmanlarının "halüsinasyon" kavramını yaygınlaştırmasına dair bir şikayet var

    • Bu, sanki yapay zeka derin bir düşünme sürecinden geçiyormuş gibi gösteriyor
    • Yapay zeka sadece veriye dayanarak çıktı üretiyor
    • Bir JSON API endpoint'i yanlış veri üretse, "bu API bozuk" denirdi
  • Zeki bir algoritmanın zekasız bir sonraki kelime tahmincisini yönlendirmesi hâlâ zekasız bir algoritma demek

    • Çöpü daha zarif biçimde sınıflandırıyor ama hâlâ çöp
    • Pekiştirmeli öğrenme yaklaşımının transformer yaklaşımının yerini almasını umuyordum, ama bu sadece bir hayaldi