Dil modellerinde öz düzeltme eğitimi için pekiştirmeli öğrenme
-
Öz düzeltme ihtiyacı
- Büyük dil modellerinin (LLM) öz düzeltme yeteneği oldukça arzu edilir, ancak modern LLM'lerde etkili değildir
- Mevcut öz düzeltme eğitim yöntemleri birden fazla model gerektirir ya da daha yetenekli bir model veya başka türde gözetim gerektirir
-
SCoRe yaklaşımı
- SCoRe, tamamen kendi kendine üretilmiş verileri kullanarak LLM'lerin öz düzeltme yeteneğini büyük ölçüde artıran çok turlu çevrimiçi pekiştirmeli öğrenme (RL) yaklaşımıdır
- SCoRe'u oluşturmak için, çevrimdışı model tarafından üretilen düzeltme izleri üzerindeki denetimli ince ayar (SFT) varyantlarının öz düzeltme davranışını aşılamak için yeterli olmadığını gösteriyor
- SFT ile yapılan eğitim, eğitim verisi ile modelin kendi yanıtları arasındaki dağılım uyumsuzluğundan zarar görür ya da yalnızca belirli düzeltme davranışı modlarını tercih ederek test sırasında etkili olmaz
-
SCoRe'un çözümü
- Eğitim süreci, modelin kendi ürettiği düzeltme izi dağılımı altında eğitilecek ve uygun düzenlileştirme kullanılarak test sırasında etkili öz düzeltme stratejileri öğrenilecek şekilde ayarlanır
- İlk RL aşaması çalıştırılarak politika başlatması oluşturulur ve eğitim sırasında öz düzeltmeyi güçlendirmek için ödül bonusu kullanılır
-
Performans sonuçları
- Gemini 1.0 Pro ve 1.5 Flash modellerine uygulandığında, SCoRe sırasıyla MATH ve HumanEval kıyaslamalarında öz düzeltme performansında %15,6 ve %9,1 artış elde etti
GN⁺ özeti
- Bu makale, büyük dil modellerinin öz düzeltme yeteneğini pekiştirmeli öğrenme yoluyla önemli ölçüde artıran bir yöntem öneriyor
- SCoRe yaklaşımı, kendi kendine üretilmiş verileri kullanarak modelin dağılım uyumsuzluğu sorununu çözüyor ve test sırasında etkili düzeltme stratejileri öğrenmesini sağlıyor
- Bu çalışma özellikle Gemini modellerinde dikkat çekici performans artışı gösteriyor
- Öz düzeltme yeteneği, dil modellerinin güvenilirliğini ve doğruluğunu artırmada önemli bir unsur
- Benzer işlevlere sahip projeler arasında OpenAI'nin GPT serisi bulunuyor
1 yorum
Hacker News görüşü
OpenAI'nin o1 modeliyle benzer bir yaklaşım
Answer 1, Reasoning, Corrected Answerve "Corrected Answer'ı iyileştir" sinyalini aldığında iki yol varReasoning, Corrected Answerkısmını iyileştirmekAnswer 1i iyileştiripCorrected AnswerıAnswer 1ile aynı hale getirmekLLM'in kendi eğitimiyle ilgili doğrudan bir hafızası yok
Bunun bir tür bilgi damıtma olup olmadığı soruluyor
Oto-regresif, sonraki token tahmini paradigmasında halüsinasyonun ortadan kaldırılamayacağı görüşü var
Yapay zeka uzmanlarının "halüsinasyon" kavramını yaygınlaştırmasına dair bir şikayet var
Zeki bir algoritmanın zekasız bir sonraki kelime tahmincisini yönlendirmesi hâlâ zekasız bir algoritma demek