- Reinforcement Learning from Human Feedback (RLHF), ön eğitim (pretraining) ve gözetimli ince ayar (supervised finetuning, SFT) sonrasında LLM eğitiminin üçüncü (ve son) ana aşamasıdır
- RLHF hakkındaki düşüncem, bunun RL'in yalnızca bir alt parçası olduğu yönünde ve bu pek bilinmiyor
- RLHF'ye aslında RL (pekiştirmeli öğrenme) demek için yeterli gerekçe yok
- Örneğin AlphaGo gerçek RL ile eğitildi; eğer RLHF ile eğitilseydi bugünkü performansına ulaşamazdı
- AlphaGo RLHF ile eğitilseydi ne olurdu?
- İnsan değerlendiricilere iki Go tahtası durumu gösterilir ve hangisinin daha iyi olduğunu seçmeleri istenir
- Bu tür karşılaştırmalardan yaklaşık 100 bin tane toplanır ve insan değerlendirmesini (Vibe Check) taklit eden bir 'Reward Model' (RM, ödül modeli) sinir ağı eğitilir
- Daha sonra bu ödül modeli ölçüt alınarak RL uygulanır ve iyi değerlendirme alan hamleler öğrenilir
- Ancak bu yöntem Go'da anlamlı bir performans üretmezdi
- RLHF'nin AlphaGo için uygun olmamasının iki ana nedeni
- Birincisi, vibe yanıltıcı olabilir. Bu ödül, gerçek kazanma ödülü değil, hatalı bir proxy (vekil) hedeftir
- İkincisi, RL optimizasyon sürecinde ödül modelinin eğitim verisinin kapsamı dışındaki anormal durumlara yüksek puan vermesi nedeniyle optimizasyonun çarpılma olasılığı yüksektir
- RM, vibe'ı taklit eden milyarlarca parametreye sahip büyük bir sinir ağıdır
- LLM'lere RLHF uygulandığında ortaya çıkan sorunlar
- LLM'nin ödül modeli de insan değerlendiricilerin tercih edeceği yanıtlara yüksek puan verme eğilimindedir
- Bu ödül modeli "gerçek" sorunu çözmez; yalnızca insanların hoşuna gidecek yanıtları değerlendiren bir vekil hedeftir
- RLHF çok uzun süre çalıştırılamaz, çünkü model ödül modelini kandıracak şekilde yanıt vermeyi hızla öğrenir
- LLM asistanının "The the the the the the" gibi tuhaf şeylerle yanıt vermeye başladığını görebilirsiniz
- Bu komik görünür ama RM bunu çok başarılı bulur
- Model, RM'nin eğitim veri kapsamının dışındaki bölgelerde adversarial örnekler keşfetmiştir
- Bu nedenle RLHF çok fazla optimizasyon adımı boyunca çalıştırılamaz; birkaç yüz/bin adımın ardından durdurulmalıdır çünkü optimizasyon RM'yi kandırmaya başlar
- Bu, AlphaGo'daki gibi bir RL değildir
- Buna rağmen RLHF'nin LLM asistanları kurmada hâlâ faydalı olmasının nedeni
- RLHF, Generator (üretici) ile Discriminator (ayırt edici) arasındaki farktan yararlanır
- Yani birçok problem türünde, insan değerlendiricinin sıfırdan ideal cevabı yazmasındansa birkaç aday yanıt arasından en iyisini seçmesi çok daha kolaydır
- İyi bir örnek olarak, "Ataç hakkında bir şiir üret" gibi bir prompt için birden fazla aday arasından iyi şiiri seçmek daha kolaydır
- RLHF, insan denetimindeki bu 'kolaylık' farkından yararlanmanın bir yoludur
- Ayrıca RLHF, halüsinasyonları (yanlış bilgi üretimini) azaltmada da faydalıdır
- Eğer RM, eğitim sırasında LLM'nin bir şeyler uydurduğunu yakalayabilecek kadar güçlü bir modelse, düşük ödülle cezalandırmayı öğrenerek modele emin olmadığı gerçekler konusunda risk almayı sevmemeyi öğretebilir
- Ancak halüsinasyon ve bunun azaltılması için tatmin edici bir çözüm tamamen başka bir konudur
- Sonuç olarak: "RLHF faydalıdır ama gerçek RL değildir"
- Şimdiye kadar açık alanda, büyük ölçekte, üretim seviyesinde "gerçek" RL'nin LLM'lerde ikna edici biçimde başarıldığı ve kanıtlandığı bir örnek yoktur
- Sezgisel olarak da açık alan problem çözümünde gerçek ödül elde etmek (yani oyunu kazanmak gibi) çok zordur
- Dinamiklerin sınırlı olduğu, ödül fonksiyonunun değerlendirilmesinin kolay ve kandırılamaz olduğu Go gibi kapalı ve oyun benzeri ortamlarda bu ilgi çekicidir
- Örneğin belge özetleme, biraz muğlak soruları yanıtlama, şaka yapma ya da Java kodunu Python'a yeniden yazma gibi işler için nasıl nesnel bir ödül verilebilir?
- Buna giden yol ilkesel olarak imkânsız değildir, ancak önemsiz de değildir ve yaratıcı düşünce gerektirir
- Fakat bu sorunu ikna edici biçimde çözen kişi gerçek RL çalıştırabilir
- AlphaGo'nun Go'da insanları yenmesini sağlayan türden bir RL
- Bu sorunu çözen kişi, açık alan problem çözümünde insanları aşan LLM'ler yaratabilir
1 yorum
Hacker News görüşü
AI kodlama yardımcıları önümüzdeki birkaç yıl içinde büyük ölçüde gelişecek
RLHF'ye benzer ucuz bir DIY yöntem, modeli ince ayar yaparak çıktıya puan eklemektir
Çeşitli ML algoritmalarının ödül fonksiyonunu "oynama" sorunu, finans ve ekonomi sorunlarına benzer
Karpathy bu konuda çok daha bilgili, ancak bu gönderide bir şeyler eksikmiş gibi geliyor
Mevcut transformer tabanlı LLM'lerle optimal dizi tahmini arasındaki "boşluğun" ne olduğu merak ediliyor
LEAN gibi ispat alanları; durum, eylem, ilerleme ölçümü ve nihai hedef durumu içerir
AlphaGo'da insan geri bildirimi yoktu, ancak insanlardan öğrenmişti
SPAG makalesi, dil modelleriyle gerçek pekiştirmeli öğrenmeye bir örnektir
LLM + RL'nin açık uçlu alan problemlerini çözmede insanları aşacağı sonucunun dayanağı zayıf