"RLHF, RL'in yalnızca küçük bir parçasıdır." - Andrej Karpathy

xguru · 2024-08-09T10:46:01+09:00

Reinforcement Learning from Human Feedback (RLHF), ön eğitim (pretraining) ve gözetimli ince ayar (supervised finetuning, SFT) sonrasında LLM eğitiminin üçüncü (ve son) ana aşamasıdır RLHF hakkındaki düşüncem, bunun RL'in yalnızca bir alt parçası olduğu yönünde ve bu pek bilinmiyor RLHF'ye aslında RL (pekiştirmeli öğrenme) demek için yeterli gerekçe yok Örneğin AlphaGo gerçek RL ile eğitildi; eğer RLHF ile eğitilseydi bugünkü performansına ulaşamazdı AlphaGo RLHF ile eğitilseydi ne olurdu? İnsan değerlendiricilere iki Go tahtası durumu gösterilir ve hangisinin daha iyi olduğunu seçmeleri istenir Bu tür karşılaştırmalardan yaklaşık 100 bin tane toplanır ve insan değerlendirmesini (Vibe Check) taklit eden bir 'Reward Model' (RM, ödül modeli) sinir ağı eğitilir Daha sonra bu ödül modeli ölçüt alınarak RL uygulanır ve iyi değerlendirme alan hamleler öğrenilir Ancak bu yöntem Go'da anlamlı bir performans üretmezdi RLHF'nin AlphaGo için uygun olmamasının iki ana nedeni Birincisi, vibe yanıltıcı olabilir. Bu ödül, gerçek kazanma ödülü değil, hatalı bir proxy (vekil) hedeftir İkincisi, RL optimizasyon sürecinde ödül modelinin eğitim verisinin kapsamı dışındaki anormal durumlara yüksek puan vermesi nedeniyle optimizasyonun çarpılma olasılığı yüksektir RM, vibe'ı taklit eden milyarlarca parametreye sahip büyük bir sinir ağıdır LLM'lere RLHF uygulandığında ortaya çıkan sorunlar LLM'nin ödül modeli de insan değerlendiricilerin tercih edeceği yanıtlara yüksek puan verme eğilimindedir Bu ödül modeli "gerçek" sorunu çözmez; yalnızca insanların hoşuna gidecek yanıtları değerlendiren bir vekil hedeftir RLHF çok uzun süre çalıştırılamaz, çünkü model ödül modelini kandıracak şekilde yanıt vermeyi hızla öğrenir LLM asistanının "The the the the the the" gibi tuhaf şeylerle yanıt vermeye başladığını görebilirsiniz Bu komik görünür ama RM bunu çok başarılı bulur Model, RM'nin eğitim veri kapsamının dışındaki bölgelerde adversarial örnekler keşfetmiştir Bu nedenle RLHF çok fazla optimizasyon adımı boyunca çalıştırılamaz; birkaç yüz/bin adımın ardından durdurulmalıdır çünkü optimizasyon RM'yi kandırmaya başlar Bu, AlphaGo'daki gibi bir RL değildir Buna rağmen RLHF'nin LLM asistanları kurmada hâlâ faydalı olmasının nedeni RLHF, Generator (üretici) ile Discriminator (ayırt edici) arasındaki farktan yararlanır Yani birçok problem türünde, insan değerlendiricinin sıfırdan ideal cevabı yazmasındansa birkaç aday yanıt arasından en iyisini seçmesi çok daha kolaydır İyi bir örnek olarak, "Ataç hakkında bir şiir üret" gibi bir prompt için birden fazla aday arasından iyi şiiri seçmek daha kolaydır RLHF, insan denetimindeki bu 'kolaylık' farkından yararlanmanın bir yoludur Ayrıca RLHF, halüsinasyonları (yanlış bilgi üretimini) azaltmada da faydalıdır Eğer RM, eğitim sırasında LLM'nin bir şeyler uydurduğunu yakalayabilecek kadar güçlü bir modelse, düşük ödülle cezalandırmayı öğrenerek modele emin olmadığı gerçekler konusunda risk almayı sevmemeyi öğretebilir Ancak halüsinasyon ve bunun azaltılması için tatmin edici bir çözüm tamamen başka bir konudur Sonuç olarak: "RLHF faydalıdır ama gerçek RL değildir" Şimdiye kadar açık alanda, büyük ölçekte, üretim seviyesinde "gerçek" RL'nin LLM'lerde ikna edici biçimde başarıldığı ve kanıtlandığı bir örnek yoktur Sezgisel olarak da açık alan problem çözümünde gerçek ödül elde etmek (yani oyunu kazanmak gibi) çok zordur Dinamiklerin sınırlı olduğu, ödül fonksiyonunun değerlendirilmesinin kolay ve kandırılamaz olduğu Go gibi kapalı ve oyun benzeri ortamlarda bu ilgi çekicidir Örneğin belge özetleme, biraz muğlak soruları yanıtlama, şaka yapma ya da Java kodunu Python'a yeniden yazma gibi işler için nasıl nesnel bir ödül verilebilir? Buna giden yol ilkesel olarak imkânsız değildir, ancak önemsiz de değildir ve yaratıcı düşünce gerektirir Fakat bu sorunu ikna edici biçimde çözen kişi gerçek RL çalıştırabilir AlphaGo'nun Go'da insanları yenmesini sağlayan türden bir RL Bu sorunu çözen kişi, açık alan problem çözümünde insanları aşan LLM'ler yaratabilir

(twitter.com/karpathy)

8 puan yazan xguru 2024-08-09 | 1 yorum | WhatsApp'ta paylaş

Reinforcement Learning from Human Feedback (RLHF), ön eğitim (pretraining) ve gözetimli ince ayar (supervised finetuning, SFT) sonrasında LLM eğitiminin üçüncü (ve son) ana aşamasıdır
- RLHF hakkındaki düşüncem, bunun RL'in yalnızca bir alt parçası olduğu yönünde ve bu pek bilinmiyor
- RLHF'ye aslında RL (pekiştirmeli öğrenme) demek için yeterli gerekçe yok
- Örneğin AlphaGo gerçek RL ile eğitildi; eğer RLHF ile eğitilseydi bugünkü performansına ulaşamazdı
AlphaGo RLHF ile eğitilseydi ne olurdu?
- İnsan değerlendiricilere iki Go tahtası durumu gösterilir ve hangisinin daha iyi olduğunu seçmeleri istenir
- Bu tür karşılaştırmalardan yaklaşık 100 bin tane toplanır ve insan değerlendirmesini (Vibe Check) taklit eden bir 'Reward Model' (RM, ödül modeli) sinir ağı eğitilir
- Daha sonra bu ödül modeli ölçüt alınarak RL uygulanır ve iyi değerlendirme alan hamleler öğrenilir
- Ancak bu yöntem Go'da anlamlı bir performans üretmezdi
RLHF'nin AlphaGo için uygun olmamasının iki ana nedeni
- Birincisi, vibe yanıltıcı olabilir. Bu ödül, gerçek kazanma ödülü değil, hatalı bir proxy (vekil) hedeftir
- İkincisi, RL optimizasyon sürecinde ödül modelinin eğitim verisinin kapsamı dışındaki anormal durumlara yüksek puan vermesi nedeniyle optimizasyonun çarpılma olasılığı yüksektir
  - RM, vibe'ı taklit eden milyarlarca parametreye sahip büyük bir sinir ağıdır
LLM'lere RLHF uygulandığında ortaya çıkan sorunlar
- LLM'nin ödül modeli de insan değerlendiricilerin tercih edeceği yanıtlara yüksek puan verme eğilimindedir
  - Bu ödül modeli "gerçek" sorunu çözmez; yalnızca insanların hoşuna gidecek yanıtları değerlendiren bir vekil hedeftir
- RLHF çok uzun süre çalıştırılamaz, çünkü model ödül modelini kandıracak şekilde yanıt vermeyi hızla öğrenir
- LLM asistanının "The the the the the the" gibi tuhaf şeylerle yanıt vermeye başladığını görebilirsiniz
- Bu komik görünür ama RM bunu çok başarılı bulur
- Model, RM'nin eğitim veri kapsamının dışındaki bölgelerde adversarial örnekler keşfetmiştir
- Bu nedenle RLHF çok fazla optimizasyon adımı boyunca çalıştırılamaz; birkaç yüz/bin adımın ardından durdurulmalıdır çünkü optimizasyon RM'yi kandırmaya başlar
- Bu, AlphaGo'daki gibi bir RL değildir
Buna rağmen RLHF'nin LLM asistanları kurmada hâlâ faydalı olmasının nedeni
- RLHF, Generator (üretici) ile Discriminator (ayırt edici) arasındaki farktan yararlanır
  - Yani birçok problem türünde, insan değerlendiricinin sıfırdan ideal cevabı yazmasındansa birkaç aday yanıt arasından en iyisini seçmesi çok daha kolaydır
  - İyi bir örnek olarak, "Ataç hakkında bir şiir üret" gibi bir prompt için birden fazla aday arasından iyi şiiri seçmek daha kolaydır
- RLHF, insan denetimindeki bu 'kolaylık' farkından yararlanmanın bir yoludur
- Ayrıca RLHF, halüsinasyonları (yanlış bilgi üretimini) azaltmada da faydalıdır
  - Eğer RM, eğitim sırasında LLM'nin bir şeyler uydurduğunu yakalayabilecek kadar güçlü bir modelse, düşük ödülle cezalandırmayı öğrenerek modele emin olmadığı gerçekler konusunda risk almayı sevmemeyi öğretebilir
  - Ancak halüsinasyon ve bunun azaltılması için tatmin edici bir çözüm tamamen başka bir konudur
Sonuç olarak: "RLHF faydalıdır ama gerçek RL değildir"
- Şimdiye kadar açık alanda, büyük ölçekte, üretim seviyesinde "gerçek" RL'nin LLM'lerde ikna edici biçimde başarıldığı ve kanıtlandığı bir örnek yoktur
- Sezgisel olarak da açık alan problem çözümünde gerçek ödül elde etmek (yani oyunu kazanmak gibi) çok zordur
- Dinamiklerin sınırlı olduğu, ödül fonksiyonunun değerlendirilmesinin kolay ve kandırılamaz olduğu Go gibi kapalı ve oyun benzeri ortamlarda bu ilgi çekicidir
- Örneğin belge özetleme, biraz muğlak soruları yanıtlama, şaka yapma ya da Java kodunu Python'a yeniden yazma gibi işler için nasıl nesnel bir ödül verilebilir?
  - Buna giden yol ilkesel olarak imkânsız değildir, ancak önemsiz de değildir ve yaratıcı düşünce gerektirir
  - Fakat bu sorunu ikna edici biçimde çözen kişi gerçek RL çalıştırabilir
    - AlphaGo'nun Go'da insanları yenmesini sağlayan türden bir RL
  - Bu sorunu çözen kişi, açık alan problem çözümünde insanları aşan LLM'ler yaratabilir

1 yorum

xguru 2024-08-09

Hacker News görüşü

AI kodlama yardımcıları önümüzdeki birkaç yıl içinde büyük ölçüde gelişecek
- Sohbet AI'sında net bir ödül fonksiyonu olmadığı için kaliteyi değerlendirmek zor
- Kodlama AI'sı test yazma, kod yazma, derleme ve başarısız test vakalarını inceleme gibi işleri sonsuz döngüde yapabilir
- Bu süreç, gelecekteki AI kodlama modelleri için eğitim verisi olarak kullanılabilir
- Dil modelleri matematiksel teorem ispatında da üstün performans gösterecek
- Teorem doğrulama yazılımı %100 doğru geri bildirim sağlayarak pekiştirmeli öğrenmeyi mümkün kılar
- Program doğruluğunun biçimsel olarak doğrulanması sıkıcıdır, ancak LLM'ler bunu değiştirebilir
- LLM'lerin ürettiği açıklamaları motor kullanarak doğruluğu kanıtlayabilir
RLHF'ye benzer ucuz bir DIY yöntem, modeli ince ayar yaparak çıktıya puan eklemektir
- İyi yanıtlar üreten bir kayıp fonksiyonu yazılamadığı için RLHF'ye ihtiyaç vardır
- Temel model bir prompt için n adet tamamlama üretir ve bunlar elle puanlanır
- Ardından prompt => (tamamlama, puan) çiftleri eğitim seti olur
- Model eğitildikten sonra prompt'a istenen puan eklenirse model o puana uygun yanıt üretmeye çalışır
Çeşitli ML algoritmalarının ödül fonksiyonunu "oynama" sorunu, finans ve ekonomi sorunlarına benzer
- İnsanlar üretken işler yapmadan para kazanmaya çalıştığında çok sayıda verimsiz davranış ortaya çıkar
- Bunu hafifletmek için ödül fonksiyonunu manipüle etmeyi cezalandıran bir sisteme ihtiyaç vardır
- Bu sistem gerçek değeri anlamalı ve ödül fonksiyonu yüksek ama değeri düşük durumları tespit edebilmelidir
Karpathy bu konuda çok daha bilgili, ancak bu gönderide bir şeyler eksikmiş gibi geliyor
- Go, insanların çözmesi için fazla karmaşık bir oyundur
- LLM'nin hedefi insanı kusursuz biçimde taklit etmektir
- AlphaGo ve Stockfish oyun anlayışını ilerletebilir, ancak LLM'ler dilin sınırlarını genişletemez
- LLM'ler özünde taklit modelleri olduğu için RLHF, LLM alanında daha anlamlıdır
Mevcut transformer tabanlı LLM'lerle optimal dizi tahmini arasındaki "boşluğun" ne olduğu merak ediliyor
- Mevcut LLM'ler eğitim sırasında token tahmininin çapraz entropisini en aza indiren basit bir hedef fonksiyonuna sahiptir
- Solomonoff induction, optimal dizi tahminine ulaşır
- SI ile GPT4 arasındaki diyaloğun ne kadar farklı olacağı merak ediliyor
- AGI için optimal dizi tahmininden daha fazlası gerekir
- İnsan odaklı hedef fonksiyonu, kullanıcının memnun kalacağı yanıt verme olasılığını en üst düzeye çıkarmaktır
- Ancak birden fazla kullanıcı olduğu için bunların nasıl toplanacağı bir sorundur
- Karpathy bu soruna işaret ediyor
LEAN gibi ispat alanları; durum, eylem, ilerleme ölçümü ve nihai hedef durumu içerir
- Karpathy LEAN ispatlarını otomatikleştirmeye odaklanırsa matematiği sonsuza dek değiştirebilir
AlphaGo'da insan geri bildirimi yoktu, ancak insanlardan öğrenmişti
- AlphaZero insan etkisini dışarıda bırakıp saf pekiştirmeli öğrenme kullandı
SPAG makalesi, dil modelleriyle gerçek pekiştirmeli öğrenmeye bir örnektir
- Karpathy'nin gönderisinde "ölçek" ve "açık uçlu alan" eksik
- Çekişmeli dil oyunları umut verici görünüyor
LLM + RL'nin açık uçlu alan problemlerini çözmede insanları aşacağı sonucunun dayanağı zayıf

"RLHF, RL'in yalnızca küçük bir parçasıdır." - Andrej Karpathy

İlgili okumalar

1 yorum

Hacker News görüşü