8 puan yazan xguru 2024-08-09 | 1 yorum | WhatsApp'ta paylaş
  • Reinforcement Learning from Human Feedback (RLHF), ön eğitim (pretraining) ve gözetimli ince ayar (supervised finetuning, SFT) sonrasında LLM eğitiminin üçüncü (ve son) ana aşamasıdır
    • RLHF hakkındaki düşüncem, bunun RL'in yalnızca bir alt parçası olduğu yönünde ve bu pek bilinmiyor
    • RLHF'ye aslında RL (pekiştirmeli öğrenme) demek için yeterli gerekçe yok
    • Örneğin AlphaGo gerçek RL ile eğitildi; eğer RLHF ile eğitilseydi bugünkü performansına ulaşamazdı
  • AlphaGo RLHF ile eğitilseydi ne olurdu?
    • İnsan değerlendiricilere iki Go tahtası durumu gösterilir ve hangisinin daha iyi olduğunu seçmeleri istenir
    • Bu tür karşılaştırmalardan yaklaşık 100 bin tane toplanır ve insan değerlendirmesini (Vibe Check) taklit eden bir 'Reward Model' (RM, ödül modeli) sinir ağı eğitilir
    • Daha sonra bu ödül modeli ölçüt alınarak RL uygulanır ve iyi değerlendirme alan hamleler öğrenilir
    • Ancak bu yöntem Go'da anlamlı bir performans üretmezdi
  • RLHF'nin AlphaGo için uygun olmamasının iki ana nedeni
    • Birincisi, vibe yanıltıcı olabilir. Bu ödül, gerçek kazanma ödülü değil, hatalı bir proxy (vekil) hedeftir
    • İkincisi, RL optimizasyon sürecinde ödül modelinin eğitim verisinin kapsamı dışındaki anormal durumlara yüksek puan vermesi nedeniyle optimizasyonun çarpılma olasılığı yüksektir
      • RM, vibe'ı taklit eden milyarlarca parametreye sahip büyük bir sinir ağıdır
  • LLM'lere RLHF uygulandığında ortaya çıkan sorunlar
    • LLM'nin ödül modeli de insan değerlendiricilerin tercih edeceği yanıtlara yüksek puan verme eğilimindedir
      • Bu ödül modeli "gerçek" sorunu çözmez; yalnızca insanların hoşuna gidecek yanıtları değerlendiren bir vekil hedeftir
    • RLHF çok uzun süre çalıştırılamaz, çünkü model ödül modelini kandıracak şekilde yanıt vermeyi hızla öğrenir
    • LLM asistanının "The the the the the the" gibi tuhaf şeylerle yanıt vermeye başladığını görebilirsiniz
    • Bu komik görünür ama RM bunu çok başarılı bulur
    • Model, RM'nin eğitim veri kapsamının dışındaki bölgelerde adversarial örnekler keşfetmiştir
    • Bu nedenle RLHF çok fazla optimizasyon adımı boyunca çalıştırılamaz; birkaç yüz/bin adımın ardından durdurulmalıdır çünkü optimizasyon RM'yi kandırmaya başlar
    • Bu, AlphaGo'daki gibi bir RL değildir
  • Buna rağmen RLHF'nin LLM asistanları kurmada hâlâ faydalı olmasının nedeni
    • RLHF, Generator (üretici) ile Discriminator (ayırt edici) arasındaki farktan yararlanır
      • Yani birçok problem türünde, insan değerlendiricinin sıfırdan ideal cevabı yazmasındansa birkaç aday yanıt arasından en iyisini seçmesi çok daha kolaydır
      • İyi bir örnek olarak, "Ataç hakkında bir şiir üret" gibi bir prompt için birden fazla aday arasından iyi şiiri seçmek daha kolaydır
    • RLHF, insan denetimindeki bu 'kolaylık' farkından yararlanmanın bir yoludur
    • Ayrıca RLHF, halüsinasyonları (yanlış bilgi üretimini) azaltmada da faydalıdır
      • Eğer RM, eğitim sırasında LLM'nin bir şeyler uydurduğunu yakalayabilecek kadar güçlü bir modelse, düşük ödülle cezalandırmayı öğrenerek modele emin olmadığı gerçekler konusunda risk almayı sevmemeyi öğretebilir
      • Ancak halüsinasyon ve bunun azaltılması için tatmin edici bir çözüm tamamen başka bir konudur
  • Sonuç olarak: "RLHF faydalıdır ama gerçek RL değildir"
    • Şimdiye kadar açık alanda, büyük ölçekte, üretim seviyesinde "gerçek" RL'nin LLM'lerde ikna edici biçimde başarıldığı ve kanıtlandığı bir örnek yoktur
    • Sezgisel olarak da açık alan problem çözümünde gerçek ödül elde etmek (yani oyunu kazanmak gibi) çok zordur
    • Dinamiklerin sınırlı olduğu, ödül fonksiyonunun değerlendirilmesinin kolay ve kandırılamaz olduğu Go gibi kapalı ve oyun benzeri ortamlarda bu ilgi çekicidir
    • Örneğin belge özetleme, biraz muğlak soruları yanıtlama, şaka yapma ya da Java kodunu Python'a yeniden yazma gibi işler için nasıl nesnel bir ödül verilebilir?
      • Buna giden yol ilkesel olarak imkânsız değildir, ancak önemsiz de değildir ve yaratıcı düşünce gerektirir
      • Fakat bu sorunu ikna edici biçimde çözen kişi gerçek RL çalıştırabilir
        • AlphaGo'nun Go'da insanları yenmesini sağlayan türden bir RL
      • Bu sorunu çözen kişi, açık alan problem çözümünde insanları aşan LLM'ler yaratabilir

1 yorum

 
xguru 2024-08-09

Hacker News görüşü

  • AI kodlama yardımcıları önümüzdeki birkaç yıl içinde büyük ölçüde gelişecek

    • Sohbet AI'sında net bir ödül fonksiyonu olmadığı için kaliteyi değerlendirmek zor
    • Kodlama AI'sı test yazma, kod yazma, derleme ve başarısız test vakalarını inceleme gibi işleri sonsuz döngüde yapabilir
    • Bu süreç, gelecekteki AI kodlama modelleri için eğitim verisi olarak kullanılabilir
    • Dil modelleri matematiksel teorem ispatında da üstün performans gösterecek
    • Teorem doğrulama yazılımı %100 doğru geri bildirim sağlayarak pekiştirmeli öğrenmeyi mümkün kılar
    • Program doğruluğunun biçimsel olarak doğrulanması sıkıcıdır, ancak LLM'ler bunu değiştirebilir
    • LLM'lerin ürettiği açıklamaları motor kullanarak doğruluğu kanıtlayabilir
  • RLHF'ye benzer ucuz bir DIY yöntem, modeli ince ayar yaparak çıktıya puan eklemektir

    • İyi yanıtlar üreten bir kayıp fonksiyonu yazılamadığı için RLHF'ye ihtiyaç vardır
    • Temel model bir prompt için n adet tamamlama üretir ve bunlar elle puanlanır
    • Ardından prompt => (tamamlama, puan) çiftleri eğitim seti olur
    • Model eğitildikten sonra prompt'a istenen puan eklenirse model o puana uygun yanıt üretmeye çalışır
  • Çeşitli ML algoritmalarının ödül fonksiyonunu "oynama" sorunu, finans ve ekonomi sorunlarına benzer

    • İnsanlar üretken işler yapmadan para kazanmaya çalıştığında çok sayıda verimsiz davranış ortaya çıkar
    • Bunu hafifletmek için ödül fonksiyonunu manipüle etmeyi cezalandıran bir sisteme ihtiyaç vardır
    • Bu sistem gerçek değeri anlamalı ve ödül fonksiyonu yüksek ama değeri düşük durumları tespit edebilmelidir
  • Karpathy bu konuda çok daha bilgili, ancak bu gönderide bir şeyler eksikmiş gibi geliyor

    • Go, insanların çözmesi için fazla karmaşık bir oyundur
    • LLM'nin hedefi insanı kusursuz biçimde taklit etmektir
    • AlphaGo ve Stockfish oyun anlayışını ilerletebilir, ancak LLM'ler dilin sınırlarını genişletemez
    • LLM'ler özünde taklit modelleri olduğu için RLHF, LLM alanında daha anlamlıdır
  • Mevcut transformer tabanlı LLM'lerle optimal dizi tahmini arasındaki "boşluğun" ne olduğu merak ediliyor

    • Mevcut LLM'ler eğitim sırasında token tahmininin çapraz entropisini en aza indiren basit bir hedef fonksiyonuna sahiptir
    • Solomonoff induction, optimal dizi tahminine ulaşır
    • SI ile GPT4 arasındaki diyaloğun ne kadar farklı olacağı merak ediliyor
    • AGI için optimal dizi tahmininden daha fazlası gerekir
    • İnsan odaklı hedef fonksiyonu, kullanıcının memnun kalacağı yanıt verme olasılığını en üst düzeye çıkarmaktır
    • Ancak birden fazla kullanıcı olduğu için bunların nasıl toplanacağı bir sorundur
    • Karpathy bu soruna işaret ediyor
  • LEAN gibi ispat alanları; durum, eylem, ilerleme ölçümü ve nihai hedef durumu içerir

    • Karpathy LEAN ispatlarını otomatikleştirmeye odaklanırsa matematiği sonsuza dek değiştirebilir
  • AlphaGo'da insan geri bildirimi yoktu, ancak insanlardan öğrenmişti

    • AlphaZero insan etkisini dışarıda bırakıp saf pekiştirmeli öğrenme kullandı
  • SPAG makalesi, dil modelleriyle gerçek pekiştirmeli öğrenmeye bir örnektir

    • Karpathy'nin gönderisinde "ölçek" ve "açık uçlu alan" eksik
    • Çekişmeli dil oyunları umut verici görünüyor
  • LLM + RL'nin açık uçlu alan problemlerini çözmede insanları aşacağı sonucunun dayanağı zayıf