Q-learning henüz ölçeklenebilir değil

(seohong.me)

1 puan yazan GN⁺ 2025-06-16 | 1 yorum | WhatsApp'ta paylaş

RL, Go ve satrançta, ayrıca LLM sonradan eğitiminde büyük başarılar elde etti; ancak bunların çoğu yeni rollout’lar gerektiren on-policy RL’ye dayanıyor ve geçmiş verileri serbestçe yeniden kullanabilen off-policy RL’den farklı koşullara sahip
Temsilî bir off-policy RL yöntemi olan Q-learning, örnek verimliliği yüksek olsa da 100’den fazla anlamlı karar adımı gerektiren uzun vadeli görevlerde henüz yeterince ölçeklenemiyor
Darboğaz, TD öğrenmede yanlı bootstrap hedeflerinin horizon uzadıkça birikmesi; bu, sonraki token tahmini, difüzyon modelleri ve karşıtsal öğrenmeden farklı bir kısıt
OGBench deneylerinde flow BC, IQL, CRL, SAC+BC; tipik off-policy RL veri kümelerinden 1000 kat büyük 1B veri kümesinde bile tüm uzun vadeli görevleri çözemedi ve performans optimum seviyenin altında takılı kaldı
n-step returns ve hiyerarşik RL gibi horizon reduction yöntemleri ölçeklenebilirliği ve nihai performansı iyileştirdi; ancak mevcut teknikler sorunu yalnızca sabit bir çarpan kadar hafifletiyor ve keyfî derecede karmaşık uzun vadeli görevleri çözmek için yetersiz kalıyor

RL ölçeklenebilirliğinin bugünkü konumu

Sonraki token tahmini, denoising diffusion ve karşıtsal öğrenme; büyük ölçekli veri ve milyarlarca parametreli modellerde ölçeklenebilir amaç fonksiyonları olduklarını gösterdi
RL de Go ve satrançta insanüstü performansa ulaştı; LLM’lerde ise matematik ve kodlama gibi karmaşık akıl yürütme görevlerini çözüyor
Ancak güncel pratik başarı örneklerinin çoğu on-policy RL algoritmalarına dayanıyor
- Başlıca örnekler REINFORCE, PPO, GRPO vb.
- Mevcut politikadan yeni örneklenmiş rollout’lar her zaman gerekli
- Geçmiş veriler yeniden kullanılamıyor
- PPO türü yöntemler veriyi sınırlı ölçüde yeniden kullanabilse de OpenAI dokümanlarındaki gibi sınıflandırmalara göre on-policy RL olarak görülüyor
Tahta oyunları veya LLM’ler gibi rollout’ların ucuz ve bolca üretilebildiği ortamlarda bu kısıt büyük bir sorun olmayabilir
Robotikte, dil modellerini RL ile sonradan eğitirken kullanılan düzeyde örneği gerçek dünyada üretmek aylar veya daha uzun sürebilir; eğitim sırasında robotu sıfırlamak için de bir insanın 24 saat yanında bulunması gerekir

Off-policy RL ve Q-learning

Off-policy RL ilke olarak ne zaman ve nasıl toplanmış olursa olsun her türlü veriyi kullanabilir
Aynı veriyi birden çok kez yeniden kullanabildiği için genel olarak örnek verimliliği daha iyidir
Gerçek ortamda bir köpek robotunu sıfırdan 20 dakika içinde yürümeyi öğretecek şekilde eğiten örnekler de vardır
- İlgili örnek: walk in the park
Q-learning, en yaygın kullanılan off-policy RL algoritmasıdır
Pratik model-free off-policy RL algoritmalarının çoğu TD kaybının varyantlarına dayanır
RL’yi daha fazla gerçek dünya problemine uygulamak için temel soru “Q-learning, yani TD learning ölçeklenebilir mi?” olur
Mümkünse robotik, bilgisayar kullanan ajanlar gibi daha çeşitli ve karmaşık gerçek dünya görevleri verimli biçimde çözülebilir

“Ölçeklenebilir” ne demek: genişlik değil derinlik

Burada ölçeklenebilirlik, yeterli kapsama sahip veri, hesaplama ve zaman artırıldığında daha zor ve daha uzun horizon’lı problemleri çözebilme yeteneği anlamına geliyor
Bu, tek bir modelle daha fazla sayıda görevi çözme yeteneğinden farklıdır
- Görev sayısının artması mutlaka daha zor görevlerin çözüldüğü anlamına gelmez
- Mevcut birçok scaling çalışması bu “genişlik (width)” eksenindeki olasılığı gösteriyor
Daha önemli ve zor eksen derinlik (depth) eksenidir
- Çünkü daha gelişmiş karar verme yetenekleri gerektirir
Mevcut hâliyle Q-learning, derinlik ekseninde yüksek ölçeklenebilirliğe sahip değildir
Q-learning’i ve off-policy RL’yi karmaşık uzun vadeli problemlere ölçeklemek için algoritmik atılım gerekir

Büyük ölçekli RL başarılarında eksik olan Q-learning

Gerçek dünyadaki birçok RL başarısı, TD tabanlı Q-learning dışındaki yaklaşımlara dayanır
AlphaGo, AlphaZero ve MuZero; model tabanlı RL ve Monte Carlo tree search kullanır, tahta oyunlarında TD learning kullanmaz
- Referans: MuZero makalesi, sayfa 15
OpenAI Five, Dota 2’de PPO ile insanüstü performansa ulaştı
- Referans: OpenAI Five makalesi, dipnot 6
LLM’ler için RL’de bugün PPO, GRPO gibi on-policy policy gradient ailesi baskın durumda
AlphaGo veya LLM’lere benzer ölçekte off-policy RL’nin, özellikle de 1-step TD learning’in başarılı olduğu gerçek bir örnek sunulmuyor
Bu değerlendirme off-policy RL’yi reddetmekten çok, RL algoritma araştırmasına daha fazla ihtiyaç olduğu yönünde bir problem bilincine yakın

Uzun vadeli görevlerde Q-learning neden sarsılıyor?

Q-learning’in TD kaybı, mevcut Q değerini ödül ile bir sonraki durumun maksimum Q değerinin toplamından oluşan hedefe uyduracak şekilde öğrenir
Bu hedef, gerçek optimum Q değerine eşit olmayabilecek yanlı bir bootstrap hedefidir
Q-learning’in ölçeklenmede zorlanmasının temel nedeni, tahmin hedefindeki yanlılığın horizon boyunca birikmesidir
Bu yanlılık birikimi, TD learning’in temel bir sınırı olarak işler
- Sonraki token tahmini, denoising diffusion, karşıtsal öğrenme gibi amaç fonksiyonlarında bu tür tahmin hedefi yanlılığı yoktur
- BYOL ve DINO’da yanlılık olsa bile horizon boyunca birikmez
Problem karmaşıklaştıkça ve horizon uzadıkça bootstrap hedefinin yanlılığı daha ciddi biçimde birikir
Daha fazla veri ve daha büyük modeller tek başına bu problemi kolayca hafifletmekte zorlanır
Pratikte (\gamma > 0.999) gibi daha büyük indirim oranlarının pek kullanılmamasının başlıca nedeni de bununla bağlantılıdır
Policy gradient yöntemleri bu problemi görece daha az yaşar
- GAE gibi on-policy değer tahmini teknikleri, daha yüksek varyansı göze alarak uzun horizon’ları görece kolay işler
- Katı 1-step özyinelemeye bağlı değildir

OGBench tabanlı ölçeklenebilirlik deneyleri

Yakın tarihli Horizon Reduction Makes RL Scalable makalesi, çeşitli kontrollü scaling çalışmalarıyla yukarıdaki hipotezi doğruluyor
Amaç, mevcut off-policy RL yöntemlerinin yalnızca veri ve hesaplamayı büyüterek çok zor görevleri çözüp çözemediğini kontrol etmek
Deneylerde OGBench’in karmaşık ve daha önce çözülmemiş görevleri kullanıldı
Görevlerin gereksinimleri şöyle
- Ajanın, yapılandırılmamış rastgele play-style demolarından karmaşık goal-reaching davranışları öğrenmesi gerekiyor
- Test sırasında hassas manipülasyon, kombinatoryal bulmaca çözme ve uzun vadeli navigasyon yapması gerekiyor
- Görevler 1.000 environment step boyunca ilerliyor
Deneyler, karıştırıcı değişkenleri azaltacak şekilde tasarlandı
- Aşırı uyumun fiilen imkânsız olduğu neredeyse sonsuz veri toplandı
- Keşif problemini ortadan kaldırmak için offline RL’ye odaklanıldı
- Veri kümesinde yeterli kapsama olduğu ve verilen veri kümesiyle tüm görevlerin çözülebileceği garanti edildi
- Temsil öğrenme yükünü azaltmak için ground-truth state observation doğrudan sağlandı
Bu kontrollü ortamda bile Q-learning ölçeklenmiyorsa, sınırlı veri ve noisy observation içeren gerçek ortamlarda olasılık daha da düşer

Standart offline RL algoritmalarının sonuçları

Standart ve yaygın kullanılan offline RL algoritmaları tüm görevleri çözemedi
Hedef algoritmalar flow BC, IQL, CRL, SAC+BC idi
Deneyler 1B boyutlu veri kümesinde de yürütüldü
- Bu, tipik offline RL veri kümelerinden (1000 \times) daha büyük
Daha önemli nokta, performansın çoğu zaman optimum performansın çok altında bir yerde plateau’ya ulaşmasıydı
Daha büyük modeller, daha uzun eğitim, farklı hiperparametreler gibi çeşitli ablation ve kontrol deneyleri de etkili olmadı
Etkili olan istisnai yöntem horizon reduction idi

Horizon reduction’ın getirdiği iyileşme

Önceki hipotez, horizon’ın ve buna bağlı yanlılık birikiminin off-policy RL ölçeklenmesinin başlıca engeli olduğuydu
Bunu doğrulamak için yanlı TD backup sayısını azaltan çeşitli horizon reduction teknikleri denendi
- Örnekler n-step returns, hiyerarşik RL vb.
Sonuçlar olumluydu
- n-step returns gibi basit teknikler bile ölçeklenebilirliği ve nihai performansı ciddi biçimde iyileştirdi
- Sadece eğitimi hızlandıran bir trick değil, asymptotic performance’ı da iyileştiriyor
- Tam hiyerarşik yöntem daha iyi çalışıyor
Deneylerin genelinde tutarlı biçimde işe yarayan tek teknik horizon reduction oldu
Veri ve hesaplamayı basitçe büyütmek horizon lanetini çözmek için yeterli değil
Bu problemi doğrudan hedefleyen daha iyi algoritmalara ihtiyaç var

Ölçeklenebilir off-policy RL amaç fonksiyonlarına yönelik araştırma yönleri

Horizon reduction Q-learning’in ölçeklenebilirliğini açığa çıkarıyor, ancak mevcut teknikler problemi kökten çözmüyor
n-step returns ve hiyerarşik RL gibi mevcut yöntemler problemi çoğunlukla sabit çarpan düzeyinde hafifletiyor
Keyfî derecede karmaşık uzun vadeli problemlere kadar ölçeklenebilen off-policy RL algoritmaları hâlâ eksik
Olası araştırma yönleri üç başlıkta özetleniyor
- Keyfî uzunlukta horizon’larla başa çıkmak için 2 aşamalı hiyerarşinin ötesine geçen basit ve ölçeklenebilir özyinelemeli hiyerarşik yapılar bulma
- Model öğrenimi supervised learning’dir ve on-policy RL de ölçeklenebilir olduğundan, önce bir model öğrenip sonra o modelin içinde on-policy RL çalıştıran model tabanlı RL yaklaşımı
- TD learning’den tamamen kaçınan yöntemler
  - Örneğin quasimetric RL, RL’nin LP formulation’ına dayanır
  - contrastive RL gibi MC tabanlı yöntemlerin TD tabanlı yaklaşımlardan daha iyi ölçeklenip ölçeklenemeyeceği de doğrulanabilir
Yukarıdaki deney kurulumu bu fikirleri test etmek için bir başlangıç noktası olabilir
- Karmaşık robotik görevler ve veri kümeleri zaten tasarlanmış durumda
- Görevlerin verilen veriden çözülebileceği doğrulandı
- Küp eklemek gibi yollarla görevleri keyfî olarak zorlaştırıp algoritma ölçeklenebilirliğini kontrollü biçimde stres testine tabi tutmak mümkün
- Kod yayını: horizon-reduction

1 yorum

GN⁺ 2025-06-16

Hacker News yorumları

Bu yazı, Q-öğrenmenin ölçeklenmesinin zor olmasının daha büyük nedenini kaçırıyor gibi görünüyor
Ufuk (horizon) uzadıkça olası durum sayısı genellikle üstel olarak artar; bu durumlarla başa çıkabilecek bir Q öğrenmek için verinin de üstel olarak artması gerekir
Politika üzerinde (on-policy) öğrenmede bu sorun daha hafiftir; çünkü önemli olan yalnızca mevcut politikanın yakınındaki durumlardır ve pratikte örneklenenler de bu durumlardır
- Yazının aşırı tahmin yanlılığı analizinin doğru olduğunu düşünüyorum
  Q-öğrenmedeki max işlemi nedeniyle zaman adımları ilerledikçe gürültünün büyümesi temel mesele; https://arxiv.org/abs/1509.06461 gibi yanlılığı azaltma teknikleri, pekiştirmeli öğrenme ajanlarının performansını iyileştirmede başarılı oldu
  Araştırmalara göre bu olgu, ağın çok ziyaret etmediği durumlarda daha güçlü görülüyor
  Durum sayısının üstel ölçekte fazla olması, ancak bu durumlar arasında hiçbir örüntü yoksa belirleyicidir. Öğrenilebilir bir yapı varsa iyi çalışabilir; bu da derin öğrenmenin zayıflığı değil, gücüdür
  Asıl mesele doğru öğrenme hedefini belirlemek; yazı da aslında Q-öğrenmenin o hedef olmadığını savunuyor
  MuZero gibi model tabanlı pekiştirmeli öğrenmenin yazarın kaygılarına bir çözüm olup olmadığını da merak ediyorum. MuZero, önceki yörüngeleri yeniden analiz ederek öğrenme verimliliğini artırabilir; Monte Carlo ağaç araması (MCTS) ise modeli birkaç adım ileri açarak ufku kısaltmanın ilkeli bir yoludur
  MCTS’deki max işlemi de benzer bir sorun yaratabilir, ancak aramanın derinleşmesi bunu dengeleyebilir
- https://news.ycombinator.com/item?id=44280505 bu tartışma yardımcı olabilir
  Tamamen uzman olmayan biri olarak, bazı görevler “derin” olsa bile yeterince “tekdüze” olup kötü örneklerin bile yeterli olabileceğini düşünüyorum. Böyle görevlere ergodik görevler demek isterdim
  Elbette böyle olmayan görevler de mutlaka vardır
- Bu fark özünde genel ızgara Monte Carlo integrasyonu ile önem örneklemeli Monte Carlo integrasyonu arasındaki farkla aynı şey mi?
Bu makale, okuyucunun pekiştirmeli öğrenmeyi zaten epey bildiğini varsayıyor
Pekiştirmeli öğrenmeye gerçekten derinlemesine girmek istiyorsanız David Silver’ın (DeepMind) giriş dersleri harika: https://youtu.be/2pWv7GOvuf0?si=CmFJHNnNqraL5i0s
Tamamen katılıyorum ve bunun çok iyi bir özet olduğunu düşünüyorum
Çok kısaca, mesele hareket eden bir hedefi kovalamak; üstelik bu hedef, benim nasıl hareket ettiğime göre değişiyor
Değer tabanlı pekiştirmeli öğrenmede yakınsayabilecek gerçek bir doğru cevap yok. Denklemin iki tarafında da kendi yaklaşımınızın yer aldığı bir farkı en aza indirmeye çalışıyorsunuz
Yine de bunu umutsuz görmüyorum. Pekiştirmeli öğrenmenin çalışmaya çok yaklaştığını düşünüyorum; şimdiye kadar eksik olan şey güvenilir bir dünya modeli/ileri dinamik fonksiyonuydu
O olursa keşif yapmadan planlayabilirsiniz; artık böyle bir modelimiz var
Politika dışı (off-policy) öğrenmenin faydası, ilk keşiften gelen verimsiz verilerin daha sonraki, daha rafine politikayı iyileştirmede pek de yararlı olmaması nedeniyle temelde sınırlıdır
Satrançtaki hataları, spazmodik hareketleri, bulmaca çözme başarısızlıklarını düşününce bu açık hale geliyor
Verinin off-policy olmasının yalnızca, mevcut politika olsaydı yapılmayacak şeyleri betimlediğinde gerçekleştiğini fark edince daha da netleşiyor
Bu sorunun çözümünün ne yazık ki daha iyi genelleme ve örnek verimliliği ihtiyacıyla ilgili olduğunu düşünüyorum
- Bu iddia çok fazla şeyi kanıtlamış olmuyor mu?
  Alıntılanan, off-policy öğrenmeyle 20 dakikada yürümeyi öğrenen köpek nasıl açıklanır? Yoksa daha incelikli bir iddia mı ileri sürülüyor?
Decision Transformer veya Trajectory Transformer’ın eksik olması şaşırtıcı
İkisi de çevrimdışı yaklaşımlar ve attention mekanizması sayesinde kredi atama sorununu baypas ederek uzun ufuklu görevlerde oldukça iyi çalışıyorlar
Pekiştirmeli öğrenme araştırmacılarının çoğu bu yaklaşımları “gerçek pekiştirmeli öğrenme” olarak görmez. Çünkü bağlam penceresinin dışına kredi atayamadıkları için sonsuz ufuklu görevleri öğrenemezler
Ama 1 milyon token’dan büyük bağlam pencereleri varsa pratikte bu daha az sorun olabilir mi? Başka düşünceleri merak ediyorum
DT: https://arxiv.org/abs/2106.01345
TT: https://arxiv.org/abs/2106.02039
- TFP, Decision Transformer’a atıf yapıyor
  Sırf Transformer kullanmak kredi atama sorununu baypas etmek anlamına gelmez
  Transformer, sıralı modelleme problemlerini çözmek için bir mimaridir; pekiştirmeli öğrenmede ortaya çıkan kredi atama sorunu da bu problemlerin bir örneğidir. Bu tür mimariler daha önce de çoktu
  Kredi atama sorununun zor olması, veri seyrekliğine dair bir ifadedir. Yalnızca mimari seçimiyle bunu “baypas” edemezsiniz
İnsanlar aslında ikisini de yapar
Kendi eylemlerinin sonuçlarını keşfederken on-policy olarak da öğrenir, uzman gösterimleri gibi off-policy olarak da öğrenir
Fark, insanların iyi eylemleri kötü eylemlerden ayırt edebilmesi ve iyi olduğuna karar verdiği eylemleri süzerek öğrenebilmesidir
Çoğu off-policy pekiştirmeli öğrenmede kötü eylemler de bolca bulunur; bunlar öğrenme kümesine dahil olunca öğrenme yavaşlar
- “İyi eylemleri kötü eylemlerden ayırt edebilir” her zaman doğru değil
  Bu yüzden bazı uzman gösterimleri çekicidir. Acemi düzeyindeki “en iyi uygulamalar” açısından tamamen yanlış bir yöntem gibi görünse de daha iyi sonuç verdiğini görebilirsiniz
  Elbette bazen bu, yalnızca o kadar iyiyseniz bu tür teknikleri veya hataları da kaldırabileceğiniz anlamına gelir
İnsanların tekrar yoluyla öğrendiği uzun ufuklu görevlerin, daha kısa ufuklu görevlere bölünüp daha sonra hiyerarşik olarak birleştirilerek öğrenildiğini belirtmeye değer
- Safça bir düşünce olabilir ama bu, algoritmadan çok yaklaşım meselesi gibi görünüyor
  Model baştan uzun ufuklu bir görevi ele alamayabilir; ama önce kısa ufuklu becerileri öğrenip bu küçük beceri demetlerini kullanarak daha uzun ufukları öğrenebilir
  Hepimizin yaptığı chunking gibi
  Kimse ticari bir uçağı kıtalararası uçurmayı el ve kolun mikro hareket dizileri olarak öğrenmez
  Çocukken topu kavramayı bu şekilde öğreniriz; ama uçuş ya da spor, öğrenilmiş beceriler ve planlardan oluşan hiyerarşilerle kurulur
Yazıyı beğendim ama açıklanmayan kısaltmalar kullanması, daha geniş bir okur kitlesi için yararlı olma fırsatını azalttı bence
Küçük bir eleştiri ama kısaltmaların ve teknik terimlerin açıklanması iyi olurdu
- İçeriği çok iyi olsa da çok geniş ön bilgi varsaydığı için erişilebilirliği düşük yazılarda, yapay zeka araçlarına açıklatma ve sadeleştirme yaptırmak oldukça işe yarıyor
  Yeni tarayıcı Dia ile az önce denedim, iyi çalıştı. Tercih ettiğiniz model sağlayıcısına kopyalayıp yapıştırmak da olur
  Böylece yazı kısa kalırken, yapay zeka aracına soru sorup netleştirebiliyorsunuz
- Sonucun “biri ölçeklenebilir bir Q-öğrenme yöntemi geliştirsin” olması, yazının kesinlikle başka pekiştirmeli öğrenme araştırmacılarını hedeflediğini gösteriyor
Q-Learning gibi off-policy tekniklerin sihirli yanı, yalnızca optimal olmayan eğitim verilerini görse bile optimal sonuca yakınsamasıdır
Örneğin hiçbir strateji olmadan tamamen rastgele hareket eden ajanların satranç oyunlarından oluşan bir veri kümesini Q-Learning girdisi olarak kullansanız bile, kaliteli girdiler olduğundakinden daha yavaş olsa da sonunda optimal politikaya yakınsar
- Eğer bu doğruysa, bunun ergodik bir görev tanımına yakın olduğunu düşünüyorum
  Terimi biraz bükerek kullanıyor olabilirim ama ergodik olmayan görevlerin de var olacağını düşünüyorum

Q-learning henüz ölçeklenebilir değil

RL ölçeklenebilirliğinin bugünkü konumu

Off-policy RL ve Q-learning

“Ölçeklenebilir” ne demek: genişlik değil derinlik

Büyük ölçekli RL başarılarında eksik olan Q-learning

Uzun vadeli görevlerde Q-learning neden sarsılıyor?

OGBench tabanlı ölçeklenebilirlik deneyleri

Standart offline RL algoritmalarının sonuçları

Horizon reduction’ın getirdiği iyileşme

Ölçeklenebilir off-policy RL amaç fonksiyonlarına yönelik araştırma yönleri

İlgili okumalar

1 yorum

Hacker News yorumları