1 puan yazan GN⁺ 2025-06-16 | 1 yorum | WhatsApp'ta paylaş
  • Son dönemde büyük dil modelleri (LLM) gibi alanlarda olduğu gibi pekiştirmeli öğrenmenin (RL) ölçeklenebilirliği dikkat çekiyor
  • Gerçekte AlphaGo, LLM gibi sistemler güçlü performans gösterse de burada çoğunlukla on-policy RL algoritmaları kullanılıyor
  • Off-policy RL'nin temsilci algoritması olan Q-learning, uzun problemlerinde (horizon) biriken yanlılık sorunu nedeniyle iyi ölçeklenmiyor
  • Deney sonuçlarına göre veri ve hesaplama büyük ölçüde artırılsa bile standart Q-learning ailesi algoritmalarının karmaşık uzun vadeli görevlerde performans sınırı bulunuyor
  • horizon sorununu hafifleten hierarchy yöntemleri gibi yalnızca yerel çözümler var; bu yüzden temelden ölçeklenebilir yeni bir off-policy RL hedefi gerekiyor

RL, ölçeklenebilir mi?

  • Son dönemde dil modellerinin bir sonraki token tahmini, diffusion modelleri, contrastive learning yaklaşımları gibi hedefler, veri ve hesaplama arttıkça iyi ölçekleniyor
  • Oyun, matematik, kodlama gibi alanlarda RL de güçlü sonuçlar verdi ve bunların çoğunda on-policy RL algoritmaları (ör. PPO, REINFORCE vb.) kullanıldı
  • On-policy RL, her zaman yeni roll-out'ları yani en güncel policy ile doğrudan üretilmiş veriyi kullanabiliyor
  • Bu yaklaşım simülasyon veya LLM'lerde büyük sorun yaratmasa da robotik gibi gerçek ortamlarda çok verimsiz
  • Örneğin robot deneylerinde yeterli veriyi toplamak aylar sürebiliyor ve insanın manuel müdahalesi gerekiyor

Off-policy RL'nin yükselişi

  • Off-policy RL, önceden toplanmış tüm verileri yeniden kullanabildiği için sample efficiency açısından çok güçlü
  • Bu alanda özellikle Q-learning yaygın kullanılıyor ve gerçek zamanlı robot köpek yürüyüşü gibi başarılar gösterdi
  • Q-learning, temporal difference (TD) loss minimizasyonuna dayanıyor ve neredeyse tüm off-policy RL bu ilkeyi izliyor
  • RL'yi gerçek dünya problemlerine uygulamak için asıl soru şu: Q-learning de ölçeklenebilir mi?

Q-learning'in ölçeklenme sınırı

  • Yazar, mevcut Q-learning'in uzun horizon'lı (100'den fazla decision step) problemler ortaya çıktığında iyi ölçeklenmediğini savunuyor
  • Burada “ölçeklenebilirlik”, problemin derinliği/zorluğu ('depth') artsa bile yalnızca veri ve hesaplama kaynağı ekleyerek çözülebilip çözülememesi anlamına geliyor
  • Çeşitli makalelerde deneysel olarak gösterildiği gibi mesele yalnızca işlenebilen problem sayısını ('width') artırmak değil
  • Yazarın iddiası: Q-learning ailesi derinlik ekseninde (difficulty) zayıf ölçekleniyor ve algoritmik yenilik şart
  • Bunun iki ana dayanağı var: biri ampirik büyük başarı örneklerinin eksikliği, diğeri ise yakın zamanda yapılan sistematik deneyler

Ampirik kanıtlar

  • AlphaGo, AlphaZero ve MuZero'nun tamamı model-based, on-policy RL yaklaşımına dayanıyor; TD-learning ailesinden değiller
  • OpenAI Five da PPO gibi on-policy yöntemler kullanıyor
  • LLM'ler için RL uygulamalarında da ana akım çoğunlukla policy gradient tabanlı on-policy türevleri
  • Q-learning veya benzer off-policy RL'nin AlphaGo ya da LLM ölçeğinde büyük gerçek dünya başarı örnekleri neredeyse yok
  • Yazar, çeşitli makale ve pratik uygulamaları inceledikten sonra Q-learning tabanlı büyük ölçekli bir başarı örneği bilmediğini belirtiyor

Q-learning'in sınırlanma nedeni: Horizon ve biriken yanlılık

  • Q-learning'de bootstrap edilmiş (tahmin üzerinden üretilen) TD hedefi doğası gereği yanlıdır; bu yanlılık time-horizon boyunca birikir
  • Buna karşılık token tahmini, diffusion, contrastive learning gibi diğer yüksek ölçeklenebilir hedeflerde tahmin hedefinde biriken yanlılık yoktur
  • Horizon (karar dizisinin uzunluğu) büyüdükçe, biriken hata nedeniyle Q-learning'in performans ölçeklenmesi kısıtlanır
  • Bunu hafifletmek için çoğu zaman discount factor daha küçük seçilir
  • Policy gradient gibi on-policy değer tahmini yöntemleri, GAE gibi teknikler sayesinde horizon probleminden görece daha az etkilenir

Deneylerle ölçeklenme sınırının doğrulanması

  • Yakın tarihli bir makalede ultra-long horizon görevler için OGBench gibi ortamlarda binlerce step içeren zor task'ler tasarlandı
  • Ortamda “neredeyse sonsuz” veri, güçlü modeller ve temsil öğrenmesi yükünü azaltma gibi yöntemlerle gürültü faktörleri en aza indirildi
  • Mevcut offline RL yöntemlerinin (BC, IQL, CRL, SAC+BC vb.) hiçbiri çok büyük veri kümelerinde bile karmaşık task'leri öğrenemedi
  • Veri ve model boyutu, eğitim süresi, hiperparametreler gibi tüm değişkenler için ablation test yapıldı ancak performans sınırı aşılamadı
  • Buna karşılık horizon'ı (karar uzunluğunu) azaltan teknikler performansın ölçeklenmesinde açık biçimde etkili oldu

Horizon azaltma tekniklerinin etkisi

  • n-step return, hiyerarşik (hierarchical) RL gibi horizon azaltma yöntemleri, RL ölçeklenmesinde belirleyici etki gösterdi
  • Horizon azaltma yalnızca eğitimi hızlandırmakla kalmadı, nihai performansı da dramatik biçimde artırdı
  • Ancak bu yaklaşımlar sorunu temelden çözmüyor; yalnızca horizon'ı sabit bir katsayı kadar azaltıyor
  • horizon curse'ü aşacak yeni algoritmik yaklaşımlara ihtiyaç var

Yeni, ölçeklenebilir bir off-policy RL hedefine duyulan ihtiyaç

  • Şimdiye kadarki çalışmalar, yalnızca veri/model boyutunu artırmanın horizon curse'ü temelden aşmaya yetmediğini gösterdi
  • Nihai olarak rastgele uzunluktaki uzun vadeli problemlerde de ölçeklenebilen off-policy RL türevlerine ihtiyaç var
  • Bu hedef gerçekleşirse robotik, LLM'ler ve çeşitli karar verme agent'ları dahil olmak üzere çok daha geniş gerçek dünya problemleri çözülebilir

Gelecek araştırma fikirleri ve öneriler

  • İki aşamalı hierarchy'yi aşarak rastgele uzunlukta horizon'lara yanıt verebilecek basit ve ölçeklenebilir yeni hiyerarşik yapılar önerilebilir
  • Model-based RL, denetimli öğrenme tabanlı modelleme ile on-policy RL'yi birleştirerek ölçeklenebilir olma potansiyeline sahip olabilir
  • TD learning'i tamamen dışlayan quasimetric RL, contrastive RL gibi yeni ailelerin araştırılması da faydalı olabilir
  • Oluşturulan değerlendirme ortamı ve kod açıklandı; bunlar çeşitli yeni RL algoritmaları için ölçek testi benchmark'ı olarak kullanılabilir

Teşekkür

  • Makale ve yazıya katkı/geri bildirim sağlayan birçok araştırmacıya teşekkür ediliyor
  • Bu içeriğin [Horizon Reduction Makes RL Scalable] makalesi vb. çalışmalara dayandığı ve yazarın kişisel görüşlerini yansıttığı belirtiliyor

1 yorum

 
GN⁺ 2025-06-16
Hacker News görüşü
  • Bence Q-Learning'in ölçeklenebilirlik sınırlarının, blog yazısında belirtilenden daha büyük nedenleri var. Ajanın ele alması gereken durum sayısı, ufuk (horizon) arttıkça genelde üstel olarak artar. Bu yüzden bu durumları kapsayan Q'yu eğitmek için gereken veri miktarı da üstel olarak büyür. Buna karşılık on-policy öğrenme yalnızca önemli durumları öğrendiği için, durum uzayı üstel olarak büyüse bile eğitim verisi yalnızca gerekli noktalara yoğunlaşır ve sorun görece sadeleşir

    • Yazıda sözü edilen Q-learning'in overapproximation bias analizine katılıyorum. Q-learning'deki Max işleci, gürültüyü zaman ekseni boyunca büyütme eğilimindedir. Bu makalede olduğu gibi bias azaltma yöntemlerinin RL ajanı performansını başarılı biçimde iyileştirdiği örnekler de var. Ağın yeterince ziyaret etmediği durumlarda bu olgunun daha belirgin olduğuna dair araştırma sonuçları da mevcut. Durum sayısı üstel artsa bile, öğrenilebilir bir yapı varsa performans elde edilebilmesi derin öğrenmenin güçlü yanıdır. Asıl mesele doğru eğitim hedefini kurmaktır; yazı da Q-learning'in bu noktada sınırlı olduğunu savunuyor. MuZero gibi model tabanlı RL sistemlerinin çözüm olup olamayacağını merak ediyorum. MuZero, önceki trajektorileri yeniden analiz ederek eğitim verimliliğini artırıyor ve Monte Carlo Tree Search (MCTS), birden çok adımı açarak ufku daraltmanın ilkesel bir yolu. MCTS içinde de Max işleci sorunu ortaya çıkabilir ama arama derinleştikçe bu tür sorunlar dengelenebilir

    • Bu başlık faydalı olabilir gibi görünüyor. Tam bir uzman olmayan biri olarak bakınca, bazı görevlerin “derinliği” olsa da yine de bir tür homojenliğe sahip olduğu söylenebilir; bu durumda örnek kalitesi biraz düşük olsa bile öğrenme mümkün olabilir. Ben böyle görevlere “ergodic” demek istiyorum. Ama elbette böyle olmayan görevlerin de var olduğunu düşünüyorum

    • Bunun sıradan grid Monte Carlo integrasyonu ile importance sampling Monte Carlo integrasyonu arasındaki farka benzer olup olmadığını merak ediyorum

    • Majorana-1 hakkındaki izlenimlerimi paylaşıyorum

  • Blogda Decision Transformers ve Trajectory Transformers gibi offline yöntemlere değinilmemiş olması üzücü. Bunlar attention mekanizması sayesinde credit assignment sorunundan kaçınarak uzun horizon'lu görevlerde iyi performans gösteriyor. Birçok RL araştırmacısı bu yaklaşımların “gerçek RL” olmadığını düşünüyor; çünkü context window dışına credit atayamazlar. Bu yüzden sonsuz ufuklu görevlerde uygulanmalarının zor olduğu söyleniyor. Ama context window 1 milyonu aşarsa, pratikte bunun büyük bir sorun olup olmayacağını merak ediyorum. Bkz. Decision Transformer makalesi, Trajectory Transformer makalesi

    • TFP makalesi decision transformers'a atıf yapıyor. Transformer mimarisi tek başına credit assignment sorununu aşamaz; Transformer, sıranın önemli olduğu dizi modelleme problemlerinde kullanılan bir yapıdır (örneğin RL içindeki credit assignment). Bu problemin zorluğu veri seyrekliğince belirlenir; yalnızca mimari seçimiyle bunu “aşmak” mümkün değildir
  • Bence RL'nin özünü çok iyi özetliyor. Çok basitçe söylersek, sürekli hareket edip bir hedefi kovalamaya çalışıyorsun ama o hedefin konumu da senin nasıl hareket ettiğine göre sürekli değişiyor. Yani value-based RL'de mutlak bir doğru cevap (ground truth) yok; iki tarafı da kendi tahminlerinle tutturmaya çalıştığın bir oyun var. Ama bunun umutsuz olduğunu düşünmüyorum. Hatta RL'nin artık yakında pratikte kullanılabilir hale geleceğine inanıyorum; çünkü şimdiye kadar bunun önündeki önemli engellerden biri, güvenilir world model'lerin ya da dynamics function'ların eksikliğiydi. Artık o alanda da büyük ilerleme var

  • Bu makale/blog zaten RL bilgisi olan kişileri hedefliyor. RL'yi daha derin öğrenmek isteyenler için David Silver'ın (Deep Mind) giriş dersini öneririm

  • Off-policy öğrenmenin temel sınırlaması şu: etkisiz ilk keşif verileri, daha gelişmiş politika öğrenimi için pek işe yaramaz. Örneğin satrançta acemice hatalar, anlamsız hamleler ya da bulmacayı çözemeyen davranışlar gibi. Veri, mevcut politikanın dışına çıktığı anda off-policy olur; yani ajanın gerçekten seçeceği davranıştan sapıldığında. Sonuçta bu sorunun özü, daha iyi genelleme ve daha yüksek örnek verimliliğidir

    • Bu iddianın fazla genel olup olmadığını merak ediyorum. Mesela off-policy öğrenmeyle bir köpeğin 20 dakikada yürümeyi öğrenmesi örneği nasıl açıklanır? Belki daha nüanslı bir bakış açısı vardır diye sormak istiyorum
  • İnsanlar uzun vadeli (horizon'ı uzun) görevleri öğrenirken, tekrar tekrar pratik yaparak tüm görevi kısa horizon'lu alt görevlere bölüp öğrenir, sonra da bu beceri parçalarını hiyerarşik şekilde birleştirir

    • Belki naifçe gelecek ama sonunda bunun algoritmadan çok yaklaşım meselesi olduğunu hissediyorum. Modelin en baştan uzun horizon'lu görevleri çözmesi zordur; önce kısa horizon'lu becerileri öğrenir, sonra bunları birleştirip daha uzun horizon'lu görevleri öğrenir. İnsanlar da karmaşık işleri, ince hareketlerin tek tek uzun bir dizisi olarak öğrenmektense, küçük birimleri öğrenip işi hiyerarşik olarak böler. Mesela uçak kullanırken ya da spor yaparken de önce temeller öğrenilir
  • İnsanlar aslında hem on-policy hem off-policy öğrenmeyi kullanır. Kendi eylemlerinin sonuçlarını keşfederken on-policy öğreniriz, başkalarının uzman gösterimlerini izlerken de off-policy öğreniriz. Ama insanların RL'den farkı, iyi davranış ile kötü davranışı ayırıp yalnızca “iyi olanı” süzerek öğrenmesidir. Buna karşılık çoğu off-policy RL yaklaşımında kötü davranışlar da veri olarak kullanılır ve bu da genel eğitim hızını düşürür

    • İyi davranışla kötü davranışı her zaman ayırt etmenin mümkün olmadığını da eklemek isterim. Uzman gösterimleri arasında, acemi birine “tamamen yanlış” gibi görünen ama aslında çok daha iyi sonuç veren örnekler olabilir. Bazen sırf gerçekten çok usta biri olduğu için bu tür “alışılmışın dışındaki” taktikler işe yarar
  • Blogun içeriğini beğendim ama açıklanmayan kısaltmalar ve teknik terimler, daha geniş bir okur kitlesi için yazının faydasını azaltıyor. Terimlerin ve kısaltmaların mutlaka açıklanması, erişilebilirliği artırırdı

    • İçeriği çok güçlü ama ciddi önbilgi gerektirdiği için erişimi zor olan bu tür blog yazılarında, AI araçları açıklama ve sadeleştirme konusunda çok yardımcı oluyor. Son dönemde tarayıcı tabanlı Dia kullandım ve etkili buldum. Başka bir yapay zeka modeline kopyala-yapıştır yapmak da işe yarıyor; hem bütün içerik daha öz hale geliyor hem de merak edilen noktalara açıklama alınabiliyor

    • Bu tür yazıların açıkça RL araştırmacıları için yazıldığı hissediliyor. Sonuç da sanki “Birisi çıkıp Q-learning'i ölçeklenebilir hale getirsin lütfen!” gibi

    • Bence tam da bu yüzden yazı daha derli toplu olmuş

  • Q-Learning gibi off-policy yöntemlerin gücü, optimalden uzak veriyle (iyi olmayan veriyle) bile sonunda en iyi çözüme yakınsayabilmeleridir. Örneğin hiçbir stratejisi olmayan satranç oyunlarının verisini toplayıp Q-Learning'e girdi olarak verseniz bile, sonunda optimal politikayı öğrenmek mümkündür (tabii iyi veri kullanmaya kıyasla daha yavaş olur)

    • Sanırım bunun geçerli olduğu koşul, tam da “ergodic” görevlerin tanımı oluyor (kelimeyi biraz esneterek kullanıyorum gerçi). Ama böyle ergodic olmayan görevlerin de var olduğunu düşünüyorum