LADDER: Özyinelemeli problem ayrıştırmayla kendini geliştiren LLM

(arxiv.org)

1 puan yazan GN⁺ 2025-03-08 | 1 yorum | WhatsApp'ta paylaş

LADDER, zor problemleri daha kolay varyantlara indirip sonra yeniden yukarı taşıyarak, insan geri bildirimi veya kürasyonlu veri olmadan LLM’lerin problem çözme yeteneğini artıran bir framework’tür
Temel fikir, modelin çözebileceği seviyeye kadar bir zorluk gradyanı oluşturmak ve doğrulanabilir alt problemlerin çözümlerini daha zor problemleri çözmek için basamak olarak kullanmaktır
Matematiksel integral görevlerinde Llama 3.2 3B’nin lisans düzeyi problemlerdeki doğruluğu %1’den %82’ye çıktı; katkılar bölümünde başlangıç değeri %2 olarak da belirtiliyor
Qwen2.5 7B Deepseek-R1 Distilled, MIT Integration Bee elemelerinde yalnızca LADDER ile %73’e ulaşarak GPT-4o’nun %42’sini ve tipik insan performansı olan %15–30’u aştı
TTRL, test anında da problem varyantları ve pekiştirmeli öğrenme uygulayarak aynı sınavdaki doğruluğu %73’ten %90’a yükseltti ve OpenAI o1’den daha yüksek en güncel performansa ulaştı

LADDER’ın hedeflediği öğrenme darboğazı

Pekiştirmeli öğrenme LLM eğitiminde etkilidir, ancak modelin mevcut yeteneğine uygun ve sonucu kontrol edilebilen doğrulanabilir görevler gerektirir
Problem modelin yeteneğine göre çok zorsa öğrenmenin durması veya performansın kötüleşmesi şeklinde çöküş yaşanabilir
Karmaşık akıl yürütme alanlarında kolay görevlerle ileri düzey görevler arasındaki boşluk büyük olduğundan, kademeli öğrenmeye imkân veren bir zorluk düzeni önemlidir
LADDER, karmaşık bir problemden başlayıp modelin daha kolay varyantlar üretmesini, her varyantın da yeniden alt varyantlar oluşturmasını sağlayan özyinelemeli problem ayrıştırma kullanır
Modelin güvenilir biçimde çözebileceği problemlere kadar inildiğinde, bu çözümler daha zor varyantları çözmek için basamak olarak kullanılır

Kendi kendine yönlendirilen öğrenme ve doğrulama koşulları

İnsanların oluşturduğu veri setleri veya geri bildirim yerine, modelin mevcut yetenekleriyle doğal bir zorluk gradyanı üretir
Öğrenme için doğrulanabilir ödüller gerekir; bu çalışma, çözümleri kontrol etmek için sayısal integrasyon kullanır
Framework, modelin kendi ilerlemesini değerlendirmesini ve öğrenme yolunu ayarlamasını sağlayarak, insan müdahalesi olmadan pekiştirmeli öğrenmenin uygulanmasına imkân tanır
Özyinelemeli problem ayrıştırma ve kendi kendine yönlendirilen öğrenme, GRPO tabanlı pekiştirmeli öğrenmeyle birleştirilir
Problem varyantı üretimi ve doğrulama, güvenilir bir doğrulama mekanizması olduğunda çalışan bir yapıdır

İntegral benchmark’ı ve TTRL sonuçları

Matematiksel integral benchmark’ında LADDER, standart pass@k örneklemesi ile mümkün olan seviyenin ötesinde performans artışı gösterdi
Llama 3.2 3B’nin lisans düzeyi integral problemlerindeki doğruluğu %82’ye çıktı
- Özette başlangıç doğruluğu %1 olarak belirtiliyor
- Katkılar bölümünde başlangıç doğruluğu %2 olarak belirtilmiş
Qwen2.5 7B Deepseek-R1 Distilled, 2025 MIT Integration Bee elemelerinde LADDER uygulandıktan sonra %73 doğruluğa ulaştı
- GPT-4o: %42
- Tipik insan performansı: %15–30
TTRL (Test-Time Reinforcement Learning), test anında dinamik olarak problem varyantları oluşturan ve her test örneğine pekiştirmeli öğrenme uygulayan bir mikro öğrenme sürecidir
TTRL, eğitimde kullanılan doğrulama mekanizmasını çıkarım anında da kullanarak çözümleri daha da iyileştirir
MIT Integration Bee’de TTRL, yalnızca LADDER ile elde edilen %73’ü %90’a yükseltti ve OpenAI o1’den daha yüksek en güncel performansa ulaştı
Bu sonuç, mimari ölçeklendirme veya insan gözetimi olmadan da stratejik problem ayrıştırma ve doğrulama tabanlı kendi kendine öğrenmeyle büyük performans artışlarının mümkün olduğunu gösteriyor

1 yorum

GN⁺ 2025-03-08

Hacker News yorumları

Bu hafta neden bu kadar çok ML atılımı görüldüğüne şaşmamak elde değil.
Sadece son iki günde bile en az 3 ilginç ve umut vadeden sonuç gördüm; Google araştırma ekibi de sinir ağları ile CLA'nın dijital mantık kapıları aracılığıyla birleştirilebileceğini gösterdi.
Böylece çeşitli doğrusal olmayan problemleri basit ve verimli dijital devrelere indirgeme olasılığı doğdu; bu da bugün HN ana sayfasına çıktı: https://news.ycombinator.com/item?id=43286161
Sinir ağları, mantık ve genel olarak zekâ hakkında kafa karıştıran sonuçlar gelmeye devam ettikçe, zekânın nasıl çalıştığını ilk ilkelerden gerçekten anlama noktasına ne kadar yakın olduğumuzu hayal ettiriyor.
- Bunlar, son bir yıl kadar insanların sakladığı gizli formüllere yakındı.
  DeepSeek'in açık kaynak yayımlamasından sonra değeri epey düştü; şirketler de sanki biri onları geçmeden önce itibar artışını nakde çevirmeyi seçiyor.
  2023 Eylül'ünde Llama 2 ince ayarıyla aynı şeyi denemiştim ama kimseyle paylaşmak için onay alamadım.
- Sektörün saf ölçeklemeyle AGI'ye ulaşılamayacağını nihayet fark etmesinden sonra AI/ML alanında çok sayıda yeni yaklaşım görmek ilginç.
  Küçük oyuncuların da gerçek inovasyonla rekabet edip katkı sağlayabilmesi gibi bir avantajı var; bu, OpenAI/MS gibi büyük oyuncuların yıllarca açık kaynağın asla yetişemeyeceğine insanları inandırmaya çalıştığı havayla da tezat oluşturuyor.
  Son birkaç yılda saf GPU hesaplama ölçeklendirmesine çok fazla kaynak, zaman ve para boşa harcandı.
  Gary Marcus bunu birkaç yıldır söylüyordu; yaklaşık 2 yıl eğitilmiş GPT-4.5'in hayal kırıklığı yaratan sonuçları da buna kanıt gibi görünüyor.
- Şu an durum, alçakta asılı meyvelerle dolu yeni bir meyve bahçesi gibi.
  Nihai faydasından bağımsız olarak parıltılı, bolca abartı var, şaşırtıcı tarafı büyük ve akan parayı takip etmek bile zor.
  Bu yüzden en yetenekli insanların önemli bir kısmı ilgi göstermeye başladı ve doğal olarak atılım yapma denemeleri yoğunlaşıyor.
- LLM atılımları yeni batarya atılımları gibi olmaya başladı.
  Şimdilik sadece ödünleşimleri nicelleştirme becerimiz eksik.
- Önemli konferansların yakında makale kabulüne başlayacak olmasıyla ilgili görünüyor.
  Bazı konferanslar, son başvuru öncesindeki birkaç hafta boyunca ön baskı yayımlamayı yasaklıyor; bu yüzden insanlar aceleyle yüklemiş olabilir.
Ünlü sayı teorisi matematikçisi Hendrik Lenstra'nın sözünü hatırlatıyor: “Çözülemeyen her problem için, yine çözülemeyen daha basit bir problem vardır.”
- Bu alıntının gerçek olup olmadığını merak ediyorum.
  George Pólya'nın “Verilen problemi çözemiyorsanız önce daha basit, ilişkili bir problemi çözmeyi deneyin” sözüne aşinayım ama Lenstra alıntısının kaynağını bulamadım.
- Bu, tümevarımla pek güzel işlemiyor.
  Hakaret olarak söylenmediyse tabii.
Bunların test zamanında pekiştirmeli öğrenme yaklaşımı biraz şüpheli görünüyor.
Anladığım kadarıyla TTRL, dil modeline test örneklerinin daha kolay sürümlerini ürettiriyor ve bu basitleştirilmiş problemler üzerinde pekiştirmeli öğrenme çalıştırıp özgün problemdeki performansın da iyileşmesini umuyor.
Sorun, basitleştirilmiş problemleri doğrularken sayısal integratör kullanılması.
Özgün problemden neredeyse farksız problemlerin üretildiği ve modelin doğru cevabı bilerek test örneklerine yakın şekilde eğitildiği bir durum da hayal edilebilir.
Test seti üzerinde eğitim yapıyor gibi görünüyor; ama makalenin geri kalanı fena değil.
- Modelin çözdüğü görev sembolik integral değil mi diye düşünüyorum.
  Model, özgün problemin kendisinde sayısal integratör aracını kullanabilse bile çözmesi zor olan bir problem.
LADDER'ın matematiksel integrallerde etkili olduğu gösterilmiş; lisans düzeyi problemlerde Llama 3.2 3B'nin doğruluğunu %1'den %82'ye çıkardığı söyleniyor.
- Modern terim yeniden yazma sistemlerinin sembolik integralde çok iyi performans gösterdiğini de hesaba katmak gerekir: https://rulebasedintegration.org/
Frank Herbert bunu zaten biliyordu.
Bu, temelde Dune'daki Mentat'ın özyinelemeli özdenetimini uygulamaya koymaya yakın bir şey.
Test zamanında öğrenme/pekiştirmeli öğrenme, geleceğin matematik yapay zekâsı için kesinlikle doğru yaklaşım gibi görünüyor.
Belirli bir probleme saçma miktarda hesaplama kaynağı, örneğin günlerce 10^5 GPU ayırabilmenin az sayıdaki yollarından biri; test zamanı çıkarım ölçeklendirmesinin ilk başta iyi işlemediği durumlarda bile ilerleme beklenebilir.
Örneğin kötü bir değer/politika ağıyla bir Go konumunda MCTS çalıştırmayı düşünebilirsiniz.
AlphaProof bunu zaten yapmıştı; yeniden iyi sonuçlarla görmek sevindirici.
- İlginç nokta, geliştirilmiş performansın küçük boyutlu bir LLM'e ne kadar damıtılabileceği.
  O zaman bir politika iyileştiricimiz, yani benzer problemler için test zamanında pekiştirmeli öğrenmemiz olur ve AlphaZero'nun çalışma biçimini daha iyi taklit edebiliriz.
  Ayrıca 32B gibi küçük bir sinir ağının teorik olarak ne kadar güçlenebileceğini de görebiliriz.
Bu arada Tufa Labs ekibinde ARC-AGI ile bilinen MindsAI ekibi de yer alıyor.
https://tufalabs.ai/team.html
Bazı isimler fazla cezbedici: https://arxiv.org/abs/1507.02672
Makalenin sonunda sistemin sürekli yanlış yaptığı 2025 MIT Integration Bee eleme sorularından ikisine değiniliyor.
Bu soruların sınavdaki en karmaşık eksen olduğu söyleniyor ama ilki sadece ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx ve sonuçta 1/3 + 1/(34) + 1/(34*5) + ... hesaplanıyor.
Dolayısıyla çok ileri düzey matematik saymak zor.
- Yine de bu bir 7B model.
  Problem ileri düzey değil ama model de pek ileri düzey değil.
Bunun az da olsa çalışması başlı başına oldukça ilginç; özellikle matematikte çok iyi çalışıyor gibi görünmesi daha da ilginç.
Ancak bu makale, şu anda süren eğitim ile çıkarım arasındaki sınırların bulanıklaşması akımının bir parçası.
Yöntemin bir kısmı, cevabını bilmediği soruları daha kolay sorulara bölmek ve sayısal bir denetleyiciyle GRPO kullanarak bu sorular üzerinde pekiştirmeli öğrenme yapmak.
Böyle güçlendirilen model daha fazla soruya cevap verebilir hale geliyor.
Bu yaklaşımı seviyorum.
İnsanların da bir şeyi zihninde evirip çevirmesi, tersinden bakması ve benzetmeler kurması gibi çokça yaptığı şey bu.
Test zamanında öğrenmeyi eklemek, sabit çıkarımda bağlama daha fazla token eklemekten çok daha fazla düşünme olanağı sağlayabilir.
DeepSeek ve o1/o3'ün çıkarım zamanında token üretimi ve değerlendirmeyle yetenekleri artırabildiğini göstermesi gibi, çıkarım zamanındaki otomatik ince ayarla da yetenekleri artırmak mümkün görünüyor.
Bu teknikler yerleştiğinde, bunları anlatmak ve düşünmek için yeni bir yol oluşmasını umuyorum.
Bir düzeyde hepsi aynı temel sürecin parçası gibi görünüyor ve her hâlükârda gerçekten harika.

LADDER: Özyinelemeli problem ayrıştırmayla kendini geliştiren LLM

LADDER’ın hedeflediği öğrenme darboğazı

Kendi kendine yönlendirilen öğrenme ve doğrulama koşulları

İntegral benchmark’ı ve TTRL sonuçları

İlgili okumalar

1 yorum

Hacker News yorumları