LADDER: Kendini geliştirme yoluyla LLM'lerin problem çözme yeteneğini artırma
-
LADDER tanıtımı: LADDER, karmaşık problemleri kademeli olarak daha basit biçimlere dönüştürerek büyük dil modellerinin (LLM) kendi problem çözme yeteneklerini geliştirmesini sağlayan bir çerçevedir. Mevcut veri kümelerine veya insan geri bildirimine ihtiyaç duymadan, modelin kendi yeteneklerinden yararlanarak daha kolay problem dönüşümleri üretir.
-
Etkililik: LADDER, matematiksel integral alanında Llama 3.2 3B'nin doğruluğunu %1'den %82'ye çıkardı ve Qwen2.5 7B Deepseek-R1 Distilled'ın MIT Integration Bee ön elemesinde %73'e ulaşmasını sağladı.
-
TTRL tanıtımı: TTRL (Test-Time Reinforcement Learning), test problemlerinin dönüşümleri üzerinden çıkarım sırasında pekiştirmeli öğrenme uygulayan bir yöntemdir. Bu sayede Qwen2.5 7B Deepseek-R1 Distilled, MIT Integration Bee ön elemesinde son teknoloji düzeyinde %90 puan elde ederek OpenAI o1'in performansını aştı.
-
Sonuçların önemi: Bu sonuçlar, otonom ve stratejik öğrenmenin mimari ölçeklendirme veya insan gözetimi olmadan da kayda değer yetenek artışları sağlayabileceğini gösteriyor.
1 yorum
Hacker News görüşleri
Bu hafta neler olup bittiğini merak ediyorum. Son iki günde makine öğreniminde birkaç ilginç atılım gördüm
Ünlü sayı teorisi matematikçisi Hendrik Lenstra'nın şu sözü aklıma geliyor
Test zamanı pekiştirmeli öğrenme yaklaşımlarına biraz şüpheyle yaklaşıyorum
LADDER'ın matematiksel integral konusundaki etkinliğini gösteriyorlar. Llama 3.2 3B'nin doğruluğunu %1'den %82'ye çıkarıyor
Frank Herbert bunu biliyordu. Bu, Dune'da tasvir edilen mentatların özyinelemeli öz denetiminin bir uygulaması
Test zamanı eğitim/pekiştirmeli öğrenme, geleceğin matematik yapay zekası için doğru yaklaşım gibi görünüyor. Verilen bir problem için muazzam miktarda hesaplama kullanmanın birkaç yolundan biri olması muhtemel. Alphaproof bunu zaten yapmıştı, ama bunun yeniden yapılıp iyi sonuçlar vermesi güzel
Konu dışı ama siteleri çok güzel. Sanki bir altın madeni bulmuşum gibi hissettiriyor
Bazı isimler fazla çekici
Makalenin sonunda 2025 MIT Integration Bee eleme sınavından iki sorudan bahsediyorlar. Sistemin sürekli yanlış cevap verdiğini söylüyorlar