1 puan yazan GN⁺ 2025-03-08 | 1 yorum | WhatsApp'ta paylaş

LADDER: Kendini geliştirme yoluyla LLM'lerin problem çözme yeteneğini artırma

  • LADDER tanıtımı: LADDER, karmaşık problemleri kademeli olarak daha basit biçimlere dönüştürerek büyük dil modellerinin (LLM) kendi problem çözme yeteneklerini geliştirmesini sağlayan bir çerçevedir. Mevcut veri kümelerine veya insan geri bildirimine ihtiyaç duymadan, modelin kendi yeteneklerinden yararlanarak daha kolay problem dönüşümleri üretir.

  • Etkililik: LADDER, matematiksel integral alanında Llama 3.2 3B'nin doğruluğunu %1'den %82'ye çıkardı ve Qwen2.5 7B Deepseek-R1 Distilled'ın MIT Integration Bee ön elemesinde %73'e ulaşmasını sağladı.

  • TTRL tanıtımı: TTRL (Test-Time Reinforcement Learning), test problemlerinin dönüşümleri üzerinden çıkarım sırasında pekiştirmeli öğrenme uygulayan bir yöntemdir. Bu sayede Qwen2.5 7B Deepseek-R1 Distilled, MIT Integration Bee ön elemesinde son teknoloji düzeyinde %90 puan elde ederek OpenAI o1'in performansını aştı.

  • Sonuçların önemi: Bu sonuçlar, otonom ve stratejik öğrenmenin mimari ölçeklendirme veya insan gözetimi olmadan da kayda değer yetenek artışları sağlayabileceğini gösteriyor.

1 yorum

 
GN⁺ 2025-03-08
Hacker News görüşleri
  • Bu hafta neler olup bittiğini merak ediyorum. Son iki günde makine öğreniminde birkaç ilginç atılım gördüm

    • Google araştırma ekibi, dijital mantık kapıları aracılığıyla NN'ler ile CLA'ları birleştirmenin mümkün olduğunu keşfetti. Bu sayede birçok doğrusal olmayan problem basit ve verimli dijital devrelere indirgenebiliyor
    • Sinir ağları ile mantık/zeka alanında yeni keşifler gelmeye devam ediyor ve zekanın ilkelerini anlamaya ne kadar yaklaştığımıza dair hayal kurmadan edemiyorum
  • Ünlü sayı teorisi matematikçisi Hendrik Lenstra'nın şu sözü aklıma geliyor

    • "Çözülemeyen her problem için, çözülemeyen daha basit bir problem vardır"
  • Test zamanı pekiştirmeli öğrenme yaklaşımlarına biraz şüpheyle yaklaşıyorum

    • TTRL, dil modelinden test vakasının daha basit bir sürümünü üretmesini isteyerek çalışıyor. Daha basit bir problem elde edildiğinde, bu problem üzerinde pekiştirmeli öğrenme yaparak modelin özgün problemdeki performansını güçlendirmeye çalışıyorlar
    • Sorun şu ki, basit problemi doğrulamak için sayısal bir integratör kullanıyorlar. Neredeyse hiç de basit olmayan bir problem üretildiği ve modelin fiilen gerçek test vakaları üzerinde eğitildiği senaryolar hayal edebiliyorum. Bu, test seti üzerinde eğitim yapmak gibi
    • Makalenin geri kalanı ise iyi
  • LADDER'ın matematiksel integral konusundaki etkinliğini gösteriyorlar. Llama 3.2 3B'nin doğruluğunu %1'den %82'ye çıkarıyor

    • Bu yöntemin çalışıyor olması başlı başına ilginç. Matematikte iyi çalışması özellikle ilginç
    • Bu makale, eğitim ile çıkarım arasındaki sınırları bulanıklaştıran mevcut eğilimin bir parçası. Yöntemlerinin bir kısmı, cevabı bilinmeyen soruları daha basit sorulara ayırmak ve sayısal bir "checker" kullanarak GRPO uygulamak. Bu güçlendirilmiş model daha fazla soruyu yanıtlayabiliyor
    • Bence insanlar da çoğu zaman böyle düşünüyor. Bir şeyi uzun uzun düşünüp zihninde çevirip durmak, benzetmeler kurmak vb. Test zamanında eğitim eklemek, sabit bir çıkarım bağlamına token eklemekten daha fazla düşünmenin bir yolu
    • DeepSeek ile o1/o3'ün, çıkarım zamanında token üretimi ve değerlendirmesiyle kapasitenin artırılabildiğini göstermesi gibi, çıkarım zamanında otomatik fine-tuning ile de kapasite artırılabilir gibi görünüyor
    • Bu teknikler oturdukça, bunlar hakkında yeni bir şekilde konuşup düşünebilmeyi umuyorum. Hepsi bir düzeyde aynı temel sürecin parçaları
    • Her halükarda çok havalı
  • Frank Herbert bunu biliyordu. Bu, Dune'da tasvir edilen mentatların özyinelemeli öz denetiminin bir uygulaması

  • Test zamanı eğitim/pekiştirmeli öğrenme, geleceğin matematik yapay zekası için doğru yaklaşım gibi görünüyor. Verilen bir problem için muazzam miktarda hesaplama kullanmanın birkaç yolundan biri olması muhtemel. Alphaproof bunu zaten yapmıştı, ama bunun yeniden yapılıp iyi sonuçlar vermesi güzel

  • Konu dışı ama siteleri çok güzel. Sanki bir altın madeni bulmuşum gibi hissettiriyor

  • Bazı isimler fazla çekici

  • Makalenin sonunda 2025 MIT Integration Bee eleme sınavından iki sorudan bahsediyorlar. Sistemin sürekli yanlış cevap verdiğini söylüyorlar

    • Bunların sınavdaki en karmaşık sorulardan bazıları olduğunu söylüyorlar ama ilk soru sadece şu
    • ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx
    • Bu da 1/3 + 1/(34) + 1/(34*5) + ... ifadesini hesaplamaya denk geliyor. Çok ileri düzey matematik değil