LIMO: Akıl yürütmede azı karar (Less is More for Reasoning)

(arxiv.org)

3 puan yazan GN⁺ 2025-02-10 | 1 yorum | WhatsApp'ta paylaş

LIMO, karmaşık matematiksel akıl yürütme için büyük ölçekli denetimli verinin gerekli olduğu yaygın kanının aksine, yalnızca 800 örnekle gelişmiş akıl yürütme yeteneklerinin ortaya çıkarılabileceğini gösteriyor
Qwen2.5-32B-Instruct'a basit denetimli ince ayar (SFT) uygulayarak AIME24'te %63,3, MATH500'de %95,6 doğruluk elde etti; bu sonuçlar mevcut ince ayarlı modellerin %6,5 ve %59,2'lik skorlarını açık ara geride bırakıyor
Eğitim verisi önceki yaklaşımların %1'i düzeyinde olmasına rağmen, çeşitli benchmark'larda ve daha önce görülmemiş senaryolarda 100 kat daha fazla veriyle eğitilmiş modellerden daha iyi genelleme performansı gösteriyor
Temel nokta, taban modelde zaten kodlanmış alan bilgisinin ve çözüm sürecine rehberlik eden az sayıdaki yüksek kaliteli örneğin bir bilişsel şablon gibi çalıştığı hipotezi
Akıl yürütme öğrenimindeki darboğaz, görevin karmaşıklığından çok ön eğitim bilgisinin bütünlüğüne ve akıl yürütme zincirlerini kullandıran sonradan eğitim örneklerinin kalitesine bağlı

LIMO hipotezinin hedef aldığı mevcut kanı

Mevcut akıl yürütme eğitimi yaklaşımında, matematik ve programlama problemlerini çözmek için on binlerce ila yüz binlerce örneğe ihtiyaç olduğu görüşü baskındı
Bu yaklaşım, çok adımlı mantığı, alan bilgisinin uygulanmasını ve yapılandırılmış çözüm yollarını modele göstermek için büyük ölçekli denetimli veri kullanır
Başarılı örnekler olsa da, büyük ölçekli veri toplama ve eğitim önemli hesaplama maliyetlerini beraberinde getirir
LIMO hipotezi, karmaşık akıl yürütmeyi ortaya çıkaran eşiğin görev zorluğundan çok iki koşula bağlı olduğunu savunur
- Gerekli bilginin model parametreleri içinde örtük olarak var olup olmadığı
- Az sayıdaki örneğin problem çözme sürecini etkili biçimde gösterip çıkarım sırasında hesaplama alanını kullandırıp kullandırmadığı

Az veriyle de mümkün olmasının nedeni

Yeni taban modeller, ön eğitim aşamasında çok daha fazla matematik içeriği içeriyor
- Llama 2'nin toplam eğitim verisi 1,8T token
- Llama 3 matematiksel akıl yürütme için 3,7T token kullanıyor
Bu değişimle akıl yürütme eğitiminin odağı, yeni matematik bilgisi eklemekten zaten kodlanmış bilgiyi ortaya çıkarmaya kayıyor
Çıkarım sırasında hesaplamayı ölçeklemek de önemli bir koşul
- Uzun akıl yürütme zincirlerini genişleten teknikler, akıl yürütme yeteneğini önemli ölçüde artırır
- Çıkarım sırasındaki hesaplama, modelin ön eğitim bilgisini açığa çıkarıp uyguladığı bir bilişsel çalışma alanı gibi işler
LIMO, zengin ön eğitim bilgisi ile yeterli çıkarım zamanı hesaplama kaynakları birleştiğinde, çok miktarda veri yerine az sayıda yüksek kaliteli örnekle akıl yürütme yeteneğinin etkinleştirilebileceğini savunur

800 örneğin seçilme yöntemi

LIMO yaklaşımı, çok veri toplamaktan ziyade yüksek kaliteli örnekleri bulmak için sıkı bir eleme ile başlar
Büyük bir QA çifti havuzuna çok katmanlı filtreleme uygulanır
- Önce kolay problemleri elemek için kaba bir zorluk filtrelemesi yapılır
- Daha ayrıntılı zorluk değerlendirmesiyle zorlayıcı problemler belirlenir
- Kapsayıcı bir alan sağlamak için bilgi noktaları çeşitlendirilir
Akıl yürütme zincirleri ayrıca incelenir
- Mantıksal tutarlılık
- Adım adım açıklık
- Çözüm doğruluğu
Bu süreç sonunda 800 eğitim örneğinden oluşan küçük ama güçlü bir veri seti oluşturulur

Benchmark performansı

LIMO, Qwen2.5-32B-Instruct'ı temel alır ve yalnızca seçilmiş 800 örneği kullanarak basit SFT uygular
Başlıca performans sonuçları şöyle
- AIME24 doğruluğu %63,3
- MATH500 doğruluğu %95,6
Mevcut ince ayarlı modeller AIME24'te %6,5, MATH500'de %59,2 kaydederek LIMO ile büyük bir fark gösterir
Gereken eğitim verisi, önceki yaklaşımların yalnızca %1'i düzeyindedir
Çeşitli matematik ve disiplinler arası benchmark'larda güçlü dağılım dışı genelleme göstermiş ve toplamda %45,8 mutlak iyileşme elde etmiştir
Daha önce görülmemiş birçok senaryoda da 100 kat daha fazla veriyle eğitilmiş modellerden daha yüksek performans üretmiştir

Katkılar ve yayımlanan materyaller

LIMO'nun temel katkısı, az sayıda örnekle karmaşık akıl yürütme yeteneklerinin ortaya çıkarılabileceğini öne süren Less-Is-More Reasoning Hypothesis'i resmileştirmesidir
LIMO ilkelerine göre bir veri seti oluşturulmuş ve Qwen2.5-32B-Instruct basit SFT ile ince ayarlanmıştır
Deney sonuçları, zor matematiksel akıl yürütme benchmark'larında rekabetçi performans ve güçlü dağılım dışı performans göstermektedir
Analizler ve ablation study, veri seçim ilkelerinin etkisini doğrular; ayrıca taban modelin bilgi düzeyi, model boyutu ve mimari farklılıklarına göre uygulanabilirliği araştırır
Rekabetçi performans elde etmek için gereken minimum veri miktarı da incelenmiştir
Model, kod ve seçilmiş veri seti GitHub deposu üzerinden yayımlanmıştır

1 yorum

GN⁺ 2025-02-10

Hacker News yorumları

Güzel bir sonuç, ama iki noktayı belirtmeye değer: Model, ön eğitim ve denetimli ince ayarında zaten milyonlarca özenle seçilmiş matematik örneği içeren Qwen-2.5 Instruct üzerinden ince ayar yapılmış bir model
Ayrıca LIMO için mükemmel 817 matematik örneği oluşturmak üzere, R1 gibi en yeni modellerle 10 milyon matematik probleminden oluşan bir havuz elenmiş
Yani mümkün olduğunca yüksek bilgi içerikli ve damıtılmış ince ayar verisi oluşturmak için zaten çok fazla zekâ harcanmış durumda; bu yüzden bunun, 10 milyonluk ilk havuzun tamamıyla doğrudan ince ayar yapıp aynı sonucu almaktan daha mı etkileyici yoksa daha mı az etkileyici olduğundan emin değilim
Ancak ikincisi muhtemelen manşet olarak daha az çekici olurdu
- Yazarlar da özette bu iki noktayı karmaşık akıl yürütmeyi ortaya çıkaran eşik koşulları olarak açıkça belirtmiş: son derece yetkin bir ön eğitimli temel model ve sonradan eğitim için çok yüksek kaliteli bir örnek kümesi
  10 milyonluk ilk havuzla ince ayar yapma meselesine sezgisel bakınca, performansı oynatmak için muazzam miktarda ince ayar verisi gerekecekmiş gibi gelir; 817 örnekle gradyanı ciddi biçimde değiştirmek zordur
  O ilk havuz aslında oldukça güçlü bir düzenlileştirmeyi dayatan bir rol oynar
  Bugünlerde küçük veri ve çıkarım zamanında ölçekleme ile büyük kazanımlar elde edildiğini göstermeye ilgi artıyor
  Yakın örnekler olarak TinyZero: https://github.com/Jiayi-Pan/TinyZero, s1 Simple Test Time Scaling: https://arxiv.org/abs/2501.19393 var
- Önceki modellerin bilgisini kullanarak daha verimli bir model yapmayı neden bu kadar eleştirdiklerini anlamıyorum
  Önceki çalışmalardan yararlanarak ilerleme kaydetmek yanlış değil; verimlilik artışı da bir ilerlemedir
  Kombucha yaparken SCOBY’yi mikropları tek tek birleştirerek oluşturmadınız diye eleştirmeyiz sonuçta
- 10 milyon içinden 817 örneği seçmenin 12.290 bit bilgi içerdiği de söylenebilir
- Matematik olimpiyatlarında yüksek puan almak için gereken kavrayışı veren, ama açıkladığı problem sayısı 1.000’den az olan bir ders kitabı olduğunu hayal etmek yeterli
  Bu başlı başına üstbiliş açısından büyük bir keşif
- Makale ve bu açıklama, temel öğrenimini tamamlamış bir öğrenciye bir sonraki aşama akıl yürütmeyi öğretmek için “mümkün olduğunca yüksek bilgi içerikli ve damıtılmış” bilişsel örneklerden oluşan bir ders kitabı hazırlamaya oldukça benziyor
  Son birkaç yılda LLM’lerdeki ilerleme, insanların “akıl yürütme” yanıtlarının, LLM tarafından üretilmiş gibi makul görünen insan tepkilerini modelleyerek tahmin edilebildiğini gösterdi
  Başka bir deyişle, birçok yanıt özel olarak düşünülmüş akıl yürütmeden ziyade token üretim zincirine daha yakın
  Problem çözerken “kendi kendine konuşan” birinin yanında oturursanız bu daha da belirginleşir
  tokgen’in tanımını bir restoran sohbetini dinleyerek anlayabilirsiniz
  Birçok konuşma, derin düşünceden çok, bir prompt’un neredeyse kusursuz biçimde öngörülebilir devamı olan tepkilerdir
  Bir durup düşündükten sonra söylenenlerden ayırmak için thought ve token generation, yani tokgen etiketini kullanabiliriz
Bu alanın uzmanı değilim, ama internetle ön eğitim almış bir modelin matematiksel akıl yürütme için gereken yeteneklerin çoğunu zaten edindiğini düşünüyorum
Ancak hedef tüm internetin sonraki kelime dağılımını tahmin etmek olduğundan ve internet metinlerinin çoğu böyle akıl yürütme metinleri olmadığından, model sanki normalde bu yeteneği pek kullanmıyor
Birkaç yıl önce görüntü üretim modellerinde prompt’a “unreal engine” ekleyince sonuç kalitesinin ciddi biçimde artmasına benziyor
Model internet görüntülerinin dağılımını üretmek üzere eğitilmişti; bunların çoğu özellikle etkileyici değildir, ama “unreal engine” içeren görüntüler genellikle yüksek kaliteli ekran görüntüleri olduğundan üretim dağılımı da yüksek kalite tarafına kaymıştı
Bu yüzden modelin örtük yeteneklerin çoğuna zaten sahip olması ve o yeteneği gerçekten kullanması için yalnızca bazı bağlantıları ayarlamak gerekmesi mantıklı; az sayıda eğitim örneğiyle matematiksel akıl yürütme becerisinin artması da bu yüzden anlaşılır
- Anthropic’in aktivasyon değerlerindeki kavramları analiz edip manipüle ederek golden gate Claude yapmasına ya da “buggy code” gibi özellikleri maksimize/minimize etmesine oldukça benziyor[0]
  [0]: https://www.anthropic.com/news/mapping-mind-language-model
- Buna biraz eklersek, örüntü tanıma ve devam ettirme sembolik akıl yürütme değerlendirmesine de uygulanabilir
  Örneğin işlevsel programlama dillerinin semantiğini yeniden yazma kurallarıyla tanımlarsanız bunun nasıl göründüğü görülür
  Model problemi yeterince kesin bir dile çevirip LLM’e kodlanmış üretim programıyla örüntü eşlemeye başlayabilir ve mantıksal sonuçları değerlendirebilirse çok ilginç bir alana gireriz
  Özbağlanımlı tahmin, sembolik artımlı değerlendirme ve hesaplamaya dönüşebilir; arka plandaki LLM ise hâlâ değerlendirme seçimlerini ve hedef aramayı yönlendirir
  Temel modelde daha kesin bir dili temiz biçimde iliştirmeye yetecek kadar içerik zaten varsa, bu değerlendirme kurallarını güçlendirmek için devasa bir derlem şart olmayabilir
- R1’in çoğunlukla gösterdiği akıl yürütme bana ilkokul 5. sınıf ifadesi gibi geliyor; bu da yukarıdaki açıklamayı destekliyor
  Yine de matematiksel akıl yürütme için gereken bilgiyi sıkıştırmaya devam edersek, sonunda kategori teorisi ile Prolog benzeri kural tabanlı bir şeyin birleştiği bir biçim ortaya çıkabilir
- Bu, temel modeli denetimli öğrenme veya pekiştirmeli öğrenmeyle ince ayardan geçirmenin genelde modeli özünde daha akıllı kılmadığı; bunu yalnızca ön eğitim sırasındaki ilk özdenetimli öğrenmenin yaptığı anlamına gelebilir
  Elbette herhangi bir miktarda pekiştirmeli öğrenmeyle bile LLM’lerin gerçekten daha akıllı olamaması da tuhaf olurdu
Tahminime göre matematik gibi bazı alanlar genel olsa da, olası tüm sayılar gibi geçerli söz varlığı boyutu anormal derecede büyük olduğu için, normal boyutta söz varlığına sahip alanlarda işe yarayan yöntemlerle eğitmek daha pahalı hale geliyor.
Bu tür problem alanlarında akıl yürütme adımlarını öğretmek, “toplama”, “ters eleman”, “çözme” gibi görece az sayıdaki genel kelimeyi güçlendirebilir.
Böylece sayı kombinasyonlarının aritmetiği tek tek problemlerden ayrılır ve tek seferlik doğru cevaba vurgu yapılmaz.
N adet akıl yürütme örneği ve M adet aritmetik örneğiyle eğitmek yeterlidir; N*M adet eksiksiz matematik problemiyle eğitmeye gerek yoktur.
Bu yüzden akıl yürütme kaynağını daha fazla harcamak gerekse de daha az eğitimle daha iyi cevaplar elde edilebilir.
Teoriyi bir kenara bırakırsak, uygulama tarafında bu tür genel akıl yürütme süreciyle nihai formülü yapılandırıp ardından geleneksel bir değerlendiriciye aktarmak iyi görünüyor.
O zaman akıl yürütme ve onun eğitimi yalnızca sembol manipülasyonuna kadar gitmek zorunda kalır.
Bu, doğal dil işlemenin çok daha sonra değerlendiriciye devredildiği Wolfram Alpha benzeri bir yöntemdir.
- Bununla bağlantılı bir soru: mükemmel hesap makinesi olan bir LLM hiç oldu mu?
  Standart +/- işlemleri ve tam sayılar vb. içeren bir ifade verdiğinizde her zaman doğru sonucu döndüren türden.
  İlgili bir makale gördüğümü hatırlamıyorum ama uzman da değilim.
Son zamanlarda birbirleriyle çelişiyor gibi görünen iki şey okumuş gibiyim: LLM'lerin teorem kanıtlamayı asla genelleyemeyeceği sözü ve bu makaledeki “modern LLM'ler zaten parametre uzaylarında zengin matematik bilgisine sahip olabilir; görev bilgi ediniminden bilgi yönlendirmeye kayıyor” sözü.
Artık neyin ne olduğunu pek bilmiyorum.
- Bu acı ilacı yutmak için, tüm insan bilgisinin fiilen görece “küçük” sonlu bir dağılım olduğunu ve modellerin artık bunun üzerinde örüntü eşleştirmesi yapacak kadar büyüdüğü için LLM'lerin “genelleyebildiğini” kabul etmek gerekiyor gibi.
- LLM'ler probleme uygun doğru arama uzayını üretebiliyor ama o uzayın içinde çözümü belirleme süreci verimsiz olabilir mi?
  Başka bir deyişle, lise matematiği ders notlarını çalışmış öğrencilerin çoğunun içinde olimpiyat altın madalyası kazanma potansiyeli vardır.
  Çünkü matematiğin kendisi lise konularının çok da ötesine geçmez.
  Ama gerçek bir liseliyi olimpiyat altın madalyası seviyesine çıkarmak zordur ve P'ye karşı NP'ye benzer bir şey olabilir.
- İster abartan tarafta ister şüpheci tarafta olsun, doğrulanabilir şeyleri sürekli söyleyen çok kişi göreceğiz.
  Ellerinde kendi iddialarının tersini gösteren ekran görüntüleri olsa bile bazen aynı iddiayı sürdürürler.
  Özellikle şüpheciler konusunda, üst seviye LLM'leri bizzat kullanıp “birinin yapılamaz dediği şeyi bu gerçekten yapıyor mu?” diye kontrol edebilirsiniz.
  Çoğu zaman gerçekten yapar.
  Şüphecilerin yakın zamanda sunduğu makalelere bakınca, en güncel LLM'ler hakkında iddiada bulunup yine de yalnızca bir yıldan eski sürümleri test ettikleri durumlar var.
  Gerçekten de yakın zamanda böyle bir şey oldu^
  Neyin doğru olduğundan emin olmak için tek yol bizzat kullanıp neyin doğru olduğuna karar vermek.
  ^ https://x.com/tylercowen/status/1881051976102035880
- Zengin matematik bilgisine sahip olup yine de teorem kanıtlamada iyi olmayabilir.
  Tersine, zengin matematik bilgisi olmadan da yarışma matematiği problemlerini kanıtlamada iyi olabilir.
  Zengin matematik bilgisine sahip olup teorem kanıtlamada da iyi olabilir ama bunu çoğunlukla kendi uzmanlık alanında yapıyor olması da mümkündür.
- “LLM'ler asla X yapamaz” sözü bana her zaman yanlış gibi geliyor.
Görüntü difüzyon modellerinin tüm görsel dünyanın makul bir yaklaşımını 5 GB'lık bir modelde özetleyebildiğini göstermesi gibi, akıl yürütme örüntüleri de benzer şekilde sıkıştırılabilir mi?
Tüm alanlarda kullanılan akıl yürütme örüntüleri gerçekten sayılacak kadar az olup görece küçük bir eğitim kümesiyle yakalanabilir mi?
- Gerçekten genel “akıl yürütme örüntülerinin”, yani strateji ya da yaklaşımların çok fazla olmadığını düşünüyorum.
  Ancak uygulamalı akıl yürütme yalnızca akıl yürütme örüntülerini değil, o yaklaşıma göre uygulanabilecek alana özgü geçerli akıl yürütme adımları repertuvarını da gerektirir.
  Ayrıca bilgi ve öğrenilmiş akıl yürütme adımlarının tümü kullanılsa bile çözüme ulaşılamadığında tıkanıklığı aşma becerilerinin bir kombinasyonunu da gerektirir.
  Matematik gibi alanlarda az sayıda matematiğe özgü akıl yürütme adımı bile oldukça ileri götürebilir; ama matematiğin kendi içinde de cebir, geometri, analiz, topoloji gibi çok sayıda alt alan vardır.
  Bildiğim kadarıyla bir alandaki teknikler, yalnızca problemi başka bir alana eşleyebildikleri ölçüde diğer alanlarda işe yarar.
Özenle seçilmiş 817 matematik probleminden oluşan bir kümenin, matematik öğrencilerini çeşitli problemlerle eğiten bir ders kitabı olarak da yararlı olup olmayacağını merak ediyorum.
LIMO hipotezinde olduğu gibi küçük bir veri kümesiyle ince ayar yaparak küçük bir modelin içindeki verimli akıl yürütme potansiyeli ortaya çıkarılabiliyorsa, büyük modellerden küçük modellere doğru ciddi bir güç kayması yaşanabilir.
Bu süreç yinelemeli olarak mümkünse neredeyse sınırsız güç sağlıyor gibi görünüyor.
Ancak bu döngüyü beslemek için veri kümesinin bazı özelliklere sahip olması gerekir.
Akıl yürütmeyi model boyutuna göre ayarlamayı öğretmeli ve arama uzayında küçük bir dallanma katsayısıyla akıl yürütme zincirinin derinliğini genişleterek derin örüntüleri saptayan asgari örtü gibi bir yöntemle doğrulanmalıdır.
Alanın giderek LLM pedagojisine dönüşmesini izlemek ilginç.
Akıl yürütme, tahmin etme sanatıdır.
Gerçekliğe dair çok sayıda gözlemi, yeni gözlemleri yeterince iyi tahmin eden küçük bir gerçeklik modeline damıtmaktır.
“Gördüklerimin çoğunu açıklayan en basit model nedir?” zihnin yanıtlamaya çalıştığı temel sorudur.
Böyle bir model kurma becerisini edindiğimizde, yeni problemi modelimizle örüntü eşleştirmesine sokar ve sonuçları o modelle tahmin ederiz.

LIMO: Akıl yürütmede azı karar (Less is More for Reasoning)

LIMO hipotezinin hedef aldığı mevcut kanı

Az veriyle de mümkün olmasının nedeni

800 örneğin seçilme yöntemi

Benchmark performansı

Katkılar ve yayımlanan materyaller

İlgili okumalar

1 yorum

Hacker News yorumları