Meta Chain-of-Thought ile düşünmeyi öğrenmek

(arxiv.org)

2 puan yazan GN⁺ 2025-01-12 | 1 yorum | WhatsApp'ta paylaş

Meta Chain-of-Thought (Meta-CoT), yalnızca nihai çözüm adımlarını yazan CoT’nin ötesine geçerek, yanıta ulaşmadan önceki örtük düşünme sürecini de modellemeyi amaçlayan bir çerçevedir
Zor matematik problemlerinde ders kitabı tarzı nihai çözüm, gerçek düşünmedeki arama, doğrulama ve deneme süreçlerini atlar; bu da modelin çözüm üretme sürecini öğrenmesini zorlaştırır
GPT-4o ve Claude da bazı cebirsel ifade değerlendirmelerinde başarısız olabilir; ancak “step by step” CoT ara hesaplamaları artırarak doğru yanıt olasılığını yükseltir ve çıkarım hesaplama miktarındaki farkı ortaya koyar
OpenAI o1 serisi, HARP gibi zor matematik benchmark’larında daha uzun çıktılar üretip performans farkını açarak inference anındaki arama ile örtüşen davranışlar gösterir
Meta-CoT uygulama yolu; süreç denetimi, sentetik veri, MCTS/A* araması, doğrusallaştırılmış arama izlerine dayalı instruction tuning ve reinforcement learning sonrası eğitimi birleştiren bir eğitim pipeline’ı olarak önerilir

Meta-CoT’nin hedeflediği sorun

Günümüz büyük dil modellerinin temeli sonraki token tahminidir; metin veya sürekli modaliteler ayrık token dizilerine bölünür ve model, sonraki token olasılığını maksimize edecek şekilde eğitilir
Bu yaklaşımın arkasında “compression is intelligence” bakışı vardır
- Modelin sonraki token’ı tahmin edebilmesi için veri dağılımını yaklaşık olarak öğrenmesi ve aktivasyon değerleri içinde örtük çıkarım yapması gerekir
Temel soru, veri akışının karmaşıklığı ile modelin veriyi üreten algoritmayı öğrenebilme yeteneği arasındaki ilişkidir
Matematiksel akıl yürütme, bu soruyu değerlendirmek için iyi bir alan olarak kullanılır
- “1+2” gibi sorulara çoğu zaman hemen “3” yanıtı verilir
- Daha karmaşık cebirsel ifade değerlendirme problemleri aslında 1’e sadeleşse de GPT-4o ve Claude gibi güçlü LLM’ler bile tek seferde doğru yanıt veremeyebilir
“think step by step” yönergesi ve CoT, ara adımlar üretilmesini sağlayarak performansı önemli ölçüde artırır
- Örnek cebirsel ifadede, çarpanlara ayırma, sadeleştirme ve ortak payda hesaplama üzerinden değerin 1 olduğu gösterilir

Mevcut CoT’nin sınırları

CoT genişletmesi, teorik olarak doğru yanıt token’ını tahmin etmeye keyfi miktarda hesaplama ayırmayı mümkün kılar
Mevcut teorik literatür, CoT’nin LLM’lere yeni bir ifade karmaşıklığı düzeyi sağladığını ve sonsuz bellek gibi varsayımlar altında Turing complete olmanın bile mümkün olabileceğini değerlendirir
Gerçek LLM’ler ise hâlâ yalnızca sınırlı karmaşıklıktaki problemleri güvenilir biçimde çözebilir
Karmaşık çıkarımın gerçek veri üretim süreci, sıradan CoT verilerinde yeterince yer almaz
- Basit problemlerin ders kitabı tarzı çözüm süreci, gerçek çözüm üretme süreciyle görece iyi örtüşür
- Karmaşık problemlerin nihai çözüm adımları, o çözüme ulaşmadan önceki doğrusal olmayan arama sürecini atlar

Meta Chain-of-Thought’un tanımı

Meta-CoT, sorudan doğrudan nihai çözüm adımlarına ve yanıta gitmek yerine, öncesinde var olan örtük düşünceleri z1 ... zK modellemeye çalışır
Klasik CoT’de yanıtın a, çözüm adımları s1 ... sn koşuluna bağlı olduğu düşünülebilir
Meta-CoT ise çözüm adımları ve yanıtın (a, s1 ... sn), örtük düşünme süreci z1 ... zK koşuluna bağlı olduğunu varsayar
Bu, mevcut CoT mantığını bir adım genelleştiren bir yapıdır ve nihai çözümün dışındaki düşünme sürecini öğrenme hedefi haline getirir
Karmaşık problemlerde nihai çözüm kısa olsa bile, o çözümü keşfetme süreci uzun ve doğrusal olmayan bir süreç olabilir

IMO 2011 “windmill” problemi örneği

International Mathematics Olympiad 2011’in ünlü windmill problemi, karmaşık çıkarıma örnek olarak kullanılır
Bu problemin kamuya açık çözümü birkaç cümleyle ifade edilebilir ve özel bir ön bilgi de gerektirmez
Asıl zorluk, çözümün çok doğrusal olmayan bir yapıya sahip olmasındadır
- Birçok katılımcı convex hull kurgusu veya Hamiltonian graph theory araçlarını denemiş ancak bunlar çözüme götürmemiştir
- Problemi çözen katılımcılar, geometrik arama ve tümevarımsal akıl yürütmeyi yoğun biçimde içeren deneysel bir yaklaşım izlemiştir
Nihai çözümün başındaki kurulumun yararı, ancak tüm yaklaşım önceden biliniyorsa görünür olur
Bu nedenle gerçek çözüm üretme süreci, soldan sağa ilerleyen otoregresif yöntemle iyi örtüşmez

HARP sonuçları ve o1 serisinin token kullanımı

OpenAI o1 model serisinin inference anında otoregresif biçimde Meta-CoT çıkarımı yaptığı tartışılır
HARP matematik benchmark’ında o1 serisi, mevcut standart çıkarım modellerinden genel olarak daha yüksek performans gösterir
Problem zorlaştıkça o1 ile diğer modeller arasındaki performans farkı büyür
- Ancak LLaMa 3.1 modelinde ilginç bir istisna gözlemlenmiştir
Token üretim miktarında da o1 serisi, mevcut modellerden farklı davranış sergiler
- Level 1 problemlerinde, insan tarafından yazılmış çözümlerle benzer sayıda token üretir
- Daha yüksek zorluk seviyelerinde problem başına çok daha fazla token üretir ve aynı anda mevcut modellere kıyasla performans farkı da büyür
Zor problemlerin kamuya açık çözümleri gerçek üretim sürecini temsil etmeyebilir; bu da o1 serisinin daha uzun Meta-CoT’sinin bu süreci daha iyi yaklaşık olarak modelleyebileceği varsayımına götürür

Arama ve doğrulamanın rolü

Karmaşık hedef odaklı problemlerde üretim ile doğrulama arasında anlamlı bir zorluk farkı bulunabilir
Bu fark, teorik bilgisayar biliminin temel açık problemleriyle bağlantılıdır; ancak bunu kanıtlamak araştırmanın kapsamı dışındadır
Metin derlemlerindeki zor problemlerin çözümleri, uzun bir arama sürecinin sonucu olarak görülebilir
Ancak arama sürecinin kendisi genellikle veride temsil edilmez
Meta-CoT verisi yoksa veya yalnızca sınırlı ölçüde varsa, modelin zor çıkarımın gerçek üretim sürecini doğrudan öğrenmesi zordur

LLaMa 3.1 8B deneyi

LLaMa 3.1 8B base model üzerinde Numina MATH veri kümesiyle büyük ölçekli supervised fine-tuning uygulanmıştır
Her ara checkpoint, Hendrycks MATH’in 500 soruluk değerlendirme veri kümesinde değerlendirilmiştir
Oracle verifier kullanan pass@k değerlendirmesinde, k arttıkça performansın belirgin şekilde yükseldiği gözlemlenmiştir
Figure 2, filtrelenmiş veri kümesinin özgün veriden daha iyi scaling gösterdiğini ve henüz plateau’ya ulaşmadığını gösterir
pass@2’den pass@64’e kadar k artırıldığında, küçük modellerde bile en az bir doğru çözüm elde etme olasılığı önemli ölçüde artar

Eğitim yolu ve açık sorular

Meta-CoT oluşturma yöntemi olarak süreç denetimi ve arama tabanlı sentetik veri üretimi ele alınır
Sentetik Meta-CoT üretimi, Monte Carlo Tree Search (MCTS) ve A* araması gibi arama algoritmalarını içerir
Tek bir end-to-end sistemi hedefleyen pipeline, doğrusallaştırılmış arama izleriyle instruction tuning’i ve reinforcement learning sonrası eğitimi birleştirir
“Big MATH” projesi, 1.000.000’dan fazla yüksek kaliteli ve doğrulanabilir matematik problemi toplayarak bu araştırmayı destekleme girişimidir
Açık araştırma soruları arasında çıkarım ve aramanın scaling yasaları, verifier’ın rolü ve meta-RL yoluyla yeni çıkarım algoritmaları keşfetme olasılığı yer alır

1 yorum

GN⁺ 2025-01-12

Hacker News yorumları

CoT eleştirisi ikna edici. Özellikle algoritmik taklit ile gerçek bilişsel keşif arasındaki kopukluğu işaret eden kısım kilit nokta
Yazarlar, Uluslararası Matematik Olimpiyatı’ndaki “windmill problem” gibi ileri düzey matematik örnekleriyle, körlemesine sıralı düşünmeyle çözülmesi zor problemleri gösteriyor. Statik veri kümelerine ve katı üretim süreçlerine dayanan çerçevenin sınırları ortaya çıkıyor. CoT’nin başarısız olma nedeni yanıt üretememesi değil, insan yaratıcılığı gibi yanıtı akla getirme biçimine sahip olmaması
“Süper zekâ, yeni şeyler keşfetmek değil; keşfetmenin yeni yollarını keşfetmektir” cümlesi etkileyici
- O zaman ileride “keşfetmenin yeni yollarını keşfetmenin yeni yolu”nu gerektiren problemler de çıkar ve bu böyle sürüp gidebilir
- Meta akıl yürütme ile eğitmek yeterli. İnsanların keşfetme biçimlerini keşfetme sürecini öğrenmesini sağlarsınız; büyük bir sorun değil, veri kümesi oluşturup eğitmek gibi geliyor
- Sonda alıntılanan cümle güzel. Asıl kaynağını hatırlayıp hatırlamadığını merak ediyorum
- windmill problem ile ilgili olarak https://www.3blue1brown.com/lessons/windmills var
Makalenin büyük fikri, CoT’nin bazı karmaşık problemlerde sınırlı olduğu. Çözümü bulmak için “ders kitabı usulü” bir yöntemi olmayan problemler var ve bunlar kendine özgü bir metodoloji gerektiriyor
“Esasen yanıt üretmeye başlamak için zaten tüm yaklaşımı biliyor olmanız gerekir. Yanıtın temelini oluşturan üretim süreci, soldan sağa ilerleyen otoregresif bir süreç değildir” kısmı kilit nokta
Matematiksel olarak bu, akıl yürütmeyi gizil değişken süreci olarak gören bir yorumla formüle edilebilir. Klasik CoT, nihai yanıtın olasılığını gizil akıl yürütme zinciri üzerinden marjinalleştirme olarak görürken, karmaşık problemlerdeki gerçek yanıt üretim sürecinde yanıtın birleşik olasılık dağılımının gizil üretim sürecine koşullu olduğu kabul edilmeli. Bu yüzden q → z1 → … → z’ye Meta-CoT deniyor
Bu oldukça önemli bir başlangıç noktası gibi görünüyor. Örneğin o1-pro’ya, 1550nm lazer diyodu 1GHz’de çalıştırırken pahalı bir kolimatör kullanmadan genel amaçlı malzemelerle ya da yeni üretim yaklaşımlarıyla, birinci ilkeler fiziği üzerinden geometrik kayıpları nasıl azaltacağını sorarsanız, o1-pro’nun olağanüstü olduğu yanılsaması dağılır. “Yeni” mühendislik hâlâ erişilmesi zor bir yerde ve böyle bir mühendisliğin nasıl yapılacağına dair ders kitabı olmadığı için bu tür problemler soldan sağa otoregresif biçimde çözülemez
- Hedef çıtasının ne kadar yer değiştirdiği şaşırtıcı
  Artık bir yapay zeka modelinin “olağanüstü” sayılması için, rastgele seçilmiş zor bir alanda insanların bile henüz çözemediği bir problem verildiğinde iyi bir çözüm dökmesi gerekiyormuş gibi görünüyor. Böyle bir yapay zeka elbette olağanüstü olur ve dünyayı değiştirecek düzeyde olurdu; ama onun altındakilerin artık “olağanüstü değil” sayılması oldukça şaşırtıcı bir ölçüt
- İnsanların da bu probleme fiziksel gerçekliğe soru sormadan, yani deney yapmadan düzgün bir çözüm çıkarıp çıkaramayacağından şüpheliyim
  Gerçekliğin bir kısmı hesaplanamaz olduğundan, sonunda ona ulaşmak için evrenin bizzat simülasyon yapmasına izin vermek gerekir
- “Çözümü bulmak için ders kitabı usulü bir yöntemi olmayan problem” ifadesi, LLM’lerle etkileşim deneyimime uymuyor
  Çoğu insanın anlayamayacağı biçimde soru sorsam bile, yanıta bakınca sorunun kendisinin doğru yorumlandığını görebiliyordum. Yanıtın doğru olup olmadığı ayrı konu, ama ders kitabı örneği olmayan yorumlar da bir ölçüde ortaya çıkıyordu
- “Yeni mühendislik yapmanın ders kitabı yok” deniyor ama bilimsel yöntem üzerine kitaplar yok mu
  Diğer yorumların dediği gibi, deney ve gözlem gerektiren işleri kutunun içindeki bir süper zekânın bulmasını beklemek fiziksel olarak neredeyse imkânsız. Saf matematik gibi kâğıda yazıp yalnızca aksiyomları düşünmenin yeterli olduğu alanlarla sınırlı kalır; ilerlemenin en zor olduğu alanlar da zaten tam olarak bunlar. İnsanlık da binlerce yıl boyunca birçok bilginin çok küçük katkılarıyla buraya kadar geldi
Araştırma topluluğu “dil modelleri ardışık kelimeler arasındaki korelasyonları basitçe uydurmakla kalmaz, metnin örtük anlamını da öğrenir” konusunda hemfikir mi? Bu konuyu ele alan bir makale olup olmadığını merak ediyorum
- Araştırma topluluğu bu konuda kesinlikle hemfikir değil; birden fazla kamp var. Doğal dil işleme tarafında kabaca iki bakış açısı var.
  Bender ve Koller’ın 2020 tarihli makalesi[1], anlamın yalnızca biçimden öğrenilemeyeceğini ve LLM’lerin biçim üzerinden eğitildiğini savunuyor. Makaledeki “The Octopus Test” düşünce deneyinde, iki insanın konuşmasını araya girip dinleyebilen bir ahtapot yer alıyor; ancak “eğitim verisi olarak yalnızca biçime sahip olduğu durumda anlamı öğrenmemiştir” diye açıklıyor.
  Buna karşılık Yoav Goldberg’in yazısı[2], temellendirmeyi ve LLM’lerin ne öğrendiğini daha gayriresmî biçimde ele alıyor. Genel olarak iddia, instruction tuning ve sonradan eğitimin “summarize” gibi terimleri anlamlı biçimde zemine oturtabileceği yönünde.
  [1] https://aclanthology.org/2020.acl-main.463/
  [2] https://gist.github.com/yoavg/59d174608e92e845c8994ac2e234c8...
- Bana hep “metnin örtük anlamı” ile “ardışık kelimeler arasındaki korelasyon” arasında fiilen bir fark olmayabilir gibi geliyor.
  LLM’lerin insanlarla etkili biçimde iletişim kurabilmesi, sinir ağlarının zekâsına dair bir keşiften çok, insan iletişimi semantiğinin düzenliliğine dair bir keşfe daha yakın.
- Kesinlikle üzerinde uzlaşılmış bir konu değil. Bilgisayar bilimlerinde anlam teorisi zaten alanın doğal bir parçası değil; ilgili önceki araştırma arka planına sahip kişi de pek az olduğu için bu tür iddialı savlar orada burada ortaya çıkıyor.
  Doğal dile nasıl bir semantik atfederseniz atfedin, bir makine öğrenmesi modelinin o semantiği kullandığını söylemek zor.
  Söylenebilecek en iyi şey, Transformer tarzı denetimli öğrenmenin, yani “sonraki kelimeyi tahmin etme” hedefi altında kelimelerin korelasyon yapısının doğal dil semantiğinin son derece kaba bir yaklaşık dağılımını oluşturduğudur. Bunun kendisi hiç tartışmalı olmadı; tartışma, bunun ne tür bir uç düzey yaklaşım olduğu üzerine.
  Örneğin “elimde bir kalem var” ifadesinin doğruluk koşulu, gerçekten elimde bir kalem bulunmasıdır. Bu bağlamda bu cümleyi kastetmek için bu doğruluk koşullarına doğrudan erişimin çok büyük olasılıkla gerekli olduğu söylenebilir. Makine böyle bir ifadenin doğruluk koşullarına erişemediği için, o cümleyi gerçekten kastedemez.
  Makine uygun bir durumda “elimde bir kalem var” diyorsa, “doğal dil semantiğinin uç düzey yaklaşımı” o durum ve “uygunluk”un ne olduğu ile ilgilidir.
  LLM’lere ve bilgisayar bilimi tarzı düşünmeye eleştirel bakanlar açısından, bu tür bir yanıtın uygun göründüğü “durumların”, yani prompt koşullarının kapsamı çok dardır. Kullanıcıya yanıtın uygun görünmesi, aracın iyi çalıştığına dair mühendislik koşuludur; modelin doğal dil semantiğini anladığı anlamına gelmez.
  Dolayısıyla LLM’lerin, sınırlı durumlarda semantiği anlayan aktörler arasındaki konuşmayı yaklaşık olarak modellediği ve uygun dil kullanımını modellediği söylenebilir. Buna “ortalama yanıt uygunluğu” modeli denebilir; ama “elimde bir kalem var” ifadesini gerçekten kastedemez.
“Sıkıştırma zekâdır” ilkesi ya da Solomonoff tümevarımı dayanak gösterilirken dikkatli olmak gerekir.
Yukarıda alıntılanan “A Formal Theory of Inductive Inference” adlı iki makalenin tamamında “intelligence” kelimesi 0 kez, “Compression” 0 kez, “reasoning” ise yalnızca “using similar reasoning” ifadesinde 1 kez geçiyor.
Doğal olarak Solomonoff’un ilgilendiği şey tümevarımsal çıkarımdı. Onun “sıkıştırma zekâdır” deyip demediğini bilmiyorum; bu fikir ve slogan çok daha sonra gelişmiş görünüyor. Asıl kaynağı da net değil.
Solomonoff tümevarımının bir sembol dizisindeki sonraki sembolü tahmin etme problemiyle derinden ilişkili olduğu doğru, ancak bunun ille de dil token’ı olması gerekmiyor. LLM’lerin “erken aşamada” olduğu gibi yaygın ifadeler yanlış. Dil modelleme, bilgisayar bilimi ölçütlerine göre neredeyse antik bir teknoloji ve teknik olgunluk aşamasına çoktan, uzun süre önce girmiş durumda.
[1] https://raysolomonoff.com/publications/1964pt1.pdf
[2] https://raysolomonoff.com/publications/1964pt2.pdf
- Zekânın bir sıkıştırma biçimi olduğu gayet makul. Tümevarımsal model küçüktür, ama potansiyel olarak keyfî miktarda bilgi üretebilir.
Düşünceli bir çalışma. Birkaç aydır ilgili fikirleri düşünüp üzerinde çalışıyordum ama henüz benzer ölçekte hesaplama kaynağı kullanamadım; yönüm de biraz farklı olmuş olabilir.
Bu araştırma, decoder Transformer mimarisini daha iyi kullanmak için bir kıyas çizgisi oluşturma konusunda kesinlikle yardımcı oluyor.
Buradaki Meta, Meta şirketini mi ifade ediyor, yoksa “meta” kelimesi mi kullanılıyor? Yoksa ikisi birden mi?
- Kelime olarak kullanılmış.
  https://chatgpt.com/share/67813a3f-c7e8-8001-ab0c-7f024bc41a...
Araştırmacıların kendi akıllarına gelen şeyi araştırdığı durumlarla, internetteki bağımsız geliştiricilerin yaptığı çalışmaların dikkat çekip araştırmaya ve makaleye dönüştüğü durumların oranını bilmenin bir yolu var mı merak ediyorum.
Makalede basit yerine koymalı cebir denklemleri ve bunların adım adım çözümlerinin örnek verilmesi, LLM’lerin yalnızca daha önce gördüğü çözüm tarifini yeniden üretebildiği algısını güçlendiriyor.
Aslında bu, okulda matematik öğrenme biçimimizden pek farklı değil. Öğretmen başlangıç noktasını gösterir ve adım adım sona kadar ilerler. Buna “Meta Chain-of-Thought” demek, temel eğitim sürecini abartmak gibi geliyor.
Belki sırada temel çatal bıçak kullanma eylemine “hiyerarşik fiziksel hareket kuramı” gibi zorlama bir ad vermek vardır. Okulda bu “Meta Chain-of-Thought”a basitçe “çözüm yolunu göster” denirdi. Gerçekten açıklanması gereken bir “olgu” mu bu? Mantıksal tümevarım, yani çıkarım adımlarını nasıl başardığımız konusunda daha fazlasını öğrenebiliriz; ancak henüz tencerenin şeklini doğru tarif edebilmek için çorbanın fazla içindeyiz.
- “Yalnızca daha önce gördüğü tarifleri yeniden üretebilir” derken LLM’den mi bahsediliyor, yoksa sizden mi, emin değilim.

Meta Chain-of-Thought ile düşünmeyi öğrenmek

Meta-CoT’nin hedeflediği sorun

Mevcut CoT’nin sınırları

Meta Chain-of-Thought’un tanımı

IMO 2011 “windmill” problemi örneği

HARP sonuçları ve o1 serisinin token kullanımı

Arama ve doğrulamanın rolü

LLaMa 3.1 8B deneyi

Eğitim yolu ve açık sorular

İlgili okumalar

1 yorum

Hacker News yorumları