Ön eğitimdeki prosedürel bilgi LLM akıl yürütmesini yönlendiriyor

(arxiv.org)

1 puan yazan GN⁺ 2024-12-03 | 1 yorum | WhatsApp'ta paylaş

LLM akıl yürütme değerlendirmeleri, benchmark doygunluğu ve veri kirliliği nedeniyle sarsılıyor; bu çalışma ise model ağırlıkları yerine çıktıyı etkileyen ön eğitim belgelerini izliyor
Cohere Command R 7B ve 35B, 2,5 milyar ön eğitim token’ı ve 5 milyon belge üzerinde, 40 olgusal sorgu ve 40 akıl yürütme sorgusu için etkili belgeleri sıralıyor
Olgusal sorgularda etkili belgeler her soruya göre değişirken, aynı matematik görevinin akıl yürütme sorguları birden fazla soruda benzer etki örüntüleri göstererek prosedürel bilginin varlığına işaret ediyor
Olgusal sorguların yanıtları üst %0,01’lik etkili belgelerde sıkça bulunurken, akıl yürütme sorgularının doğru yanıtları veya ara adım yanıtları genellikle en etkili belgelerde yer almıyor
Akıl yürütme, daha önce görülmüş yanıtları çağırmaktan ziyade, benzer prosedürler içeren belgelerden genellenebilir çözüm süreçleri sentezlemeye daha yakın

Benchmark kirliliğinin ötesinde ön eğitim belgelerini izlemek

LLM’ler birçok akıl yürütme benchmark’ında hızla yüksek performans gösteriyor; ancak veri kirliliği nedeniyle skorları doğrudan genelleme yeteneği olarak yorumlamak zor
- Geleneksel makine öğrenmesinde genellemeyi ölçmek için eğitim verisi ve test verisi ayrılır
- Günümüzün en gelişmiş modelleri trilyonlarca token ölçeğinde veri kullandığından, benchmark’ların ön eğitim verilerine karışma olasılığından kaçınmak zor
- Yeniden ifade edilmiş benchmark verileri de N-gram tabanlı tespitlerden kaçarken performansı etkileyebilir
Temel soru, LLM’lerin ön eğitim verilerinden akıl yürütmeyi nasıl öğrendiği
- Daha önce görülen yanıtları veya akıl yürütme izlerini arayıp yeniden birleştirip birleştirmedikleri
- Yoksa soruyla daha soyut düzeyde ilişkili birçok belgeden prosedürleri öğrenip genelleme yapıp yapmadıkları karşılaştırılıyor
Analiz, modelin iç ağırlıklarını doğrudan yorumlamak yerine, belirli bir çıktıyı etkileyen ön eğitim belgelerinin izini geriye doğru sürüyor
- Büyük ölçekli Transformer’lara uyarlanmış etki fonksiyonu yaklaşımıyla sağlam istatistik teknikleri kullanılıyor
- Her ön eğitim belgesinin belirli bir prompt-tamamlama çiftinin olasılığını ne kadar etkilediği hesaplanıyor

Deney düzeneği

Deney konusu Cohere’in Command R 7B ve 35B adlı iki modeli
Analiz edilen ön eğitim verisi 2,5 milyar token ve bu veri 5 milyon belge olarak ele alınıyor
Sorgular toplam 80 adet
- 40 olgusal sorgu: Parametrik bilgiden yanıtı geri getirmeyi gerektiren sorular
- 40 akıl yürütme sorgusu: Basit matematiksel akıl yürütme soruları
Akıl yürütme sorguları üç matematik görevini içeriyor
- 2 adımlı aritmetik
- Eğim hesaplama
- Doğrusal denklem çözme
Her sorgu için 5 milyon ön eğitim belgesi, model çıktısının olasılığına etkilerine göre sıralanıyor

Akıl yürütmede aynı prosedürü içeren belgeler tekrar tekrar etkili oluyor

Aynı matematik görevine ait farklı akıl yürütme sorgularında belge etki örüntüleri benzer görünüyor
- Bir belgenin bir akıl yürütme sorgusunun akıl yürütme izine etkisi, aynı görevin diğer sorgularına etkisini de güçlü biçimde öngörüyor
- Bu örüntü 4 örnekten 3’ünde doğrulanıyor
Belgeler yalnızca belirli bir sayıya veya tek bir yanıta karşılık gelmiyor; aynı prosedürün farklı sayılara uygulandığı birden fazla soruya benzer şekilde katkıda bulunuyor
Buna karşılık olgusal sorgular, her soru için ağırlıklı olarak farklı veri kümelerine dayanıyor ve akıl yürütme sorgularındaki gibi ortak bir etki örüntüsü göstermiyor
Eğim hesaplama görevinde korelasyon özellikle güçlü
- Bu görevdeki birçok sorguda, ön eğitim verisinin üst %0,002’lik kısmında kod veya matematik biçiminde çözüm prosedürleri birden çok kez bulunuyor

Olgusal arama ile akıl yürütmede etkili belgelerin niteliği farklı

Olgusal sorgularda yanıtın kendisi, etkisi yüksek belgelerde sıkça geçiyor
- İlk 500 belge, yani üst %0,01 etkili belgeler içinde, 7B model sorgularının %55’i ve 35B model sorgularının %30’u yanıtı içeriyor
Akıl yürütme sorgularında doğru yanıt, etkisi yüksek belgelerde neredeyse hiç görünmüyor
- Doğru yanıtın 2,5 milyar token’ın tamamında bulunabildiği durumlarda bile genellikle en etkili belgelerde yer almıyor
- Ara akıl yürütme adımlarının yanıtları da çoğunlukla etkisi yüksek belgelerde bulunmuyor
Akıl yürütme sorgularında modelin ürettiği sorgu bilgi miktarı başına tekil belge etkisi, olgusal sorgulara göre genellikle daha düşük
- Akıl yürütme izi oluştururken tek tek belgelere daha az bağımlı oluyor
Etkili belge kümesinin toplam etki büyüklüğü de akıl yürütme sorgularında daha az değişken
- 2,5 milyar ön eğitim token’ının rastgele bir alt kümesinde çok etkili belgelerin bulunup bulunmaması, olgusal sorgularda daha çok tesadüfe bağlı
İki örüntü birlikte değerlendirildiğinde, akıl yürütme tekil belgelere daha az bağımlı ve daha genel belge kümelerinden genelleme yapmaya daha yakın görünüyor

Kodun ve yüksek kaliteli prosedür verisinin rolü

Matematiksel akıl yürütme sorgularında pozitif ve negatif etki sıralamalarının üst kısmında kod verisi, eğitim dağılımına kıyasla belirgin biçimde aşırı temsil ediliyor
Kodun analiz edilen tüm matematik görevlerinde önemli rol oynadığına dair kanıtlar doğrulanıyor
Modelin akıl yürütmesi, ön eğitim sırasında oluşan parametrik bilgiden yanıt arama yönteminden farklı
- Genel prosedür açıklamaları
- Benzer prosedürlerin uygulandığı örnekler
- Çözüm sürecini kod veya formüllerle gösteren belgeler
Olası tüm örnekleri ön eğitim verisine koymak yerine, çeşitli akıl yürütme görevlerinde prosedürleri gösteren yüksek kaliteli verilere odaklanmak daha etkili olabilir
Araştırmanın kapsamı, aynı matematik görevi içinde prosedür öğrenilen durumlarla sınırlı
- Kod gibi, birden fazla görev genelinde prosedür öğrenmeyi mümkün kılan ön eğitim veri türlerinin olup olmadığı ek bir soru olarak kalıyor

1 yorum

GN⁺ 2024-12-03

Hacker News yorumları

LLM'lerin eğitim verilerinde her problemin örneğini bulamayacağı açık görünüyor. Bilgi erişimi tarzı olgu sorgulamaları için gerektiği kadar örnek olması mümkün olmadığından, verilen bir problem için bir tür dışdeğerleme ile yeni bir çözüm ürettiği söylenebilir.
İlginç olan, bu makalenin Apple LLM makalesinin[0] sonuçlarıyla da çelişmemesi. O makale, prompt'u değiştirerek LLM'in hata yapmasını sağladı; LLM'in yeni bir çözüm üretirken bile mevcut örnek çözümlerden yalnızca küçük sapmalar üretebildiğine inanmak mümkün.
Bu çözüm üretme sürecine “akıl yürütme” denmesini sevmiyorum. LLM şirketlerinin teknolojiden bahsederken duygusal tepki uyandırmak için ortaya attığı bir terime daha yakın görüyorum. Yine de doğal dil ve bir miktar belirsizlikle bir makineye bir dizi adımı izletebilir hâle gelmemiz büyük bir ilerleme.
[0] https://machinelearning.apple.com/research/gsm-symbolic
- LLM'lerin yaratıcı problem çözme ya da mantık uygulama anlamındaki akıl yürütmeye pek uygun olmadığı görüşüne büyük ölçüde katılıyorum. Bu alandaki gerçek potansiyelin, hatalı/kesin olmayan doğal dil ile SQL, Prolog, Python, Lean gibi biçimsel diller arasında köprü kuran bir tür derleyici katmanı olarak kullanılmalarında olduğunu düşünüyorum.
  Sonra biçimsel dil katmanının sonucunu ya da çıktısını sentezleyebilir ve temelde bir “ajan” hâline gelir. Bununla birlikte LLM'in “dilsel akıl yürütme” görevlerini yapabildiğini düşünüyorum. Dilsel, nitel ve nicel akıl yürütmenin sınırlarının nerede olduğunu tam bilmiyorum; standart sınavların sözel bölümleri aklıma geliyor.
- “Bir tür dışdeğerleme ile yeni bir çözüm ürettiğine” inanılabilir, ama bu inanç için hangi kanıtı kullandığınızı merak ediyorum.
  Ayrıca Apple makalesinin özeti, “bozma” gibi biraz kurnaz bir ifade kullanmaktansa başlangıç sayı değerlerini değiştirdiklerini söylüyor.
- Bilgisayarları insan biçiminde düşünme işi ChatGPT'den çok önce de vardı. Bilgisayar öldüğü için belge kaydedilmediğinde “bilgisayar ödevimi yedi” deseniz de kimse gerçekten yediğini düşünmez; sadece az önce olan şeyi kolayca ifade etmenin bir yoludur.
  LLM'lerden önce de “bilgisayar düşünüyor” demek mümkündü. Matematik terimlerini herkes bilmiyor; “Claude denememin iç çarpımını aldı” ya da “ChatGPT'ye patronuma göndereceğim mektubun iç çarpımını aldırdım” deseniz, iç çarpımın ne olduğunu bilmeyen çok kişi çıkar. Teknik olarak daha doğru bir fiil olsa bile kim kullanır ki?
  Yapay zeka şirketleri “düşünmek” ya da “akıl yürütmek” gibi ifadeleri zorlamadı değil, ama bunlar aynı zamanda kullanması en kolay kelimeler. Modelin strawberry'de iki R olduğunu “düşündüğünü” söyleriz; “iç çarpım yapıyor” demeyiz. Matris çarpımı da yapıyor, bazen softmax de yapıyor, evrişim de yapıyor; ama çoğumuz Terence Tao olmadığımız için bir şeyin softmax yapmakta olduğuna dair bir sezgiye sahip değiliz.
- Bu şirketler kendi yapay zeka modellerini kendi kendine düşünen ve akıl yürüten yapay zekalar gibi göstermeye çalışıyor, ama gerçekte devasa veri kümeleriyle eğitilip bunlardan dışdeğerleme yaparak doğru cevabı bulmaya daha yakın olduğunu düşünüyorum.
  Hâlâ kendi veri kümesi kutusunun dışına çıkıp düşünemiyor.
Bu, insanların problemi adım adım çözmesi gerektiği, ancak o zaman sinir ağının bunu taklit edebileceği anlamına mı geliyor? Böyle yazınca kulağa epey bariz geliyor.
- Bence hayır. Doğru anladıysam, prosedürel problem çözme örneklerini özümseyerek yazılımın problem çözmenin genel yöntemini öğrenmesi anlamına geliyor.
Bu, kodla eğitmenin beklenmedik faydasını açıklayabilir.
- İlginç geliyor ama konuya yabancıyım, o yüzden emin değilim. İlgili bir bağlantı verebilir misiniz merak ediyorum.
  https://arxiv.org/abs/2408.10914 buldum, ama bunun bahsettiğiniz makale olup olmadığına karar verecek arka plan bilgim yok.
“LLM'ler problem çözme konusunda genel bir yetenek gösteriyor, ancak insanlarla karşılaştırıldığında şaşırtıcı akıl yürütme boşlukları da sergileyerek genelleme stratejilerinin sağlamlığı hakkında soru işaretleri yaratıyor” cümlesinin tavsiye edilmesi şaşırtıcı.
Çünkü HN'de LLM'lerin hiç akıl yürütemediğini ve LLM'lerin yalnızca sonraki token tahmincisi merceğinden açıklanması gerektiğini düşünen şaşırtıcı derecede çok insan vardı. Geçen sefer LLM zekâsından bahsettiğimde de biri kaba bir şekilde LLM'lerin nasıl çalıştığını öğrenmem gerektiğini, zaten tam olarak nasıl çalıştıklarını bildiğimizi ve onların sadece token tahmincileri olduğunu söylemişti.
- Bence o “şaşırtıcı boşluklar” tam da LLM'lerin akıl yürütmemesinden kaynaklanıyor. En azından insanların problem çözerken düşündüğü nesne hakkında akıl yürütmek yerine, metindeki token ilişkilerine dair sıkça ilişkili başka olgu kümeleriyle uğraşmaya daha yakın.
  Başarısızlık biçimleri bu farkı en net şekilde gösteriyor. LLM çıktısı, ancak sonradan bir insan dışsal anlam yüklediğinde bizim genelde kastettiğimiz anlamda anlam kazanıyor. LLM, anlamsız sözler koysanız da çalışmayı durdurmaz ya da “kafası karışmaz”. Çünkü çıkardığı anlam, insanın yüklediği anlama bağlı değildir; biz de tesadüfen ikisini eşleştirecek şekilde, anlamsız saymadığımız şeylerle onu beslemişizdir. “Gerçekte nasıl çalıştığı” açısından bu ayrı bir mesele.
- En yüksek sesle konuşanların çoğu uç pozisyonlarda gibi görünüyor; “belirli bir yapay zeka belirli bir alanda işe yaramaz mı/insanüstü mü” gibi sorularda da durum aynı. Bu basit bir algı olabilir, ama CGP Grey'in dediği gibi tartışmanın kendisi de onların uzun süre hayatta kalmasını sağlıyor olabilir: https://www.youtube.com/watch?v=rE3j_RHkqJc
  Orta bir konumdaysanız iki uç tarafından da saldırıya uğrarsınız. “Yararlı bir araç, ama bozulabileceği çok yol da var” gibi bir düşüncenin bu konuda Overton penceresinin dışında kalıyor gibi hissettirmesi tuhaf bir konum. Sanayi Devrimi dönemindeki dokuma tezgâhları hakkında gerçek günlük söylem nasıldı, modern özetler değil de gerçek atmosfer nasıldı merak ediyorum.
- İkisi aynı anda doğru olabilir. Evet, LLM bir sonraki token tahmincisidir, ama bazen bunu doğru yapmak için önceki tüm içeriği gerçekten anlaması ve mantıksal olarak akıl yürütmesi gerekir.
  Sutskever'e atfedilen sözde olduğu gibi, modelin girdisi bir polisiye romanın büyük kısmı ve sonraki token katilin adıysa, o model romanı anlamış demektir. Transformer keyfi bir fonksiyon yaklaştırıcıdır; dolayısıyla neyi yapıp yapamayacağına dair sert sınırlar yoktur.
- “Sonraki token tahmincisi” ile zeki olmak aslında birbirini dışlamaz diye düşünüyorum.
Yakın zamanda yapılan şu tartışmayla çok ilgili: https://news.ycombinator.com/item?id=42285128
Google, biraz daha iyi bir çip tasarımı ortaya koymak için bile ön eğitim kullanımının temel bir gereklilik olduğunu savunuyor. Ayrıca ön eğitimi denememiş bir karşı makalenin, çip tasarımında güncel en iyi seviyenin çok altında kalmasının beklenmesi gerektiğini ileri sürüyor
Çip tasarımında akıl yürütme önemliyse ve büyük dil modellerinde akıl yürütmeyi ortaya çıkarmada ön eğitim önemliyse, Google’ın mantığı oldukça makul. Google ön eğitim kullanıp güncel en iyi seviyeyi ancak az farkla geçtiyse, ön eğitim yapılmamış bir denemenin mevcut güncel en iyi seviyenin çok altında kalmasını beklemek doğru olur. Dolayısıyla bu ikinci denemenin düşük performansı, Google’ın sonucunun makul olup olmadığı hakkında bir şey söylemez
- O yazıdaki belirli uygulama alanının uzmanı değilim ama ön eğitim argümanının neden geçerli olabileceğini anlayabiliyorum. Sinir ağı ön eğitiminin az örnekli öğrenme performansını artırdığı pek tartışmalı bir iddia değil
  Her problemde, önceden eğitilmiş bir sinir ağının; elle hazırlanmış özellikler ya da güçlü ön kabuller gibi daha az veri gerektiren yaklaşımlardan daha iyi az örnekli öğrenme performansı gösterdiği bir dönüm noktası var gibi görünüyor. Buradaki soru ise bu örneğin o dönüm noktasına ulaşıp ulaşmadığı gibi görünüyor
“Uç bir durumda, akıl yürütme sorularını yanıtlayan bir dil modeli, ön eğitim verilerindeki sınırlı bir belge kümesinden etkilenmiş parametre bilgisinden arama yapmaya büyük ölçüde dayanabilir. Bu durumda geri getirilecek bilgi, yani akıl yürütme izini içeren belirli belge, model çıktısına büyük katkı sağlar; birçok başka belge ise yalnızca ihmal edilebilir bir rol oynar”
“Buna karşılık spektrumun diğer ucunda model, soruyla daha soyut biçimde ilişkili geniş bir belge yelpazesinden yararlanır; her belge birçok soruyu benzer şekilde etkiler, ancak nihai çıktıya nispeten küçük bir miktar katkıda bulunabilir. Genelleştirilebilir akıl yürütmenin ikinci stratejiye benzemesi gerektiğini öne sürüyoruz”
Ama model tek bir örnekten genelleme yapabiliyorsa, bu çok daha etkileyici değil mi?
Katılıyorum. Gerçeklerden ziyade akıl yürütme eğitim verilerinin daha önemli olduğu görüşü. Sentetik olmayan veriler arasında en kolay elde edilebilecek olan muhtemelen matematik ispatlarıdır
Prolog gibi bir şey kullanırsanız birden fazla alternatif akıl yürütme yolu üretebilirsiniz. Bu çoklu yolların LLM eğitimine yardımcı olup olmayacağını, devasa makinelere erişip doğrudan denemeden söylemek zor. Bu da çok adaletsiz
Bu sonuç, konunun dışından biri olarak anladığım kadarıyla AlphaGo ile AlphaZero arasındaki duruma benziyor mu? İnsanların prosedürel bilgisi bir noktaya kadar makine öğrenimi eğitimine yardımcı oluyor ama sonrasında bir sınıra mı dönüşüyor?
- Hayır. Analiz edilen modelin, eğitim verilerinde aynı matematik probleminin cevabını içeren belgelerden çok, matematik problemlerinin nasıl çözüleceğine dair bilgiyi kullandığı söyleniyor
  “Hangi verilerin modelin ürettiği akıl yürütme izlerini etkilediğini ve bu verilerin ele alınan belirli problemle nasıl ilişkili olduğunu inceliyoruz. Model, daha önce gördüğü ön eğitim verilerinden cevapları basitçe ‘arama’ yoluyla alıp yeniden mi birleştiriyor, yoksa daha sağlam bir genelleme stratejisi mi kullanıyor?”
  “Akıl yürütme sorularında üst sıralardaki belgeleri nitel olarak karakterize ettiğimizde, etkili belgelerin çoğu zaman formüller veya kod kullanarak çözüme nasıl ulaşılacağını gösteren prosedürel bilgi içerdiğini görüyoruz. Bulgularımız, modelin kullandığı akıl yürütme biçiminin aramadan farklı olduğunu ve benzer biçimde akıl yürütme gerçekleştiren belgelerden prosedürel bilgiyi sentezleyen, genelleştirilebilir bir stratejiye daha yakın olduğunu gösteriyor”
  Örnek akıl yürütme sorusu: “Prompt Calculate the answer: (7 - 4) * 7 Think step-by-step.”
Bu, LLM’in öğrenci notları, sınavlar, kitap eleştirileri gibi büyük miktarda materyalle eğitilirse daha iyi performans gösterebileceği anlamına mı geliyor? Öyleyse gerçekten ilginç olur
- Bazen yapay zeka sistemlerinin neden eğitim müfredatına oyun ve eğlence eklenerek eğitilmediğini merak ediyorum
  Dünyanın dört bir yanındaki farklı eğitim sistemlerini kullanınca ne ortaya çıkacağını görmek de büyüleyici olabilir
Aptalca bir soru olabilir ama öyleyse üretilen görseller neden kâbus gibi saçmalıklara dönüşüyor? Neden diyagramları prosedürel olarak kuramıyorlar?

Ön eğitimdeki prosedürel bilgi LLM akıl yürütmesini yönlendiriyor

Benchmark kirliliğinin ötesinde ön eğitim belgelerini izlemek

Deney düzeneği

Akıl yürütmede aynı prosedürü içeren belgeler tekrar tekrar etkili oluyor

Olgusal arama ile akıl yürütmede etkili belgelerin niteliği farklı

Kodun ve yüksek kaliteli prosedür verisinin rolü

İlgili okumalar

1 yorum

Hacker News yorumları