Ön eğitimin prosedürel bilgisinin büyük dil modellerinde akıl yürütmeyi teşvik eden rolü
(arxiv.org)-
Prosedürel bilginin büyük dil modellerinin akıl yürütmesi üzerindeki etkisi
-
Büyük dil modellerinin (LLM) yetenekleri ve sınırları son yıllarda ayrıntılı biçimde incelendi. LLM'ler problem çözme becerisi gösterse de, insanlarla karşılaştırıldığında akıl yürütmede bir fark bulunuyor ve bu da genelleme stratejilerinin sağlamlığı hakkında soru işaretleri doğuruyor.
-
LLM tasarımında kullanılan verinin muazzam hacmi nedeniyle, geleneksel genelleme ölçüm yöntemi olan eğitim-test kümesi ayrımı zorlaşıyor. Bunu aşmak için, LLM'lerin akıl yürütme görevlerini yerine getirirken kullandığı genelleme stratejileri ön eğitim verilerinde inceleniyor.
-
İki farklı model boyutu (7B ve 35B) ve 2.5B ön eğitim token'ı kullanılarak, üç basit matematiksel akıl yürütme görevi için model çıktısını etkileyen belgeler belirlendi ve bunlar, olgusal soruları yanıtlarken etkili olan verilerle karşılaştırıldı.
-
Model her bir olgusal soru için çoğunlukla birbirinden ayrı veri kümeleri kullanırken, aynı görev içindeki farklı akıl yürütme sorularında da belgelerin benzer etkiler gösterdiği sıkça görülüyor; bu da prosedürel bilginin varlığına işaret ediyor.
-
Olgusal soruların yanıtları en etkili verilerde sıkça görünürken, akıl yürütme sorularında yanıtların ya da ara akıl yürütme adımlarının yanıtlarının yüksek etki göstermediği görülüyor.
-
Akıl yürütme sorularına ilişkin üst sıralardaki belgelerin nitel analizinde, etkili belgelerin çoğu zaman formüller veya kod aracılığıyla çözüm yöntemini gösteren prosedürel bilgi içerdiği doğrulanıyor.
-
Bu bulgular, modelin kullandığı akıl yürütme yaklaşımının basit bir bilgi geri getirme işleminden ibaret olmadığını; benzer biçimde akıl yürütme yapan belgelerdeki prosedürel bilgiyi sentezleyen, genellenebilir bir strateji olduğunu düşündürüyor.
1 yorum
Hacker News görüşü
LLM'lerin her sorunun örneğini eğitim verilerinde bulamayacağına dikkat çekiliyor ve bilgi erişimi tarzı arama için gereken olgusal sorgulama örneklerinin yeterli olmadığı belirtiliyor
İnsanların sorunları adım adım çözmesi gerektiği, ancak o zaman sinir ağlarının bunu taklit edebileceği belirtiliyor
LLM'lerin problem çözme yeteneği gösterdiği, ancak insanlarla kıyaslandığında akıl yürütme açısından bir fark olduğu belirtiliyor
Dil modellerinin akıl yürütme sorularını yanıtlarken çoğu zaman sınırlı bir belge kümesinden bilgi getirdiği açıklanıyor
Google'ın ön eğitiminin çip tasarımında önemli rol oynadığı savunuluyor
Üretilen görüntülerin neden kâbus gibi olduğunu soruyor ve daha fazla akıl yürütme eğitim verisine ihtiyaç olduğunu savunuyor
AlphaGo ve AlphaZero karşılaştırması üzerinden, insanların prosedürel bilgisinin ML eğitimine yardımcı olduğunu ancak bunun sınırları olabileceğini açıklıyor
Öğrenci notları, sınavlar, kitap incelemeleri gibi içeriklerle eğitim verilirse LLM'lerin daha iyi hale gelebileceği öneriliyor ve bunun oldukça ilginç olacağı belirtiliyor