GSM-Symbolic: Büyük dil modellerinin matematiksel akıl yürütme sınırlarını anlamak
- Son dönemde büyük dil modellerindeki (LLM) gelişmeler, matematikte biçimsel akıl yürütme yeteneğine yönelik ilgiyi artırdı.
- GSM8K kıyaslaması, ilkokul düzeyindeki sorular üzerinde modelin matematiksel akıl yürütmesini değerlendirmek için yaygın olarak kullanılıyor.
- LLM'lerin GSM8K performansı son yıllarda önemli ölçüde iyileşmiş olsa da, matematiksel akıl yürütme yeteneğinin gerçekten gelişip gelişmediği belirsiz.
- Bu sorunu ele almak için çeşitli güncel açık ve kapalı modeller üzerinde geniş ölçekli bir araştırma yürütüldü.
- Mevcut değerlendirmenin sınırlamalarını aşmak için, farklı soru üretimini mümkün kılan sembolik şablonlardan oluşan geliştirilmiş bir kıyaslama olan GSM-Symbolic tanıtılıyor.
- GSM-Symbolic, daha kontrollü değerlendirmeyi mümkün kılarak akıl yürütme yeteneğini ölçmede daha güvenilir bir gösterge sunuyor.
- Araştırma sonuçları, LLM'lerin aynı sorunun farklı uygulamalarına yanıt verirken belirgin değişkenlik gösterdiğini ortaya koyuyor.
- Özellikle GSM-Symbolic kıyaslamasında, sorudaki yalnızca sayısal değerleri değiştirmek bile tüm modellerin performansını düşürüyor.
- Ayrıca çalışma, bu modellerin matematiksel akıl yürütmedeki kırılganlığını inceliyor ve sorudaki madde sayısı arttıkça performansın ciddi biçimde düştüğünü gösteriyor.
- Bu durumun, mevcut LLM'lerin gerçek mantıksal akıl yürütme yapamaması ve bunun yerine eğitim verisindeki akıl yürütme adımlarını kopyalamasından kaynaklandığı varsayılıyor.
- Soruyla ilgili görünse de nihai yanıta giden akıl yürütme zincirine katkı sağlamayan tek bir madde eklemek, tüm güncel modellerde performansı %65'e kadar düşürüyor.
GN⁺ özeti
- Bu araştırma, büyük dil modellerinin matematiksel akıl yürütme yetenekleri ve sınırlarını daha ayrıntılı biçimde anlamayı sağlıyor.
- GSM-Symbolic kıyaslaması, çeşitli sorular aracılığıyla modellerin akıl yürütme yeteneğini daha doğru değerlendirebilen bir araç sunuyor.
- Çalışma, LLM'lerin gerçek mantıksal akıl yürütmeden ziyade eğitim verisindeki akıl yürütme adımlarını kopyalama eğiliminde olduğunu gösteriyor.
- Matematiksel akıl yürütme yeteneğini değerlendirmek için MATH, MATHQA gibi diğer kıyaslamalar da öneriliyor.
1 yorum
Hacker News görüşleri