2 puan yazan GN⁺ 2024-10-13 | 1 yorum | WhatsApp'ta paylaş

GSM-Symbolic: Büyük dil modellerinin matematiksel akıl yürütme sınırlarını anlamak

  • Son dönemde büyük dil modellerindeki (LLM) gelişmeler, matematikte biçimsel akıl yürütme yeteneğine yönelik ilgiyi artırdı.
  • GSM8K kıyaslaması, ilkokul düzeyindeki sorular üzerinde modelin matematiksel akıl yürütmesini değerlendirmek için yaygın olarak kullanılıyor.
  • LLM'lerin GSM8K performansı son yıllarda önemli ölçüde iyileşmiş olsa da, matematiksel akıl yürütme yeteneğinin gerçekten gelişip gelişmediği belirsiz.
  • Bu sorunu ele almak için çeşitli güncel açık ve kapalı modeller üzerinde geniş ölçekli bir araştırma yürütüldü.
  • Mevcut değerlendirmenin sınırlamalarını aşmak için, farklı soru üretimini mümkün kılan sembolik şablonlardan oluşan geliştirilmiş bir kıyaslama olan GSM-Symbolic tanıtılıyor.
  • GSM-Symbolic, daha kontrollü değerlendirmeyi mümkün kılarak akıl yürütme yeteneğini ölçmede daha güvenilir bir gösterge sunuyor.
  • Araştırma sonuçları, LLM'lerin aynı sorunun farklı uygulamalarına yanıt verirken belirgin değişkenlik gösterdiğini ortaya koyuyor.
  • Özellikle GSM-Symbolic kıyaslamasında, sorudaki yalnızca sayısal değerleri değiştirmek bile tüm modellerin performansını düşürüyor.
  • Ayrıca çalışma, bu modellerin matematiksel akıl yürütmedeki kırılganlığını inceliyor ve sorudaki madde sayısı arttıkça performansın ciddi biçimde düştüğünü gösteriyor.
  • Bu durumun, mevcut LLM'lerin gerçek mantıksal akıl yürütme yapamaması ve bunun yerine eğitim verisindeki akıl yürütme adımlarını kopyalamasından kaynaklandığı varsayılıyor.
  • Soruyla ilgili görünse de nihai yanıta giden akıl yürütme zincirine katkı sağlamayan tek bir madde eklemek, tüm güncel modellerde performansı %65'e kadar düşürüyor.

GN⁺ özeti

  • Bu araştırma, büyük dil modellerinin matematiksel akıl yürütme yetenekleri ve sınırlarını daha ayrıntılı biçimde anlamayı sağlıyor.
  • GSM-Symbolic kıyaslaması, çeşitli sorular aracılığıyla modellerin akıl yürütme yeteneğini daha doğru değerlendirebilen bir araç sunuyor.
  • Çalışma, LLM'lerin gerçek mantıksal akıl yürütmeden ziyade eğitim verisindeki akıl yürütme adımlarını kopyalama eğiliminde olduğunu gösteriyor.
  • Matematiksel akıl yürütme yeteneğini değerlendirmek için MATH, MATHQA gibi diğer kıyaslamalar da öneriliyor.

1 yorum

 
GN⁺ 2024-10-13
Hacker News görüşleri
  • LLM'lerin performans düşüşü, üniversiteye yeni başlayan öğrencilerin problem çözme becerilerine benziyor. Basit problemleri iyi çözüyorlar, ancak birden fazla adımı birbirine bağlamaları gereken sorunlarda doğruluk düşüyor. Bu, LLM'lerin lise mezunu düzeyinde mantıksal akıl yürütebildiği anlamına geliyor
    • Örneğin, gereksiz bilgi içeren sorularda LLM performansı ciddi biçimde düşüyor. Bu, insanların da gereksiz bilgi içeren soruları okurken yaşayabileceği bir durum
  • Matematiksel akıl yürütmedeki kırılganlığı inceleyen araştırmalar, sorudaki yan tümce sayısı arttıkça performansın düştüğünü gösteriyor. Bunun nedeni, LLM'lerin gerçek anlamda mantıksal akıl yürütememesi olabilir
    • Tokenization sürecinde basit aritmetik problemlerin tahmini anlamsız hale geliyor. Bu, araç kullanımının gerekliliğine işaret etse de gerçek mantıksal akıl yürütme açısından olumsuz
  • "Alice in Wonderland" problemine benzer sonuçlar ortaya çıkıyor. Bu, örüntü eşleştirme ile akıl yürütme arasında kalan bir ara durumda bulunan modellerin sorunu olabilir
    • Bu durum, matematik ve akıl yürütmeyle ilgili LLM benchmark sonuçlarına güvenilemeyeceğini düşündürüyor. Problemin harfleri, sayıları ve cümle yapısı sonuçları büyük ölçüde etkiliyor
  • GSM-Symbolic benchmark'ında yalnızca sayısal değerler değiştirilse bile tüm modellerin performansı düşüyor. Bu, aşırı uyumun kanıtı ve LLM'lerin matematiksel akıl yürütmeyi öğrenmesinde temel sınırlamalar olduğunu gösteriyor
  • LLM'lerin "düşünme" biçimi, çoğu okul müfredatını geçebilecek seviyede. Ancak örüntü eşleştirmeye dayanmayan sorular hazırlayan bir öğretmen varsa zorlanabilirler
  • İyi bilinen mantık bulmacalarında LLM'ler, belirli öğeler değiştirildiğinde problemi çözemiyor. Bu, LLM'lerin biçimsel akıl yürütme yapamadığını gösteriyor
  • LLM'ler biçimsel akıl yürütme yapamasa da eğitim verisinden öğrendikleri "akıl yürütme adımlarını" uygulayarak birçok mantıksal problemi çözebiliyor. Bu ilginç bir ikilik oluşturuyor
  • İnsanların ve hayvanların matematiksel akıl yürütme sınırlarını gösterebilecek araştırmalar ilginç olurdu. İnsanların anlayamayacağı fikirler olabilir; bu da insanın yapamadığı şekillerde akıl yürütebilen makineler üretip üretemeyeceğimizi düşündürüyor