3 puan yazan GN⁺ 2024-06-06 | 1 yorum | WhatsApp'ta paylaş

Alice Harikalar Diyarında: En yeni büyük dil modellerinde tam akıl yürütme çöküşünü gösteren basit bir görev

Başlıca içerik özeti

  • Büyük dil modelleri (LLM'ler): Çeşitli görev ve koşullarda güçlü performans sergileyen modellerdir ve ön eğitim ölçeği artırıldıkça performansın iyileştiğini söyleyen ölçekleme yasalarına uyarlar.
  • Sorun: En yeni büyük dil modelleri, basit sağduyu problemlerinde ciddi işlev ve akıl yürütme yeteneği çöküşü gösteriyor. İnsanların kolayca çözebileceği sorularda bile kendinden emin biçimde yanlış yanıtlar veriyor ve mantıksız açıklamalarla bu yanlış yanıtları meşrulaştırıyor.
  • Başarısız müdahaleler: Modeli doğru yanıta yönlendirmek için çeşitli türlerde prompt güçlendirme ya da çok aşamalı yeniden değerlendirme denemeleri başarısız oldu.
  • Yeniden değerlendirme ihtiyacı: Mevcut nesil büyük dil modelleri için öne sürülen yeteneklerin yeniden değerlendirilmesi ve bu tür temel akıl yürütme kusurlarını uygun biçimde tespit edebilecek standartlaştırılmış benchmark'ların oluşturulması gerekiyor.

GN⁺ görüşü

  • Teknik sınırlamalar: Bu, büyük dil modellerinin belirli durumlarda hâlâ sınırlamaları olduğunu gösteriyor. Bu da modellerin güvenilirliğini artırmak için ek araştırma ve iyileştirmelere ihtiyaç olduğunu düşündürüyor.
  • Standartlaştırılmış benchmark'lar: Model performansını doğru değerlendirmek için yeni standartlaştırılmış benchmark'lara ihtiyaç var. Bu, araştırmacıların model zayıflıklarını daha iyi anlamasına ve iyileştirmesine yardımcı olabilir.
  • Gerçek dünya uygulamaları: Bu tür kusurlar, büyük dil modelleri gerçek uygulamalarda kullanılırken dikkat gerektiği anlamına geliyor. Özellikle kritik karar verme süreçlerinde kullanıldığında güvenilirlik sorunları ortaya çıkabilir.
  • Alternatif teknolojiler: Başka yapay zeka tekniklerini veya modellerini değerlendirmek gerekebilir. Örneğin pekiştirmeli öğrenme ya da hibrit modeller alternatif olabilir.
  • Gelecek araştırma yönü: Bu çalışma, büyük dil modellerinin sınırlamalarını aşmak için yeni araştırma yönleri öneriyor. Örneğin, insanın sağduyu ve akıl yürütme yeteneklerini daha iyi taklit edebilen modellerin geliştirilmesi gerekiyor.

1 yorum

 
GN⁺ 2024-06-06
Hacker News yorumu
  • Makaleyi okumak isteyenler için, makalenin ana kısmı ilk 10 sayfada hızlıca okunabilir.
  • Makalede ele alınan örneklerin anlaşılması nispeten kolay, ancak araçların gerçekten problemi çözüp çözemeyeceği şüpheli.
  • Yapay zeka araçları gerçekte düşünmüyor veya akıl yürütmüyor, ancak birçok kişi bunları genel amaçlı yapay zeka olarak görme eğiliminde.
  • Makalenin yapay zeka etrafındaki abartıya etki etme ihtimali düşük görünüyor.
  • "Alice'in 60 erkek kardeşi ve 212 kız kardeşi var. Alice'in erkek kardeşlerinin kaç kız kardeşi vardır?" sorusuna GPT-4 doğru cevabı veriyor.
  • Deneyde modelin "düşünüyormuş gibi ses çıkarmaması" yönlendirildiğinde, GPT-4 tutarlı biçimde yanlış cevap verdi.
  • Daha karmaşık örneklerde GPT-4 başarısız olma eğilimi gösteriyor.
  • Gemini modeli ek yönlendirme olmadan problemi çözdü, ancak sayılar verildiğinde kafası karışıyor.
  • Alice'in yüzlerce erkek kardeşi olamayacağı varsayımıyla, sorunun makul olmadığını düşünüyorum.
  • Başlıca LLM'lerin değerlendirme veri kümeleri eğitim verilerine dahil edildiği için güvenilirlik değerlendirmesinde işe yaramaz.
  • LLM'leri değerlendirmek için yeni testler oluşturmak daha iyi bir yöntem.
  • Genel halkın bu tür bulmacaları sınırlı sürede çözme olasılığı düşük.
  • AIW+ problemi, genel AIW probleminden çözmesi daha zor.
  • Makalenin yazarları yüzlerce aile ağacı problemi oluşturduğu için cevap açık görünebilir.
  • Makalede sunulan problem, çok temel bir bilmece varyasyonu.
  • Makale şaşırtıcı derecede olumsuz sonuçları seçici biçimde ele almış gibi görünüyor.
  • LLM'ler ilişkisel akıl yürütmede hâlâ zayıf.
  • LLM'ler uzun süre odaklanma yeteneğinden yoksun.
  • LLM'lerin AGI'yi gerçekleştirebileceği fikri, sadece bir temenni.
  • LLM'lerin planlama ve akıl yürütmede çok zayıf olduğunu gösteren iyi bir konuşma var.