1 puan yazan GN⁺ 2024-09-16 | 1 yorum | WhatsApp'ta paylaş

LLMs Will Always Hallucinate, and We Need to Live With This

Giriş

  • Büyük dil modelleri (LLM), çeşitli alanlarda yaygın biçimde kullanılmaya başlandıkça, bunların doğuştan gelen sınırlamalarını eleştirel biçimde incelemek önem taşıyor
  • Bu çalışma, dil modellerindeki halüsinasyonların basit hatalar değil, bu tür sistemlerin kaçınılmaz bir özelliği olduğunu savunuyor

Halüsinasyonun doğası

  • Halüsinasyon, LLM’lerin temel matematiksel ve mantıksal yapısından kaynaklanıyor
  • Mimari iyileştirmeler, veri seti geliştirmeleri ve olgu doğrulama mekanizmalarıyla bunun ortadan kaldırılması mümkün değil
  • Hesaplama teorisi ile Gödel’in birinci eksiklik teoremine dayanarak, durma problemi, boşluk problemi ve kabul problemi gibi problemlerin karar verilemezliğine atıfta bulunuyor

LLM sürecinin tüm aşamalarında halüsinasyon

  • Eğitim verisi toplama, olgu geri getirme, niyet sınıflandırma ve metin üretiminin her aşamasında halüsinasyon oluşma olasılığı bulunuyor
  • Yapısal halüsinasyon kavramını ortaya koyarak bunu bu tür sistemlerin içsel bir özelliği olarak tanımlıyor

Sonuç

  • Halüsinasyonun matematiksel kesinliğini ortaya koyarak, bunun tamamen azaltılabileceğine dair mevcut düşünceye meydan okuyor

GN⁺ özeti

  • Bu çalışma, LLM halüsinasyonlarının kaçınılmaz olduğunu matematiksel olarak göstererek bunların tamamen ortadan kaldırılamayacağını vurguluyor
  • Halüsinasyonun doğasını hesaplama teorisi ve Gödel’in eksiklik teoremi üzerinden açıklıyor
  • LLM’lerin tüm aşamalarında halüsinasyon oluşabileceğini gösteriyor
  • Çalışma, LLM’lerin sınırlarını anlamanın ve bunu kabul etmenin önemli olduğuna işaret ediyor

1 yorum

 
GN⁺ 2024-09-16
Hacker News görüşleri
  • Matematiksel kesinlik üzerinden halüsinasyonu kanıtlayarak, halüsinasyonun tamamen çözülebileceğine dair mevcut anlayışa meydan okunuyor

    • "Halüsinasyon" terimi, modelin normal işleyişinde bir sorun varmış algısı yarattığı için, başka bir terim seçilse yanlış anlama önlenebilirdi
    • Halüsinasyon, modelin arızası değil; üretilen metnin amaca uygun olmadığına dair bir değer yargısıdır
    • Halüsinasyonu azaltmak ile "alignment" sağlamak aynı problemdir
  • Halüsinasyon, bir soruya mümkün olan ilk cevabın verilmesinin sonucudur

    • İnsanlar çoğu soruya daha önce yanıt vermiştir ve hatalarını hatırlayıp tekrarlamaz
    • İnsanlar konuşmadan önce düşünür ve ilk tepkilerini başka bilgilerle ilişkilendirir
    • LLM'in anında doğru yanıt üretmesi beklenmemelidir
    • İnsan düşünme süreci çeşitli roller ve personalar içerir
    • İlk "taslak" yanıt oluştuktan sonra ancak ek bağlam üretilir
    • LLM'in ilk "sezgisel tepkisine" dayanarak zekasını değerlendirmek yanlış bir yargıdır
  • Mevcut mimari, temelde "halüsinasyon" içerdiği için pratik kullanımını sınırlandırıyor

    • Bu yazı, "halüsinasyon yapmama"nın imkansız sınırını ortaya koyuyor
    • Biçimsel sistemlerin ve mekanik hesaplamanın temel sınırlarını yeniden doğruluyor
    • Bu sınır insanlar için de geçerlidir
  • LLM halüsinasyonları, bilginin temsil edilme biçimiyle ilgilidir

    • Model halüsinasyon yaptığında da hâlâ eğitildiği şekilde olası metin üretir
    • Eğitim verilerindeki genel kalıplara, yani dil bilgisine ve kelime seçimine dayanır
    • Uygun mimari değişikliklerle halüsinasyon sorunu çözülebilir
    • Ancak bu değişikliklerin verimli model eğitimiyle uyumlu olup olmayacağı bilinmiyor
  • Eksik eğitim verisi ölçmeye değer değildir

    • Eksik veri, öğrenmenin özüdür
    • Tam veri olsaydı makine öğrenmesine gerek kalmaz, girdiyi çıktıya eşleyen bir fonksiyon yazmak yeterli olurdu
    • Makine öğrenmesi, tahmine dayanarak boşlukları doldurmaktır
    • Aynısı insan zekası ve öğrenmesi için de geçerlidir
    • LLM'ler her zaman halüsinasyon yapacaktır, ama insanlar da her zaman halüsinasyon yapar
    • Asıl sorun, LLM'lerin insanlar gibi halüsinasyon yapmasını sağlamaktır
  • LLM'ler birer 'uzman sistem' gibi olacak

    • Kendini AI uzmanı olarak sınırlamaman tavsiye ediliyor
  • LLM'lerle etkili çalışmak için, özünde güvenilmez ve deterministik olmayan bir teknolojiyi kullanabilme becerisi gerekir

    • Birçok insan bu engeli aşmakta zorlanıyor
  • Artık balonun patlama zamanı geldi

  • LLM'leri "kabul etmek" zorunda değiliz

    • Onları kullanmayabilir, görmezden gelebilir ya da yaygınlaşmalarına ve benimsenmelerine karşı çıkabiliriz
  • Bu makale kötü yazılmış ve anlamlı bir matematiksel teori geliştirildiğine dair inanç zayıf

    • Örnek: İlk 10 sayfa anlamsız içerikten oluşuyor