LLM’lerin kalıcı halüsinasyon olgusu: Kabul etmemiz gereken gerçek

(arxiv.org)

1 puan yazan GN⁺ 2024-09-16 | 1 yorum | WhatsApp'ta paylaş

LLM halüsinasyonu, bazı durumlarda ortaya çıkan bir hata değil, sistemin özsel bir özelliğidir; kullanım alanı genişledikçe bu sınırı varsayan değerlendirmeler yapmak gerekir
Halüsinasyon matematiksel ve mantıksal yapıdan kaynaklandığı için, yalnızca mimari, veri kümesi ve fact-checking iyileştirmeleriyle tamamen ortadan kaldırılması zordur
Analiz, hesaplama teorisi ve Gödel’in birinci eksiklik teoremi temelinde, Halting Problem, Emptiness Problem ve Acceptance Problem gibi karar verilemez problemlere atıf yapar
Eğitim verisinin oluşturulması, olgu arama, niyet sınıflandırma ve metin üretimi gibi her aşamada halüsinasyon üretmeye yönelik sıfır olmayan bir olasılık kalır
“Structural Hallucinations”, halüsinasyonu LLM’in içinde yerleşik yapısal bir nitelik olarak görür ve bunun tamamen azaltılabileceği yönündeki yaygın kanıya meydan okur

LLM halüsinasyonunun yapısal sınırları

LLM’ler birçok alanda yaygınlaştıkça, modellerin içsel sınırlarını eleştirel biçimde incelemek gerekir
Halüsinasyon, tesadüfi bir hata olmaktan ziyade LLM sistemlerinin kaçınılmaz bir özelliğine yakındır
Bu bakış açısına göre daha iyi modeller, daha büyük veri kümeleri ve harici doğrulama araçları tek başına halüsinasyonu ortadan kaldıramaz

Tamamen ortadan kaldırmak neden zor?

Halüsinasyon, LLM’in matematiksel ve mantıksal yapısından doğar
Mimari iyileştirmeleri, veri kümesi iyileştirmeleri ve fact-checking mekanizmaları tek başına halüsinasyonu tamamen yok etmekte yetersiz kalır
Analiz, hesaplama teorisini ve Gödel’in birinci eksiklik teoremini kullanır
- İlgili karar verilemez problemler olarak Halting Problem, Emptiness Problem ve Acceptance Problem sunulur

Her işlem aşamasında kalan halüsinasyon olasılığı

LLM sürecinin her aşamasında halüsinasyon üretmeye yönelik sıfır olmayan bir olasılık vardır
- Eğitim verisinin oluşturulması
- Olgu arama
- Niyet sınıflandırma
- Metin üretimi
Belirli tek bir aşamayı güçlendirmek, tüm sistemde halüsinasyon olasılığını ortadan kaldırmaz

Structural Hallucinations

“Structural Hallucinations”, halüsinasyonu LLM sistemlerinin içsel bir niteliği olarak gören bir kavramdır
Halüsinasyonun matematiksel kaçınılmazlığını vurgular ve halüsinasyonun tamamen hafifletilebileceği yönündeki mevcut düşünceyle çelişir
Pratikte LLM halüsinasyonu, tamamen ortadan kaldırılması gereken bir şey olarak değil, her zaman var olan bir kısıt olarak ele alınmalıdır

1 yorum

GN⁺ 2024-09-16

Hacker News görüşleri

“Olasılıksal metin üretimi sırasında yanlış bilgi uydurma” kavramına hallucination adını vermeseydik, sanırım yanlış anlaşılmaların önüne geçilebilirdi
Bu kelime, modelin normal çalışması sırasında bir şeyler ters gidiyormuş gibi duyuluyor; oysa modelin normal çalışması aslında inandırıcı metin üretmek
“Halüsinasyon” modelin arızası değil, çıkan metne bizim atfettiğimiz bir değer yargısı; yalnızca o metnin amaca uygun olmadığı anlamına geliyor
Bu bakış açısından halüsinasyonu azaltma ile hizalama fiilen aynı sorun; bu yüzden yalnızca birini ayrı olarak çözmek zor
- Doğru. Sonradan yapılan bir değer yargısı; kesin bir terim değil
  “Halüsinasyon” kelimesinin anlamına harfi harfine bakarsak model aslında sürekli halüsinasyon görüyor sayılır; tesadüfen nesnel olarak doğru içerik ürettiğinde biz buna halüsinasyon demiyoruz sadece
  Makale bu tanım sorununu faydalı biçimde toparladıysa iyi bir katkı olabilir
- Bu terimin ilk nasıl kullanıldığını bilmiyorum ama isabetsiz tarafı, aksine LLM yeteneklerini abartmak isteyenlerin işine yarıyor gibi görünüyor
  Sorunu teknolojinin özündeki bir sınırdan ziyade geçici bir “bug” gibi göstererek yatırımcılar ve alıcılar açısından gerçek niteliğini bulanıklaştırabilir
- Olguya düpedüz makin' stuff up denseydi hava çok farklı olurdu
  İnsanlar da sürekli uyduruyor, hatta yapay zekadan çok daha saçma şeyler de uyduruyor; o zaman insanların gerçekten zeki olup olmadığını da sormak gerekir /tamamen şaka değil
- Konfabulasyon (confabulation) terimini birkaç kez gördüm; LLM'lerde olan biteni daha iyi yansıttığını düşünüyorum
- Yapay zeka/makine öğrenimi alanının tamamı terimlerini insanbiçimciliğe yaslanarak oluşturuyor; sonra bu terimler anlatıyla güçleniyor
Halüsinasyon, bir soru sorulduğunda akla gelen ilk olası cevabı olduğu gibi söylemenin sonucuna daha yakın değil mi diye düşünüyorum
İnsanlar genelde böyle yapmaz. Daha önce cevapladığı bir soruda hata yaptığına dair anıları vardır; konuşmadan önce başka bilgilerle karşılaştırıp içeride sağduyu kontrolü yapar
Bu yüzden LLM'in anında doğru cevabı üretmesini beklemek yerine ona düşünme/geri dönüp bakma alanı vermek gerekir
İnsan düşüncesinde de çoğu zaman birden fazla rol ve persona, iç tartışma ve uzlaşma sonucunda yanıt üretir; ancak ilk “taslak” oluştuktan sonra o yanıtı söylemenin sonuçları gibi ek bağlamlar hayal edilebilir
Dolayısıyla bir prompt'a verilen ilk “sezgisel tepki” üzerinden LLM'in zekasını değerlendirmek yanlış bir yaklaşım olabilir
- Bir insana bilmediği bir şey sorarsanız ilk düşüncesi uydurma bir cevap değil, bilmiyorum olur
  Hikâye uydurmak aksine çaba gerektirir ve eğitim olmadan çoğu kişi bunu pek iyi yapamaz. Bunu doğal biçimde yapanlar da var ama genelde bir bozukluk olarak görülür
  LLM'lerde “bilmiyorum” kavramı yok; yalnızca eğitim verisine en iyi uyan şeyi yazarlar. Eğitim verisinde “bilmiyorum” pek çok olmadığı için doğal cevap da bu değildir
  Küçük bir şehirdeki barların listesini sordum; isimleri, adresleri, telefon numaralarına kadar hepsini inandırıcı biçimde uydurdu. O şehri iyi bilmeyen sıradan bir insanı “bilmiyorum” demeden inandırıcı bir cevap vermeye zorlarsanız, sonunda bir cevap üretebilir ama bu kesinlikle ilk düşüncesi olmaz
- LLM'leri insan zihniyle karşılaştırmak için bir neden yok; böyle karşılaştırmalar, her şeyi insanbiçimlileştirme yönündeki kötü bir alışkanlığa daha yakın bence
  LLM'lerin sezgisi yok, zamanı da deneyimlemezler. Sınav süresi bitmek üzere olduğu için rastgele işaretleyen gergin bir çocuk değil; bilgisayarların doğru cevap üretmesini sağlamaya çalışan yarım yüzyılı aşkın geleneği bırakıp havanın/izlenimin peşinden giden yazılım geliştirmenin ürünü
- Değerlendirilecek bir zeka yok. Zeki değil ve içinde mantık ya da muhakeme de yok
- Demek ki bana hiç bir şey sormamışsınız. Özellikle kahve içerken teknik soru sorulduğunda, yanlış cevap başına 1 sent alsaydım şimdiye çoktan milyoner olurdum
- İnsan beyni düşünceleri gözlemlenen gerçeklikle bir şekilde bağlıyor gibi
  Duyular ve çıkarımla ilgilenen bölümler, bellekle ilgilenen bölümlerle etkileşiyor; farklı bellek türleri de uzlaşmayı yönetiyor. Mantıklı gelen anılar, tesadüfen görülenlerden daha güçlü hale gelebiliyor
  LLM'ler böyle şeyler yapmıyor gibi görünüyor ve tasarımları gereği halüsinasyonu azaltma konusunda beyinden daha zayıflar
  Beyinde halüsinasyon yaşayan kişilerde anormal görünen bölgeleri ve bunların çalışma modellerini inceleyip LLM'lere uygulanıp uygulanamayacağına bakmak, beyin esinli araştırmaların yönü olabilir
  Hipokampus benzeri yapıların modellerini sinir ağlarına uygulama fikri üzerinde hâlihazırda birçok araştırmacı çalışıyor
Mevcut mimarinin temelden halüsinasyonlarla dolu olduğunu ve pratik kullanımı, özellikle de abartılı beklentilerin vaat ettiği kullanım alanlarını ciddi biçimde sınırlayacağını düşünüyorum
Ancak bu yazı “halüsinasyon yapmamak” için imkânsız derecede yüksek bir çıta koyuyor
Biçimsel sistemlerin ve mekanik hesaplamanın iyi bilinen temel sınırlarını yeniden anlatıp ardından LLM'lerin de bu sınırları paylaştığı şeklindeki bariz sonucu sunuyor
Düalizm ya da spekülatif kuantum hiperhesaplama gibi şeylere başvurmadığınız sürece, bu sınırlar insanlar için de büyük ölçüde geçerli
- Tersinden bakarsak, halüsinasyonları ortadan kaldırılmış bir LLM neredeyse kopyala-yapıştır cihazına dönüşür
  LLM'lerin ilginç özelliği, bir şeyler uydururken yine de inandırıcı hale getirebilmesinden geliyor
- C.S. Peirce abdüktif çıkarımı niteleyen kişiydi ve John Sowa'nın klasik yapay zeka çalışmalarını da epey etkiledi; ilginç bir bakış açısı vardı
  Madde ve zihnin ikisinin de gerçek olduğunu ama ikili olmadığını; aralarında pürüzsüz ve sürekli bir geçiş bulunduğunu düşünüyordu
  Ancak zihin ve maddenin doğası ne olursa olsun, insanların Peirce'in gösterge süreci (semiosis) dediği süreç yoluyla sembollere anlam yüklediğine dair ikna edici kanıtlar var
  Bunu doğru biçimde biçimselleştiren bir göstergebilime henüz sahip değiliz; bu alanda ilginç matematiksel uygulamalı felsefe de çok, akademik saçmalık da çok
  Bunu başarana kadar gösterge sürecini gerçekleştiren otomatlar yapmak zor; bir süre daha insanlar ile LLM yetenekleri arasında niteliksel bir fark kalacak
- Açıkçası etkileyici olan, ne kadar başarısız oldukları
  Tüm modelleri denediğimi söyleyemem ama çoğu, “üç varlığın etkileştiği bir süreci açıkla” gibi isteklerde çok hızlı çuvallıyor
  İkiye kadar genelde idare ediyorlar; ama sonunda aynı sözleri döndürüp duruyor ya da birçok modelde paragrafları bütünüyle tekrar etmeye başlıyorlar; üç ise tamamen ağır geliyor gibi
  LLM'lerin, “çoğu yanlış olsa da doğrulaması ucuz olduğu için belki iyi fikir çıkarsa alınır diye para yakılan” alanlarda bir rolü olabilir
Eksik eğitim verilerini ölçmek pek anlamlı görünmüyor
En başta öğrenme dediğimiz şey eksik verilerle uğraşmak değil mi? Veri eksiksiz olsaydı makine öğrenmesine gerek kalmaz, girdiyi çıktıya eşleyen fonksiyonu doğrudan yazardık
Makine öğrenmesi, tahmin yoluyla boşlukları doldurma işidir; genel anlamda öğrenme de böyledir
Dolayısıyla bu teorinin hedef aldığı şey insan zekâsı ve öğrenmesi için de geçerlidir
LLM’lerin her zaman halüsinasyon gördüğü söylenebilir ama insanlar da her zaman halüsinasyon görür
Asıl çözülmesi gereken sorun, LLM’lerin insanlar gibi halüsinasyon görmesini sağlamanın yoludur
- “Makine öğrenmesi, tahminle boşlukları doldurmaktır” yorumu, ağ tabanlı makine öğrenmesine karşı cömert görünüyor
  Makine öğrenmesi problem çözmek için tasarlandı ve çok veriyle bir fonksiyon türetebilmesi açısından, algoritmaları doğrudan kuran klasik AI yaklaşımından farklıydı
  Ancak bugünkü makine öğrenmesi tarzı “zekâ”, insan düşüncesinden farklı. İnsanların kediyi bilmek için milyonlarca örneğe ihtiyacı yoktur; iki üç örnek görüp daha sonra onu sürekli ayırt edebilirler
  Tek bir siyah kedi görseler bile başka ev kedilerini doğru biçimde kedi olarak tanıyabilirler; çocuklara bakınca bunun gerçekten böyle olduğunu görürsünüz
  Zekâ, ön bilgi olmadan çözüm düşünebilme yeteneğidir ve bir varlık ne kadar zekiyse o kadar az veriye ihtiyaç duyar. Daha zeki bir sisteme yaklaştıkça, etki yaratmak için gereken veri daha fazla değil daha az olmalıdır
- Doğru, ama modelden interpolasyon mu yoksa ekstrapolasyon mu istendiğine göre büyük fark var
  Genel olarak modeller ilkinde çok daha iyidir, ikincisinde ise ciddi sorunlar yaşar
LLM’lerin mevcut halüsinasyon biçimi, bilgiyi temsil etme biçimleriyle yakından ilişkili görünüyor
Maliyet fonksiyonuna bakınca buna neden log-olabilirlik dendiği anlaşılıyor. Asıl hedef, gerçekliğe dair sağlam bir modelin kavramlarıyla tutarlı bir cevap değil, en soyut anlamıyla makul görünen bir token dizisi üretmektir
Model halüsinasyon gördüğünde bile, onu eğittiğimiz işi epey iyi yapıyor sayılır; olasılığı yüksek metin üretmek için gramer ve basit kelime seçimi gibi eğitim verilerindeki daha genel örüntülere örtük olarak geri çekilir
Uygun bir mimari değişiklikle halüsinasyon sorununun tamamen ya da neredeyse tamamen çözülebileceğini hayal ediyorum
Ancak böyle bir değişiklik yapılırken hâlâ verimli biçimde eğitilebilir bir model üretmenin mümkün olup olmadığı açık bir soru gibi görünüyor
- Birileri böyle bir mimari değişikliği bulursa, ortaya çıkan şeye artık LLM denmeyecektir ve makale de haklı çıkmış olacaktır
- Sorun tamamen çözülemez. Çünkü matematiksel olarak karar verilemezdir; aslında bu ön baskı olmadan da sezilebilirdi
  Yine de daha iyi soru, yeterince iyi performans elde edilip edilemeyeceğidir
LLM’leri etkili kullanmak için, temelde güvenilmez ve belirlenimci olmayan bir teknolojiyi kullanmayı öğrenmek gerekiyor
Görünüşe göre pek çok kişi bu engeli neredeyse hiç aşamıyor
- Dürüstlük ve doğruluk güven oluşturur
  Bir şeye güvendiğinizde, onun sizi hangi yollarla yanıltabileceğine ve nasıl karşılık vermeniz gerektiğine dair zihinsel bir model kurma ihtiyacınız azalır; bu da bilişsel yükü düşürür
  Bu yüzden en azından benim için LLM’ler faydalı ama stresli
- LLM’ler temelde belirlenimci olmayan sistemler değildir. Örneğin açgözlü örnekleme ile üretim son derece basittir
Belki de artık balonun patlama zamanı gelmiştir
- Ondan önce “AGI” dediğimiz şeyi başarmamız gerekiyor
  Daha da önce bunu tanımlamamız gerekir; ama gerçekçi olmak gerekirse kimse AGI’nin ne olduğunu bilmiyor. Bu yüzden herhangi bir şey olabilir
  Sam’in GPT-3.5, ChatGPT, multimodal GPT-4 ve o1(Strawberry) sonrasında bile AGI’ye ulaşıldığına inanmadığını söylemesi, AGI’nin nihayetinde milyarlarca insanın yaratımını ve emeğini ele geçirip yüz milyarlarca dolar fon toplarken ve herkesi UBI tabanlı bir düzene yerleştirirken içeridekilerin zenginleşmesi anlamına geldiğini düşündürüyor
  Halüsinasyon, AGI’ye henüz ulaşılmadığını söylemek için bir bahane gibi görünüyor. Böylece zaten halüsinasyon görmeye devam edecek modeller için eğitim ve çıkarım enerji maliyetlerine daha fazla para toplanabiliyor
  OpenAI tüm değeri ele geçirip içeridekiler nakde döndükten sonra, AI girişimlerinin %95’inin yok olduğu bir balon çöküşünü isteyecektir. OpenAI ise istisna kalacak
- LLM’ler hem zekâyı hem de aptallığı büyütür
  Bu yüzden Terence Tao, LLM’leri sıradan bir doktora öğrencisi seviyesinde ve giderek daha iyiye gidiyor olarak görüyor; siz ise sadece ölümü bekliyorsunuz
“Bununla yaşamaya” gerek yok
Sadece kullanmayın, görmezden gelin, yayılmasına ve benimsenmesine karşı çıkın. Ben böyle yapmaya devam edeceğim
- Teknik olarak doğru. Sonuçta Donald Knuth hâlâ e-posta kullanmıyor
  Ama küresel ölçekte “biz” bu talebe neredeyse kesinlikle uymayacağız
- Bu “ilerleme karşıtlığı”dır. Kendi yarattığımız gerçeklik çöküşü cehennem kapısına götürse bile her zaman ilerlemenin peşinden gitmeliyiz. Tuhaf diyarlara doğru ilerleyelim demek istiyorum
- Ben kullanmak istiyorum, başkalarının çoğu da kullanıyor. Geride kalmak istiyorsanız özgürsünüz
LLM’ler uzman sistemlerin yolundan gidecek
Sonradan bunun mümkün olduğunu neden düşündüğümüze şaşıracağız gibi geliyor
Kendinizi AI uzmanı gibi dar bir kimliğe hapsetmemenizi öneririm. Yakında dışarısı epey soğuk olacak
Katılmıyorum — https://arxiv.org/abs/2406.17642
İlgili çalışma durma problemi ve hesaplama açısından zor problemleri ele alıyor
Elbette LLM’ler hesaplama açısından zor problemlere cevap veremez
Durma problemiyle ilgili bir soruya “bu hesaplanamaz” diye cevap vermeye neden halüsinasyon denmesi gerektiğini de bilmiyorum

LLM’lerin kalıcı halüsinasyon olgusu: Kabul etmemiz gereken gerçek

LLM halüsinasyonunun yapısal sınırları

Tamamen ortadan kaldırmak neden zor?

Her işlem aşamasında kalan halüsinasyon olasılığı

Structural Hallucinations

İlgili okumalar

1 yorum

Hacker News görüşleri