LLM halüsinasyonu kaçınılmaz: Büyük dil modellerinin doğuştan gelen sınırı

(arxiv.org)

5 puan yazan GN⁺ 2024-02-26 | 1 yorum | WhatsApp'ta paylaş

LLM halüsinasyonunu deneysel olarak azaltmaya çalışan araştırmalardan farklı olarak bu makale, halüsinasyonu hesaplanabilir doğru cevap fonksiyonu ile model çıktısı arasındaki uyumsuzluk olarak tanımlıyor ve tamamen ortadan kaldırılabilirliğini biçimsel olarak inceliyor
Köşegenleştirme argümanına göre hesaplanabilir bir LLM tüm hesaplanabilir fonksiyonları öğrenemez ve genel amaçlı problem çözücü olarak kullanıldığında halüsinasyondan kaçınamaz
Gerçekçi polinom zamanlı LLM’ler için kombinasyon listesi, Presburger arithmetic, Subset Sum, SAT ve önermeler mantığı gerektirmesi gibi halüsinasyona açık problemler vardır; bazı sonuçlar P ≠ NP varsayımına dayanır
Modeli büyütmek, ansambllar, daha fazla eğitim verisi, Chain-of-Thought ve doğrulama prompt’ları hataları azaltabilir; ancak doğru cevap fonksiyonu modelin kapasitesinin dışındaysa tamamen ortadan kaldırmak imkânsızdır
Yalnızca giriş-çıkış çiftleriyle eğitilmiş LLM’leri güvenlik açısından kritik karar süreçlerine otomatik olarak dahil etmek zordur; guardrail’ler, bilgi tabanları ve insan kontrolü birlikte gerekir

Biçimsel dünyada tanımlanan LLM halüsinasyonu

LLM halüsinasyonu, makul görünen ancak gerçeğe aykırı veya anlamsız bilgi üretme sorunudur; araştırma, sanayi ve toplum genelinde kullanımı arttıkça güvenlik ve etik kaygılar büyür
Mevcut hafifletme araştırmaları veri toplama, eğitim ve çıkarım aşamalarında nedenler aramış; benchmark’lar, arama tabanlı yöntemler, akıl yürütme prompt’ları ve doğrulama prompt’larıyla halüsinasyonu azaltmaya çalışmıştır
Tüm olası girişleri tek tek sıralayıp test etmek mümkün olmadığından, yalnızca deneysel yaklaşımla halüsinasyonun tamamen ortadan kaldırılıp kaldırılamayacağını yanıtlamak zordur
Gerçek dünyanın semantiğini biçimsel olarak tanımlama problemi hâlâ açık olduğundan makale, hesaplanabilir fonksiyonlardan oluşan biçimsel bir dünya kullanır
- Doğru cevap fonksiyonu f, giriş dizgesi s için tekil doğru çıktı f(s) sağlar
- LLM durumu h[i], herhangi bir giriş s için h[i](https://arxiv.org/abs/s) ≠ f(s) ise doğru cevap fonksiyonu f açısından halüsinasyon yapmış olarak tanımlanır
- LLM, eğitim örneklerini sırayla alan ve birden çok duruma h[0], h[1], ... sahip olan bütünsel hesaplanabilir bir fonksiyon olarak ele alınır
Temel soru, sabit bir prosedürle eğitilmiş LLM h’nin, keyfi bir doğru cevap fonksiyonu f için herhangi bir eğitim aşaması i’de tüm girişler s için h[i](https://arxiv.org/abs/s) = f(s) koşulunu sağlayıp sağlayamayacağıdır

Köşegenleştirme argümanıyla gösterilen kaçınılmazlık

Hesaplanabilir biçimde numaralandırılabilen LLM kümesi {h0, h1, ...} için, tüm LLM’lerin tüm eğitim durumlarının halüsinasyon yapmasına yol açan hesaplanabilir bir doğru cevap fonksiyonu f vardır
- Her LLM’nin eğitim durumları yeniden tek bir numaralandırmaya {ĥ0, ĥ1, ...} dönüştürülür ve giriş dizgeleri {s0, s1, ...} için çıktı tablosu oluşturulur
- Doğru cevap fonksiyonu f(si), ĥi(si)’den farklı bir dizge olacak şekilde tanımlanırsa köşegen konumlarda her LLM durumuyla çakışır
Aynı yöntemle, tüm LLM durumlarının tek bir girişte değil sonsuz sayıda girişte halüsinasyon yapmasına neden olan bir doğru cevap fonksiyonu da kurulabilir
- f(si), j ≤ i olan tüm ĥj(si) değerlerinden farklı bir dizge olacak şekilde tanımlanır
- Böylece belirli bir LLM durumu ĥk, yeterince sonraki girişlerde sürekli halüsinasyon yapar
Tek bir hesaplanabilir LLM h de {h} adlı hesaplanabilir biçimde numaralandırılabilen bir küme olduğundan, tüm hesaplanabilir LLM’ler için halüsinasyonu tetikleyen hesaplanabilir bir doğru cevap fonksiyonu vardır
Teorem 3’e göre her hesaplanabilir LLM h için, her durumun h[j] halüsinasyon yaptığı bir doğru cevap fonksiyonu f vardır; sonsuz sayıda girişte halüsinasyon yaptıran bir f' de vardır
LLM’nin kendi kendine halüsinasyonu giderebilmesi için keyfi bir hesaplanabilir fonksiyon karşısında halüsinasyonsuz bir durumun var olması gerekir; ancak bu Teorem 3 ile çelişir
- Chain-of-Thought gibi LLM’nin kendisine dayanan hafifletme yöntemleri tek başına halüsinasyonu tamamen ortadan kaldıramaz

Halüsinasyona açık problem türleri

Verili LLM kümesinin hesaplayamadığı bir doğru cevap fonksiyonu bulunursa, ilgili problem halüsinasyona açık problem hâline gelir
Polinom zaman kısıtlı LLM’ler, yani makalenin tüm mevcut LLM’ler olarak gördüğü kategori, şu problemleri içerir
- Kombinasyon listesi: İki karakterli bir alfabe ile uzunluğu n olan tüm dizgeleri listeler; hesaplama için Ω(2^n) zaman gerekir
- Subset Sum: Bir tamsayı kümesi ve q sayısı verildiğinde toplamı q olan bir alt küme olup olmadığını yanıtlayan NP-complete problemdir
- Boolean Satisfiability(SAT): n adet Boolean değişken içeren bir formülü doğru yapan bir atama olup olmadığını yanıtlayan NP-complete problemdir
- Önermeler mantığı gerektirmesi: M(ψ) ⊆ M(ϕ) olup olmadığını yanıtlayan co-NP-complete problemdir
Subset Sum, SAT ve önermeler mantığı gerektirmesinin polinom zamanlı LLM’ler için halüsinasyona açık problem olduğu sonucu P ≠ NP varsayımına bağlıdır
Presburger arithmetic, doğal sayıların toplaması ve < sırası üzerine birinci dereceden teoridir; bir önermenin bu aritmetik içinde kanıtlanabilir olup olmadığını yanıtlar
- Hesaplama için Ω(2^{2cn}) zaman gerekir ve hem polinom zamanlı LLM’ler hem de üstel zamanlı LLM’ler açısından halüsinasyona açık problem olarak sınıflandırılır
Tüm hesaplanabilir LLM’ler için daha genel açık problemler vardır
- Tüm hesaplanabilir doğrusal sıraları öğrenme problemi Teorem 4’te ele alınır
- Tüm hesaplanabilir problemleri çözmek Teorem 3’ün konusudur
- Birinci dereceden mantık gerektirmesi undecidable problem olarak sınıflandırılır
Matematik problemleri ve mantıksal akıl yürütme konusunda LLM yanıtları her zaman ayrıca gözden geçirilmelidir

Mevcut hafifletme önlemlerinin kapsamı

Daha büyük modeller, model ansamblları ve daha fazla eğitim verisi, LLM’nin daha karmaşık doğru cevap fonksiyonlarını yakalamasına yardımcı olabilir
- Eğitim verisi arttıkça geçersiz LLM adayları elenir ve eğitim yakınsamasına katkı sağlanabilir
- Ancak doğru cevap fonksiyonu ilgili LLM’nin yakalayamayacağı bir aralıktaysa, yalnızca parametre ve veri artışıyla halüsinasyon giderilemez
- Polinom zamanlı bir LLM’ye attention layer eklemek onu yalnızca daha büyük bir polinom zamanlı LLM yapar; üstel zamanlı doğru cevap fonksiyonları için halüsinasyonu ortadan kaldırmaz
- Model ansamblları da özünde tek bir LLM olarak görülebilir ve Teorem 3’ün kısıtlarına tabidir
Chain-of-Thought, reflection ve verification prompt’ları, örnek çözümler ile ilgili bilgiyi bağlam içinde sağlayan bağlam içi öğrenme ailesinden yaklaşımlardır
- Karmaşık problemlerin birden fazla çözümü vardır ve prompt, LLM’yi insanın tercih ettiği daha düşük karmaşıklıklı çözüme yönlendirebilir
- Fibonacci dizisi, özyinelemeli çözümün üstel zaman aldığı ancak dinamik programlamayla doğrusal zamanda çözülebildiği bir örnek olarak kullanılır
- Tüm doğru cevap fonksiyonlarını prompt ile eksiksiz tarif etme olasılığı düşük olduğundan, bu yaklaşımdan yalnızca belirli görevlerde etki beklenebilir
Guardrail’ler ve sınırlar, LLM çıktısını insan değerleri, etik ve yasal gerekliliklerle uyumlu hâle getirme veya LLM ile tamamen otomatikleştirilmemesi gereken kritik görevler listesi tutma yöntemidir
- Biçimsel olarak programlanıp LLM davranışını açıkça etkileyebilirler
- Biçimsel dünyada ve bazı gerçek problemler için faydalı bir hafifletme önlemi olabilirler
- Gerçek dünyada ölçeklenebilirliği açık bir problem olarak kalır
Bilgiyle güçlendirilmiş LLM, bilgi grafikleri, veritabanları ve mantık gibi harici bilgi ile sembolik akıl yürütmeyi eğitim ve çıkarımda kullanır
- ChatGPT gibi LLM tabanlı sohbet botları, LLM’nin içsel kapasitesinin dışındaki problemleri çözmek için arama motoru, kod yorumlayıcı ve hesap makinesi gibi araçları kullanmaya başlamıştır
- Bilgi veritabanı araması, doğru cevap fonksiyonu hakkında giriş-çıkış eğitim örnekleri dışındaki bilgileri sağlar
- Bu durumda Teorem 3 doğrudan uygulanmaz ve biçimsel dünyada potansiyel olarak etkili bir halüsinasyon hafifletme önlemi olabilir
- Gerçek görevlerde ölçeklenebilirliği hâlâ açıktır

Dağıtım sırasındaki kısıtlar ve araştırmanın sınırları

Yalnızca giriş-çıkış çiftleriyle eğitilen tüm LLM’ler, genel amaçlı problem çözücü olarak kullanıldığında halüsinasyon yapar
- Bazı problemler insanlar için zihinsel olarak kolay olsa da LLM’ler için hesaplama açısından zor olabilir
- Tersine, insanlar için zor olan bir problem LLM’ler için hesaplama açısından kolay olabilir
- Gerçek dünyadaki halüsinasyon nedenleri yalnızca hesaplama karmaşıklığı değildir; eksik eğitim verisi de hesaplama açısından kolay görevlerde halüsinasyon yaratabilir
Bu sonuç, eğitim verisi dışındaki sorulara nihayetinde yanıt veren kullanışlı LLM’ler için geçerlidir
- LLM keyfi sayıdaki soruya “bilmiyorum” diye yanıt verebilir
- Belirli bir durumdaki LLM eğitim verisi dışındaki bir soruyu yanıtladığı anda, Teorem 1 ve Teorem 2’deki köşegenleştirme tekniği bu yanıta uygulanabilir
- LLM asla yanıt vermezse halüsinasyon yapmaz; ancak görmediği sorulara yanıt verdiği sürece bazı biçimsel dünyalarda halüsinasyon yapar
Harici yardımcılar olmadan LLM’ler güvenlik açısından kritik karar süreçlerinde otomatik olarak kullanılmamalıdır
- Guardrail’ler, sınırlar, bilgi tabanları ve insan kontrolü, giriş-çıkış çiftleri dışındaki bilgileri sağlayarak Teorem 3’ün sınırlarını aşmaya yardımcı olabilir
- İnsan hayatıyla ilgili kararlar gibi halüsinasyon hatalarının kabul edilemeyeceği alanlarda akılcı ve insani yargı gerekir
LLM’lerin güvenlik sınırlarıyla ilgili araştırma ve düzenlemeler önemlidir
- Müşteri hizmetlerinde kullanılan bir LLM’nin yanlış bilgi vererek gerçek parasal kayba yol açtığı örnek vardır
- Robotlar gibi otomatik algılama ve eylem ortamlarında halüsinasyon tehlikeli gerçek sonuçlara yol açabilir
- LLM kapasite sınırları konusunda teorisyenler ile uygulayıcılar arasında uzlaşı ve sınır dışı kullanımı önleyen düzenleme gerekir
Araştırmanın sınırları da nettir
- LLM’nin hesaplama kapasitesi içinde kalan problemlerde oluşan halüsinasyonları ele almaz
- Doğru cevap fonksiyonunu deterministik varsaydığı için olasılıksal bakış açısının içgörüleri sınırlıdır
- Deneysel araştırmada mevcut LLM’ler ek fine-tuning yapılmadan kullanılmıştır

1 yorum

GN⁺ 2024-02-26

Hacker News yorumları

Makaleye göz gezdirince ana fikir, P != NP olduğu için LLM'lerin NP-tam problemler için halüsinasyonlu yanıtlar verdiği iddiası gibi görünüyor.
Zekice bir nokta ve matematik, bilgisayar bilimi ve dil hakkında ilginç bir felsefi soru; ancak insanlar bunu bildiğimiz “LLM halüsinasyonu” kavramına uygulamaya çalışıyor gibi. Makalenin kullandığı biçimsel halüsinasyon ile, bir roman özeti istendiğinde var olmayan bölümler uydurmak ya da somut ayrıntılar icat etmek gibi sağduyudaki halüsinasyon arasında bağlantı pek net görünmüyor.
Biçimsel dünyanın, yani matematik, mantık ve biçimsel gramer dünyasının “gerçek” dünyanın ya da doğal dil dünyasının bir alt kümesi olduğu ifadesi de ilginç. İnsanların çoğu biçimsel mantık problemlerini çözemez ya da biçimsel gramerleri ayrıştıramaz, ama güçlü bir halüsinasyon etkisi yaşamadan doğal dili çok ustaca kullanır. İnsanlar da belirli NP-tam problemleri çözemediğine göre halüsinasyon kaçınılmaz mı? Ömür sonlu olduğundan, bazı problemler kapasite olsa bile bitirilemeyebilir.
- LLM'ler için halüsinasyon sözcüğü yanlış bir adlandırma; bu terimin yerleşmiş olması moral bozucu.
  İnsanlar bunu yaptığında buna konfabülasyon (confabulation) denir. Kişinin yalan söylediğinin farkında olmadan bilgisindeki boşlukları o anda uydurduğu saçmalıklarla doldurduğu psikiyatrik bir belirtidir. Halüsinasyon tamamen farklı bir belirtidir.
  Konfabülasyon insanların normalde yaptığı bir şey değildir; bunun P != NP ile nasıl bağlantılı olabileceğini de bilmiyorum. Normal bir insan, nedeni ne olursa olsun kendi bilgisinin sınırlarını fark eder; LLM ise etmez.
- Doğru. Sonsuzu devreye sokup sonra sonsuz üzerindeki durma problemine takılmak gibi görünüyor; pek yardımcı olmayabilir.
  Bu iddianın sorun yaşadığı nokta, “hesaplanabilir LLM'ler ve S üzerindeki hesaplanabilir doğruluk fonksiyonu f ile ilgilenilen biçimsel dünyada halüsinasyonu tanımlar” kısmı. Bu, doğruluk için güvenilir ve hesaplanabilir bir yüklem gerektiriyor; bu da muhtemelen başlı başına imkânsız.
  Bunun yerine doğruluk fonksiyonunun çıktısını True, False, Unknown, Resource limit exceeded olarak kabul ederseniz problemden kaçınabilirsiniz. O zaman hedef yönetilebilir hâle gelir. True ya da False yalnızca geçerliyse döndürülür; yararlı sorgularda Unknown ve Resource Limit Exceeded oranını azaltmak yeterlidir.
  Aynı sorun program doğrulama sistemlerinde de görülür ve onlarca yıldır aynı şekilde ele alınır. Bir önermenin doğru olup olmadığına karar vermek bazen çok fazla iş gerektirir.
- “P != NP olduğu için LLM'ler NP-tam problemler hakkında halüsinasyon görür” sözü, halüsinasyonu basitçe yanlış yanıt vermek olarak tanımladığınızda doğru olabilir. Ama genelde böyle anlaşılmaz.
  İnsanlar LLM halüsinasyonundan söz ettiğinde aslında yanlış ve kendinden emin yanıtı kasteder. Ancak her yanlış yanıt halüsinasyon değildir.
  Bir programın durup durmayacağı sorulduğunda LLM “bilmiyorum” diye yanıt verirse buna halüsinasyon denmez. Ama yazarların iddiası LLM'in NP-tam problemleri her zaman doğru çözemeyeceği ise, “bilmiyorum”u da halüsinasyonlu yanıt sayacaklarmış gibi geliyor. Gerçi makaleyi okumadım.
- İnsanların bir ölçüde duvara tosladığını fark etme ve buna göre ayarlama yapma becerisi var. Yine de tamlık teoremi, Kolmogorov karmaşıklığı, hesaplama karmaşıklığı teorisi gibi şeyler ancak 20. yüzyılda erişilmiş bilgiler.
- Hem insanlarda hem LLM'lerde halüsinasyonu azaltmanın tek yolu genel zekâyı ve dünya bilgisini artırmaktır.
Yalnızca özeti okuduğumu kabul ediyorum; ancak bu kadar yüksek derecede biçimsel bir yaklaşımın, LLM'lerin daha sık “bilmiyorum” demesini sağlayıp sağlayamayacağı gibi pratik bir soruya yardımcı olabileceği konusunda genel olarak şüpheliyim.
Eksiklik teoremine benziyor. Eksiklik teoremi matematik araştırmasının boşuna olduğu anlamına gelmediği gibi, LLM'in bazı fonksiyonları hesaplayamayabileceğini söylemek de halüsinasyon probleminin LLM'in her şeyi bilmesi gerektiği anlamına gelmez. Bizim önemsediğimiz problem “bilmiyorum” diye yanıt verme problemidir ve bu hâlâ hesaplanabilir olabilir.
- LLM “bilmiyorum” diyemez. Çünkü gerçekten bildiği bir şey yoktur.
  Yanıtlar düşünen bir zihinden değil, devasa bir önceden hesaplanmış örüntü tablosu üzerinde gezinen karmaşık bir örüntü eşleştirme süper bilgisayarından gelir. Girdiyi hesaplar ve o örüntüler içinden en iyi uyanı dışarı verir. Kendi sınırlarını kavramsal olarak anlayan düşünen bir beyni yoktur.
  Günümüz yapay zekâsından “bilmiyorum” beklemek, navigasyon yazılımına Springfield'daki Simpsons evine gitmenin ne kadar süreceğini sormaya benzer. Makine bir yanıt üretir ama o yanıtı imkânsız kılan kültürel göndermeyi kavrayamaz. Bunun yerine en yakın gerçek Springfield'da Simpson adlı birini arar.
- Transformer'larda öz-düşünüm yeteneği de, kendi akıl yürütme süreci üzerine akıl yürütme yeteneği de yoktur; bilmediğini “bilmez”.
  Makaleyi, bu zayıflığın temel olduğunu savunuyor diye yorumluyorum. Ağ, kendi bilgisinin sınırlarını biliyormuş gibi davranacak şekilde eğitilebilir; ancak gerçek uygulamada her zaman kapatılamayan bir boşluk kalır.
- “Bilmiyorum” diye yanıt verebilmek için ne zaman bildiğini bilmek gerekir. Ne zaman bildiğini bilmek için de yine anlayış gerekir.
- LLM'in “bilmiyorum” demesini sağlamanın kolay bir yolu yok gibi görünüyor.
  Bunun için, insanların gerçekten bilmediklerinde nasıl konuştuklarını, yuttuğu tüm materyallerin içinden öğrenmesi gerekir. Ama internetteki birçok insan bilmediğinde basitçe “bilmiyorum” yazmak yerine alakasız şeyler yazar.
- Doğrudan LLM'ler hakkında değil ama bilgisayar bilimi genelinde birçok problem “çözülemez” ya da “makul sürede çözülemez (NP)” diye sınıflandırılsa da, belirli bir değerle üstten sınırlanmış yaklaşık çözümler makul sürede (P) bulunabilir.
  Gerçek dünyada Amazon kamyonlarının rotası matematiksel optimumdan %20 daha kötüyse bile, gezgin satıcı problemi yeterince iyi bir biçimde “çözülmüş” sayılır.
Uydurmaması için soruları çok dikkatli sormak gerekiyor. Örneğin “x’te bunu nasıl yaparım?” diye sormak yerine “x ile bunu yapmak mümkün mü?” diye sormak gerekiyor.
Bu tür “AI”lar yes-man gibi. Doğru olmasa ya da imkânsız olsa bile kullanıcıyı memnun etmek için her şeyi söylerler.
Böyle insanlarla karşılaştım; birlikte çalışmak çok zor. Söz verdikleri projeyi gerçekten teslim edip etmeyeceklerine güvenemezsiniz ve her şeyi yeniden kontrol etmeniz gerekir. Söz verdikleri şeyin baştan mümkün olup olmadığına bile güvenemezsiniz.
- ChatGPT’den önce de insan dili çevirisinde benzer sorunlar vardı, ama insanlar bunu o kadar yüksek sesle dile getirmiyordu.
  Bugünlerde DeepL’in thou’yu du olarak çevirmesini sağlamak giderek zorlaşıyor; bu can sıkıcı. İngilizcedeki eksik bir özellikten doğan uyumsuzluğu aşmak için sık kullandığım bir “hack”ti.
  “Yes-man” sorununu bir ölçüde hafifletmek için soru sorarken titiz bir matematikçi gibi olmak gerekiyor; LLM teknolojisiyle bu sorunun tamamen aşılabileceğini sanmıyorum. Kulağa gülünç gelse de, soruları sizin yerinize parçalara ayıran soyutlamaların gelişeceğini düşündüğüm için “prompt engineering”in varlığını kabul etmek gerek.
- “Ek netlik gerekiyorsa takip soruları sor” talimatıyla bir ölçüde başarı elde ettiğim oldu.
  En iyi deneyimler, ne yapmaya çalıştığımızı serbestçe konuşarak başlamıştı. Önce soru-cevap yoluyla benimle AI’nın aynı alanı düşündüğünü ve ilgili terimleri paylaştığını doğrulamak faydalı görünüyor.
- Benzetme gerçekten yerinde. Sonuçta bu bir eğitim ve seçim meselesi.
  “Böyle davran, yoksa…” şeklinde bir ödül söz konusu olduğu sürece, belirlenen hedefe ulaşmak için zekâsını kullanan sistemlerin ortaya çıkması şaşırtıcı değil.
  Neyse ki bu, altta yatan zekânın sınırlarından çok, onun etrafına koyduğumuz ödül yapısının sınırlarını gösteriyor.
- Çeşitli teknolojilerle yapmak istediğim şeylerin imkânsız olduğunu ya da daha iyi bir yol bulunduğunu LLM’in söylediği durumlar da oldukça sık oldu.
- Mevcut AI, RLHF ile “yes-man” ya da dalkavuk olmaması için ayarlanmış durumda.
  Daha iyi prompt’lara ihtiyaç olduğu doğru. “İlk kadın başkan kimdi?” diye sormak yerine “Kadın başkan oldu mu?” diye sormak gerekiyor. StackOverflow’da olduğu gibi, bilmediğiniz hâlde varsayım koymadan doğru soruyu sormalısınız.
  Erken dönem Google’da spam sonuçlar gördüğünde suçu sadece arama motoruna atan, anahtar kelime seçimini ya da her zaman bir şey döndürmeye çalışma davranışını görmezden gelen durumu düşünün. Bu, beton bir levhaya keskiyle vurup güzel bir heykel çıkmıyor diye şikâyet eden kullanıcıya benziyor.
Roman ve hikâye yazmak halüsinasyondur. Stokastik papağanın tersidir.
AI’nın iki ucu da başarıldı. Bilgisayar hem mantık makinesi hem de halüsinasyon gören bir makine olabilir. Amaç, ikisini aynı anda yapabilen ve ikisini ayırt edebilen bir makine üretmektir.
Esas mesele halüsinasyonun kendisi değil, bilgisayarın ne zaman halüsinasyon gördüğünün farkında olmasıdır.
Elbette zor bir problem, ama insanlar da muazzam ölçekte halüsinasyon görür. Dine bakmak yeterli. Yalnızca tek bir din doğru olabilir ya da hiçbir din doğru olmayabilir; bu da mantıksal olarak diğer tüm dinlerin halüsinasyon olduğu anlamına gelir.
- Dini LLM hatalarıyla karşılaştırmak, günümüz toplumunda yaygın olan insanbiçimleştirmenin bir örneği. Bu tür yanlış anlamaların ve karışıklığın teknolojinin iyileştirilmesini gerçekten engelleyeceğinden endişeliyim.
  “Helios her gün güneşi gökyüzünde sürükler” gibi yanlış bir açıklamaya ulaşmak ile bir matematik programının sıradaki en olası token’ı yanlış döndürmesi kategorik olarak farklıdır. LLM’lerde hiçbir inanç yoktur.
  Helios, “Güneş neden doğar?” sorusunun cevabıdır. Böyle bir inanç, bunu bir gücün meydana getirmesi gerektiğine dair mantıksal bir anlayış gösterir; ancak dünya bilgisi eksik olduğu için yanlış bir açıklama üretmiştir.
  LLM böyle sorular ortaya koyup akıl yürütemez. Aynı türden bir “halüsinasyon” değildir. Kelime tahminiyle bilişi çözdüğümüzü varsayarsak uzun vadede hızla çıkmaz sokağa gireriz.
- Bu, stokastik papağanın tersi değil, tam olarak aynısıdır. Sadece seyrek eğitim verisi nedeniyle tahmin daha kötüdür.
- “Yalnızca tek bir din doğru olabilir ya da hiçbir din doğru olmayabilir; dolayısıyla diğer tüm dinler halüsinasyondur” cümlesinde birkaç hata var.
  Birden fazla dinin dünyanın bazı yönlerini doğru açıklarken başka yönlerde yanılma ihtimali de var. Bir dinin sahip olabileceği yararlı durumları katı ve eksiksiz tek bir “doğru cevap” olarak ele almak son derece yanıltıcıdır. Newton fiziği ve özel görelilik de gözlemlenen bazı olguları öngöremez, ama yine de yararlıdır. Tüm dinler de katı ve kusursuz bir tutarlılık iddiasında bulunmaz.
  Bir din yanlış görünebilir diye bu otomatik olarak halüsinasyon olduğu anlamına gelmez. İnsanlar makul nedenlerle bir şeye inanıp yine de yanılabilir.
  “Bunun doğru olduğunu kanıtlayamam ve kanıtlamaya da çalışmıyorum, ama Tanrı’ya dair öznel bir vizyon deneyimi nedeniyle muhtemelen gerçek olduğuna ikna oldum” gibi bir tutum da mümkündür. Bu, bir LLM’in hiçbir dayanak olmadan baştan sona bir makale uydurmasından çok farklı görünür.
- Konudan biraz sapıyor ama dinin var olmasının itici güçlerinden birinin kişileştirme arzusu olduğunu düşünüyorum.
  İnsanlar dünyayla ve onun unsurlarıyla, tanıdık insan benzeri varlıklarmış gibi davranıp iletişim kurduklarında daha kolay etkileşime giriyor gibi görünüyor.
  LLM ve genel olarak AI hakkında konuşurken de kişileştirme sık sık ortaya çıkıyor.
- İnsanların da büyük ölçekte halüsinasyon gördüğüne dair daha basit bir örnek rüyalardır.
Zeki birinin şöyle dediğini duymuştum
İyi olursa buna “yaratıcılık”, kötü olursa “halüsinasyon” denir
Bu bir bug değil. Yazarların dediği gibi bir sınır da değil. Özellik
- Doğru. LLM’ler sürekli halüsinasyon görüyor ve uyduruyor
  Bu halüsinasyonlar bazen tesadüfen doğru çıktığı için insanlar yanlış olmanın istisna, doğru olmanın ise somehow kural olduğu sonucuna vardı
  Binlerce yıllık metinlerde bugün kendi hayatına uyan kısımlar bulup bunun geleceği kehanet ettiğine karar vermeye benziyor
  Böyle metinlerin anlamı ya da doğruluğu, metnin kendisinin içsel niteliği değil, okurun zihninden çıkan bilişsel önyargıdan ibaret
- Doğru, ama LLM’lerden çok fazla şey bekleme tuzağına düşülebilir. LLM’in bilgisi kusursuz görünebilir. Neredeyse her şeye cevap verebildiği için, her şeye doğru cevap verebileceği yanılgısına kapılmak kolay
  Gelecekteki iyileştirmelerden bahsedersek, bugün gördüğümüz seviyenin ötesinde bir süper zekâ beklemenin aşırı iyimser olduğunu düşünüyorum. Yani tüm dünyadaki açık bilgilere erişme ya da mevcut yaratım kalıplarına uyan metin, görsel ve videoları hızla üretme seviyesinin ötesini
  Daha yaratıcı bir zekânın “delirmemesi” için son derece hassas bir denge gerektiğinden şüpheleniyorum. Yani halüsinasyon değil yaratıcılık olarak göreceğimiz çıktılar üretmesi gerekir
  Yapay zekânın içinde zekânın evrimleşmesini sağlayan geri besleme döngüleri oluşturdukça bu dengeyi tutturmak üstel olarak zorlaşacak
  İnsanların, evrenin izin verdiği sınıra kadar bu yaratıcı zekâ geri besleme döngüsünü zaten optimize etmiş olma ihtimali de var. Devasa bilgi için daha fazla nöron veya depolama alanı kesinlikle işe yarar, ama bunun yaratıcı zekâ için de geçerli olup olmadığını henüz bilmiyoruz
- Bug değilse ne halüsinasyondur ne de yaratıcılık
  Bu, aslında yaptığımız şeyi, yani çok miktarda insan dilini istatistiksel olarak modelleme işini ortaya çıkaran, derine işlemiş bir tasarım kusurudur
  Bu yola daha fazla veri atmak, onu sihirli biçimde uyandırıp AGI yapmayacak. Bu sorun ortadan kaybolmayacak
  Makine öğrenmesi topluluğu abartı treninden inmeli. İlk adım, kendi projelerini insanlaştırmamaktır
- Kod yazmasını istemek, temelde LLM’den halüsinasyon görmesini istemekle aynı şey
- Bence kilit nokta, LLM’in hangisini yaptığını anlayıp anlamadığı
  İnsan ile LLM arasındaki fark bu değil mi?
  İnsan, dayanaklı bir tahminde bulunduğunu bilir ve gerekiyorsa bunu söylemelidir. Ya da yaratıcı biçimde bir şey ürettiğini bilir ve bunu söyleyebilir
  Hangisi olduğunu bilmiyorsa, LLM’in sonuçta çok gelişmiş bir mekanik giriş-çıkış cihazından pek de farklı olmadığı kesinleşir
Yapay zekâ abartısı artık “gerçekliğe bakalım” aşamasına giriyor gibi. Hizalama problemi hakkında coşkulu yazılar da bir süredir görmedim sanırım
- Abartı çılgınca. LLM’lerin hâlâ büyüme payı olduğunu ve şimdiden çok faydalı olduklarını düşünüyorum, ama iyi araştırmacıların dediği gibi Kutsal Kâse değiller
  AGI istiyorsanız LLM cevap değil. Birçok kişi bunu bir mühendislik problemi olarak görüyor ve LLM’in bizi oraya götürebileceğini düşünüyor gibi, ama götüremez. Çünkü bu bir mühendislik problemi değil
“Halüsinasyon, hesaplanabilir bir LLM ile hesaplanabilir bir doğruluk fonksiyonu arasındaki uyumsuzluk olarak tanımlanır” ifadesi sadece yanlışlık ya da çarpıtma demek
Buna halüsinasyon demek, bu programların zeki olduğu fikrine hizmet etmekten başka bir şey değil
- Doğru. Bir cep hesap makinesinin yaklaşık %10 oranında tamamen yanlış cevap verdiğini ve buna sadece bozuk demek yerine kaprisli dendiğini hayal edin
- O cümle “hesaplanabilir doğruluk” konusunda da fazla cömert. LLM’lerde kullandığımız görevlerde böyle bir şey yok. Tabii her kelimenin tanımını bozarak yeni bir tanım üretmezsek
LLM’i “bir dizgede t zamanındaki çıktıyı önceki tüm token’lara koşullayan olasılık modeli” olarak tanımlıyor
Bu tanım insan zekâsını da kapsayacak kadar geniş görünüyor; dolayısıyla sonuçlar insanlar için de aynı şekilde geçerli olmalı
- Bu kesinlikle doğru. İnsan hafızası ve hatırladığını sandığı şeyi doğru biçimde geri çağırma becerisi her türlü şeyden etkilenir ve bazen çok güvenilmez olabilir
  Ancak insan zekâsı, LLM’den farklı olarak, bir zamanlar öğrenilmiş bilgileri hatırlamakla sınırlı değildir. Biz mantıksal akıl yürütme de yapabiliriz; LLM’lerde de bu beceri gelişiyor gibi görünse de kusursuz olmaktan çok uzak
  Bir başka sorun da bilgi kaynaklarına, özellikle kişisel önyargılara göre güvenilirliği çok farklı ele almamız. Benim deneyimime göre LLM’ler kullanıcı girdisine bağlı olarak hızla dağılıp fikir değiştirme eğiliminde; bunun büyük bir etken olduğunu düşünüyorum
- Zekâyı tanımlayıp ölçebilir hâle geldiğimizde, bu tür tartışmalar da anlamlı olacak
- Bu, rüyaların evrimsel nedenini de açıklayabilir. Rüyalar halüsinasyonları budamak olabilir. Öğrenme ile rüya görmeyi dönüşümlü olarak koymak anlamlı olur mu?
Bu tanıma göre başlıktaki cümlenin, yani “halüsinasyon kaçınılmazdır” ifadesinin yanlış olduğunu çok kolay kanıtlayabiliriz
LLM’in girdi bağlam uzunluğunu 1 bayt olarak sabitleyelim. Girdi “A” olduğunda “yes”, diğer tüm girdilerde “no” diye yanıt verene kadar LLM’i eğitmeye devam edelim
Gerçek değer fonksiyonu, “A” girdisinin doğru yanıtını “yes”, diğer tüm girdilerin doğru yanıtını “no” olarak tanımlar
Bu LLM’in asla halüsinasyon yapmayacağı kanıtlanabilir. Çünkü olası tüm girdiler için çıktısının gerçek değer fonksiyonuyla eşleştiğini tam olarak doğruladık
Girdi bağlam boyutunu ve gerçek değer tablosundaki madde sayısını keyfi olarak tümevarımsal biçimde artırmayı engelleyen hiçbir şey yok; hiçbir aşamada halüsinasyon “kaçınılmaz” hâle gelmiyor
- Ben de makaleye katılmıyorum, ama gerekçem farklı
  O tek cümle parçasının yazarların tüm varsayımlarını içermemesi elbette doğal. Onların kanıtladığı şey, rastgele uzunlukta girdiler ve belirli kaynak kısıtları olan bir LLM’in —örneğin hesaplama için polinom zaman kullanabilen ve bu polinom zamanlı davranışın kanıtlanabilir olması gerektiği için eğitim sırasında yanlışlıkla daha uzun sürmemesi gereken bir LLM’in— bu kısıtlara tabi olmayan belirli bir fonksiyonu hesaplayamayacağı gibi sezgisel olarak bariz bir şey
  Bazı durumlarda bu kanıt P != NP varsayımına dayanıyor. Ardından gerçek dünyadaki yararlı soruların bir kısmının, LLM’in hesaplayamayacağı sınıflarda olma olasılığının yüksek olduğunu savunuyorlar. Çünkü LLM’e matematik problemi sorabilirsiniz ve matematik problemleri bazen çok zor olabilir
  Bu biçimsel model asimptotik, yani rastgele uzunlukta girdiler vb. varsayıyor; ancak benim deneyimime göre bu tür teoremler çoğu zaman makul sorgu uzunluklarına sahip gerçekçi problemler için de doğru olur
  Ama bu, halüsinasyonun kaçınılmaz olduğunu kanıtlamakla aynı şey değil. Makul bir tanıma göre ister LLM olsun ister insan, “bilmiyorum” diyebilmelidir ve bu halüsinasyon sayılmamalıdır. O zaman LLM halüsinasyondan kaçınabilir; soru da halüsinasyon yapmadan ne kadar yararlı iş yapabileceğine dönüşür
- “Girdi A için yes, kalanlar için no diye yanıt verene kadar eğit” demek, temelde halüsinasyon yapmayana kadar eğit demekle aynı
  O zaman iddia totolojiye indirgenir. Halüsinasyon yapmamak üzere eğitilmiş bir LLM halüsinasyon yapmaz. Zor olan kısım, bunu gerçekten sağlayabilmektir
- “Girdi bağlam boyutunu ve gerçek değer tablosu madde sayısını keyfi olarak tümevarımsal biçimde artırabilirsiniz” demek tümevarım değildir
  Yalnızca temel durumu yaptınız; tümevarım varsayımı ya da tümevarım adımı yok. O adımı zihninizde yapmış olabilirsiniz, ama öyleyse bu, iddia edildiği gibi önemsiz bir kanıt değildir
Bu yüzden dil öğrenimini gerçek dünya deneyimiyle eşleştirmek gerekiyor. Bu robotlara keşfedecekleri bir dünya, hatta sanal bir dünya bile olsa, verilmeli; orada sonuçları deneyimleyip hayatta kalmaları sağlanmalı
Aksi hâlde hepsi deneyime bağlı olmayan, havada asılı duran işaretler ve sembol sistemlerinden ibaret olur
- Katılma eğilimindeyim, ama bu da insanbiçimcilik olabilir
  3–5 yıl önce LLM’ler hakkında ben de böyle düşünüyordum. Nesneler belirsiz biçimlerde birbirine tutunduğunda hangisinin düşeceğini yanıtlayamıyorlardı; o zamanki iddia, böyle şeyleri fark etmek için deneyimlemek gerektiğiydi. Ama LLM’ler bu sorunları çoktan düzeltti
  LLM’in soruları “çözme” biçimi bizimkinden çok farklı. Artık bir LLM’in zekâ kazanması için gerçek dünyaya kök salması gerektiğini kanıtlamak istiyorsak, sanırım o kadar apaçık olduğu için kimsenin yazıya dökmediği bir gerçek dünya olgusu bulmamız gerekecek. Ama o zaman da biz zaten onun hakkında yazmış olmaz mıyız?

LLM halüsinasyonu kaçınılmaz: Büyük dil modellerinin doğuştan gelen sınırı

Biçimsel dünyada tanımlanan LLM halüsinasyonu

Köşegenleştirme argümanıyla gösterilen kaçınılmazlık

Halüsinasyona açık problem türleri

Mevcut hafifletme önlemlerinin kapsamı

Dağıtım sırasındaki kısıtlar ve araştırmanın sınırları

İlgili okumalar

1 yorum

Hacker News yorumları