Büyük dil modellerinde halüsinasyonları anlamsal entropiyle tespit etmek

(nature.com)

1 puan yazan GN⁺ 2024-06-25 | 1 yorum | WhatsApp'ta paylaş

LLM’lerin makul görünen ama keyfi yanlış cevapları olan confabulation’ı yakalamak için, sözcük dizileri yerine cevapların anlamsal dağılımı üzerinden belirsizliği hesaplayan bir yöntem öneriliyor
Aynı soru için birden fazla cevap örnekleniyor; birbirini çift yönlü olarak gerektiren cevaplar aynı anlam kümesinde toplanıyor ve küme bazında entropi hesaplanıyor
TriviaQA, SQuAD 1.1, BioASQ, NQ-Open ve SVAMP üzerinde LLaMA 2 Chat, Falcon Instruct ve Mistral Instruct değerlendirildiğinde, ortalama AUROC 0.790 ile naive entropy 0.691, P(True) 0.698 ve embedding regression 0.687’den yüksek çıktı
GPT-4 tabanlı biyografi üretim veri kümesi FactualBio’da, 21 kişi hakkında biyografilerden çıkarılan 150 olgusal iddiadan 45’i yanlıştı; çıktı olasılıkları olmadan da çalışan ayrık anlamsal entropi, self-check ve P(True) varyantlarından daha yüksek AUROC ve AURAC gösterdi
Anlamsal entropi, ön alan bilgisi veya göreve özel etiketler olmadan yeni görevlere genelleşir; ancak eğitim verisi hataları, sistematik akıl yürütme başarısızlıkları veya kullanıcıyı yanıltan çıktılar gibi tutarlı biçimde yanlış cevapların doğruluğunu garanti etmez

Tespit hedefi: tüm halüsinasyonlar değil, confabulation

ChatGPT veya Gemini gibi LLM’ler akıl yürütme ve soru-cevap yetenekleri gösterse de, hukuki içtihat uydurma, haberlerde yanlış olgular ve radyoloji gibi tıbbi alanlardaki riskler nedeniyle gerçek dünyada devreye alınmaları zorlaşıyor
Burada ele alınan hedef, geniş anlamıyla tüm halüsinasyonlar değil confabulation’dır
- LLM akıcı konuşur ama cevap yanlıştır ve keyfidir
- Aynı komutta bile rastgele tohum gibi ilgisiz ayrıntılara bağlı olarak cevap değişir
- Örneğin “Sotorasib’in hedefi nedir?” sorusuna bazen doğru cevap olan KRASG12 ‘C’yi, bazen de yanlış cevap olan KRASG12 ‘D’yi verir
Aşağıdaki başarısızlık türleri confabulation’dan ayrılır
- Hatalı eğitim verisi veya yaygın kanılar nedeniyle tutarlı biçimde yanlış olma durumu
- Ödül arayışı sürecinde modelin yalan söylemesi
- Sistematik akıl yürütme başarısızlığı veya genelleme başarısızlığı
Bu yöntem, insan gözüne de makul görünen keyfi yanlış cevapları tespit etmeye odaklanır; LLM çıktısının olgusal doğruluğuna dair garanti sağlamaz

Anlamsal entropinin temel fikri

Yaygın entropi hesaplaması, modelin ürettiği token dizilerinin olasılık dağılımını kullanır
- Aynı doğru cevap birden fazla ifadeyle yazılabildiği için, anlam aynı olsa bile sözcükler farklıysa entropi yüksek ölçülebilir
- naive entropy, ifade çeşitliliği ile anlam farkını ayırt edemez
Anlamsal entropi, serbest biçimli üretilen cevapları anlam birimleri halinde grupladıktan sonra belirsizliği tahmin eder
- Aynı anlama sahip cevapları tek bir anlam kümesinde toplar
- Küme başına olasılıkları toplayarak anlam birimi düzeyinde entropi hesaplar
Aynı soruya birden fazla kez cevap verdirildiğinde yalnızca ifade değişiyor ve anlam aynı kalıyorsa düşük belirsizlik; farklı anlamlara sahip cevaplar karışıyorsa yüksek belirsizlik olarak görür
Çıktı olasılıklarına erişilemeyen modellerde ayrık anlamsal entropi uygulanabilir
- Token olasılıkları yerine her anlam kümesine düşen örnek sayısının oranı kullanılır
- GPT-4 deneylerinde o dönemde çıktı olasılıklarına ve hidden state’lere erişim olmadığı için bu varyant kullanılmıştır
- Ayrık varyant, standart kestiriciye benzer performans gösterir

Algoritma: örnekleme, anlamsal kümeleme, entropi hesaplama

Süreç üç aşamadan oluşur
- Üretim: Aynı girdi için birden fazla cevap örneklenir
- Kümeleme: Cevaplar aynı anlama sahip gruplar halinde toplanır
- Entropi tahmini: Aynı anlam kümesindeki dizilerin olasılıkları toplanarak entropi hesaplanır
Anlamsal eşdeğerlik çift yönlü gerektirme ile yaklaşık olarak belirlenir
- A cümlesi B cümlesini gerektiriyor ve B cümlesi de A cümlesini gerektiriyorsa aynı anlamda kabul edilir
- “The capital of France is Paris” ve “Paris is the capital of France” birbirini gerektirdiği için aynı anlamda işlenir
- “Paris” gibi kısa cevaplar, yalnızca soru bağlamı içinde daha uzun bir cevapla aynı anlama gelebilir
Gerektirme kararında genel LLM’ler ve NLI araçları kullanılır
- QA ve matematik deneylerinde GPT-3.5, insan değerlendirmesiyle iyi örtüştüğü ve confabulation tespit performansı iyi olduğu için seçilmiştir
- DeBERTa-Large-MNLI gibi NLI modelleri de incelenmiştir
Örneklemede temperature 1, nucleus sampling P=0.9 ve top-K sampling K=50 kullanılmıştır
- Model doğruluğu değerlendirmesi için düşük temperature 0.1 ile tek üretim kullanılmıştır
Uzun cümlelerde token olasılıklarının çarpımının küçülmesi sorunu olduğundan, log olasılık karşılaştırmalarında uzunluk normalizasyonu kullanılır

QA ve matematik problemi değerlendirmesi

Değerlendirme hedefi, serbest biçimli cevap gerektiren veri kümeleridir
- TriviaQA: bilgi yarışması bilgisi
- SQuAD 1.1: Wikipedia tabanlı okuduğunu anlama
- BioASQ: yaşam bilimleri soru-cevap
- NQ-Open: Google Search’teki gerçek sorgulardan türetilen açık alan soruları
- SVAMP: ilkokul düzeyi matematik sözel problemleri
Her veri kümesinden rastgele 400 train örneği ve 400 test örneği örneklenmiştir
- Anlamsal entropinin kendisi train verisini kullanmaz
- Problemi zorlaştırmak ve confabulation’ı tetiklemek için veri kümesinin özgün context passage’ı verilmemiştir
Kullanılan modeller şunlardır
- LLaMA 2 Chat 7B, 13B, 70B
- Falcon Instruct 7B, 40B
- Mistral Instruct 7B
sentence-length cevapların ortalama uzunluğu 96±70 karakterdi ve 30 görev-model kombinasyonunda anlamsal entropi en yüksek ortalama AUROC’yi kaydetti
- semantic entropy: 0.790
- naive entropy: 0.691
- P(True): 0.698
- embedding regression: 0.687
Model ailesi ve boyutuna göre de anlamsal entropi performansı istikrarlıydı
- LLaMA, Falcon ve Mistral genelinde AUROC 0.78~0.81 aralığında
- 7B’den 70B’ye kadar boyutlarda da baseline’dan yüksekti
P(True), model boyutu büyüdükçe iyileşme eğilimi gösterdiğinden, çok yetenekli ve dürüst bir modelin iyi anladığı ortamlarda daha rekabetçi olabilir
Yanlış cevap tespiti değerlendirmesi, confabulation’ın yanı sıra anlamsal entropinin doğrudan hedeflemediği sistematik yanlış cevapları da içerir
- Buna rağmen anlamsal entropinin diğer yöntemleri geçmesi, gerçek üretim hatalarında confabulation’ın başlıca kategori olduğunu düşündürür

Reddetme tabanlı doğruluk ve değerlendirme metrikleri

AUROC, belirli bir cevabın yanlış olup olmadığını ayırt eden ikili olay için kullanılır
- Değer 0~1 aralığındadır; 1 kusursuz bir sınıflandırıcıyı, 0.5 ise bilgi içermeyen bir sınıflandırıcıyı ifade eder
AURAC, reddetme doğruluğu eğrisinin altında kalan alandır
- Confabulation olasılığı yüksek görülen sorular reddedildiğinde, kalan sorular için model doğruluğunu ölçer
- Kullanıcının farklı threshold’larda deneyimleyeceği doğruluk iyileşmesini özetler
Anlamsal entropi şu durumlarda kullanılabilir
- Confabulation yaratma olasılığı yüksek soruları cevaplamamak
- Belirli bir cevabın güvenilirliğinin düşük olduğunu kullanıcıya bildirmek
- Arama veya arama tabanlı prosedürler (retrieval) gibi daha kanıta dayalı süreçleri desteklemek
sentence-length cevaplarda doğru/yanlış kararı, GPT-4’ün reference answer ile proposed answer’ın anlamsal olarak eşleşip eşleşmediğini belirlemesiyle otomatikleştirilmiştir
- Ayrı ek materyalde otomatik değerlendirme kalitesi, insan kararlarıyla karşılaştırılarak doğrulanmıştır

Uzun biyografi üretimi: FactualBio deneyi

Uzun paragraflarda birden fazla önerme karışık halde bulunduğundan, paragrafın tamamı için anlamsal eşdeğerliği doğrudan belirlemek zordur
- Aynı paragraf yeniden üretildiğinde, olgunun kendisine dair belirsizlik yerine olgu sırası veya paragraf yapısı farkları ortaya çıkabilir
FactualBio, GPT-4 v.0613 tarafından üretilmiş bir biyografi veri kümesidir
- Wikipedia sayfası olacak kadar tanınan, ancak çevrimiçi ayrıntılı biyografisi çok olmayan 21 kişi hedeflenmiştir
- Üretilen biyografilerden 150 olgusal önerme otomatik olarak çıkarılmıştır
- 150 taneden 45’i manuel etiketlemede yanlış iddia olarak değerlendirilmiştir
Uzun üretim için şu süreç uygulanır
- Paragraf tek tek olgusal iddialara ayrıştırılır
- Her olgusal iddiayı cevap haline getirebilecek sorular otomatik üretilir
- Özgün LLM, her soru için yeni cevaplar üretir
- Yeni cevaplar ve özgün olgusal iddia birlikte verilerek anlamsal entropi hesaplanır
- Birden fazla sorunun anlamsal entropisi ortalanarak ilgili olgusal iddia için belirsizlik skoru elde edilir
Her olgu için 6 soru oluşturulur ve her soru için 3 yeni cevap üretilir
- Özgün olgusal iddia da entropi hesabına dahil edilerek özgün claim’e grounding korunur
- “not available”, “not provided”, “unknown”, “unclear” gibi reddetme cevapları yarıdan fazlaysa anlamsal belirsizlik maksimum olarak işlenir
Ayrık anlamsal entropi, FactualBio’da self-check baseline’ından ve paragraph-length için P(True) varyantından daha yüksek AUROC ve AURAC kaydetti
- rejection accuracy’de, soruların %20’si reddedilene kadar ayrık anlamsal entropi daha iyiydi; bu noktada P(True) az farkla öne geçti

Sınırlamalar ve uygulanabilirlik

Anlamsal entropi, model mimarisi değiştirilmeden LLM’lere veya benzer foundation model’lere uygulanabilir
Çıktı olasılıklarının olmadığı kısıtlı erişim ortamlarında da ayrık varyant kullanılabilir
Denetimli öğrenme yaklaşımlarının aksine, etiketlenmiş confabulation örnekleri gerektirmez ve ön alan bilgisi olmadan yeni görevlere genelleşir
- embedding regression gibi denetimli yöntemlerin performansı, eğitim verisi ile dağıtım verisi dağılımları farklı olduğunda kötüleşir
Bu yöntem, LLM’in kendinden emin biçimde yanlış olduğu durumları doğrudan çözmez
- Tehlikeli davranışları sistematik olarak üreten öğrenme hedefleri
- Sistematik akıl yürütme hataları
- Kullanıcıyı sistematik olarak yanıltan çıktılar
- Bu durumlar confabulation’a benzer belirtiler gösterebilir, ancak ayrı işlem gerektirir
Anlamı temel alarak olasılıksal makine öğrenmesinin belirsizlik tahmini araçlarını serbest biçimli dil üretimine uyarlayan bir yaklaşımdır; göreve özel veri olmadan yeni görevlere genelleşir ve kullanıcının daha dikkatli olması gereken durumları belirlemeye yardımcı olur

Veri ve kod

Kısa ifade ve sentence-length üretim deneylerinde açık veri kümeleri kullanılır; erişim yöntemi açık koda dahildir
FactualBio’nun açık sürümü, paragraph-length deneylerini yeniden üretmeye yönelik kod tabanının bir parçası olarak sunulur
Kodun yayımlandığı yerler
- github.com/jlko/semantic_uncertainty: short-phrase ve sentence-length deney kodu
- github.com/jlko/long_hallucinations: paragraph-length deney kodu
- Zenodo DOI: https://doi.org/10.5281/zenodo.10964366

1 yorum

GN⁺ 2024-06-25

Hacker News yorumları

Yorumlar kelimelerin anlamı ya da LLM'lerin insanlaştırılması üzerine tartışıyor gibi görünüyor, ancak bu yaklaşımın matematiksel düzeyde gerçek bir sorunu var
Her girdi metnine karşılık gelen bir çıktı metni dağılımı vardır ve birden çok örnek çekip entropi ya da tutarsızlığı değerlendirme yöntemi, sanki zaten bu çıktı dağılımının özelliklerini bildiğimizi varsayıyor gibi görünüyor
Örneğin “Tom Cruise neyle ünlüdür?” sorusuna “movie star”, “katie holmes”, “topgun”, “scientology” gibi vektör uzayında birbirinden uzak cevapların hepsi doğru olabilir
Buna karşılık “Taylor Swift neyle ünlüdür?” sorusuna “standup comedy”, “comedian”, “comedy actress” gibi anlamsal olarak yakın cevaplar gelirse, bunların hepsi halüsinasyon olabilir
Belirli bir girdiye karşı doğru kelime dizisi dağılımını bilmek zaten LLM'in çözmesi gereken problemse, yalnızca çıktı dağılımını değerlendirerek cevabın doğru olup olmadığını belirlemenin bir yolu yoktur
Yapay sinir ağı çıktılarındaki belirsizliği değerlendiren istatistiksel modeller var, ancak bunlar LLM ölçeğinde pratik görünmüyor; yalnızca son 1-2 katmanı kullanan kısmi tahmin de tüm ağın belirsizliğini ciddi biçimde buduyor
Benim karşılaştığım halüsinasyonlar da değişken adı değiştirme ya da ayar anahtarı uydurma gibi son derece makul ve doğruya yakın görünse de, gerçekte çoğu zaman yanlış oluyor
- Belirsizliği yüksek cevaplar tanım gereği düşük olasılıklıdır; bu yüzden aynı soruyu birçok kez sorarsanız Taylor Swift'in komedyen olduğu gibi aynı nadir cevabın tekrar etmesindense, anlamsal olarak farklı cevapların gelme olasılığı daha yüksektir
  Eğitim verisi Taylor Swift'i komedyen olarak söylüyorsa, bu bir halüsinasyon sorunu değildir
- Matematikten yoksun bilgisayar mühendisliği kafamda sezdiğim şeyi çok daha teknik biçimde açıklamış gibi görünüyor
  Bu, temperature düşürmeye benziyor. Kanıtlanmış gerçeği daha iyi çekip çıkarmaktan çok, vektör uzayında daha olası tarafa gitmek gibi görünüyor; bunu doğru mu anlıyorum merak ediyorum
- Eleştiri yerinde, ancak Taylor Swift örneğinde iyi temellendirilmiş bir modelin, eğitim verisinde olmayan “komedyen” cevabını art arda birçok kez üretme olasılığı düşük olurdu gibi geliyor
  Tom Cruise örneğinde ise hepsi gerçek ve eğitim verisinde temelli olduğu için bu teknik yanlışlıkla yanlış pozitif halüsinasyon üretebilir
  Yine de makaledeki örnekler “Bu belirli ilacın etki ettiği reseptör nedir?” ve “Eyfel Kulesi nerededir?” gibi tek doğru cevaplı sorular; dolayısıyla böyle uygulamalarda yararlı olabilir gibi görünüyor
- Başka bir deyişle bu, “örnekleme yapıp örnekler arası benzerliği değerlendirirseniz dağılımın ne kadar saçıldığını anlayabilirsiniz, ama bu dağılımın doğru olup olmadığını anlayamazsınız” demek
  Gauss dağılımından örnek çekip standart sapmayı söyleyebilirsiniz, ancak dağılımın doğru olup olmadığını söyleyemezsiniz
  Entropisi yüksek bir değişkenin çok doğru bir dağılımı olabilir; tersine, standart sapması düşük ve sıkışık bir dağılım düpedüz yanlış olabilir. Çıktının önceden nasıl görünmesi gerektiğini bilmiyorsanız, sadece örnekleme ile bunu anlayamazsınız
- Makaledeki yöntem, “birden çok örnek çekip yalnızca entropi ya da tutarsızlığı değerlendirmekten” ibaret değil
  Birden fazla cevap örnekleniyor, anlamsal benzerliğe göre gruplanıyor, sonra da gruplandırılmış cevapların olasılıkları toplanıp normalize ediliyor
  Örneğin “music:0.8, musician:0.9, concert:0.7, actress:0.5, superbowl:0.6” değerleri [music, musician, concert] → MUSIC, [actress] → ACTING, [superbowl] → SPORTS şeklinde gruplanıp MUSIC:0.686, SPORTS:0.171, ACTING:0.143 olarak hesaplanıyor
  Makale, engellemeye çalıştığı şeyi açıkça confabulation olarak tanımlıyor. Yani rastgele seed gibi ilgisiz ayrıntılara duyarlı biçimde değişen, yanlış ve keyfi ama akıcı iddialar
  Yaygın bir yanlış anlama, veri kümesinde güçlü şekilde yer etmiş olurdu; bu yöntem ise diğer olası cevaplardan anlamsal olarak yalıtılmış ve olasılığı da belirsiz kalan cevapları cezalandırmaya daha yakın
  Makale yalnızca tespit başarımını karşılaştırıyor; bu tespiti kullanan geliştirilmiş bir örnekleme yöntemi sunmuyor. Üretim tekniğine eklendiğinde de modelin yaklaşık 10 kat daha fazla üretim yapması gibi büyük bir maliyet doğuyor
  Kod: https://github.com/jlko/semantic_uncertainty
Mevcut LLM mimarileri esas olarak arama tarafına odaklanıyor ve öğrenilmiş ağırlıklar yalnızca bir sonraki token’ı iyi tahmin etmeye yakınsıyor.
Bu veriyi mantıksal bir çerçevenin içine yerleştirme becerisinin de öğrenme hedeflerinden biri olması gerekirdi diye düşünüyorum.
Bir sonraki token tahminine eğitim aşamasında bilgi biçimi doğrulaması eklenirse, LLM’ler bilgi üretiminde tutarlılığı koruyabilir ve doğru türden halüsinasyonları, yani hayal gücüne daha yakın şeyleri görebilir.
Süreç, mevcut eğitim verisini mevcut büyük modellerle biçimsel mantık ilişkilerine dönüştürmek, birden çok çözüm üretmelerini sağlamak ve ardından bu güçlendirilmiş veri kümesiyle yalnızca bir sonraki token’ı değil, mevcut bilgi ile yeni üretilen metin arasındaki biçimsel ilişkiyi de çıktılayan yeni bir LLM eğitmek şeklinde olabilir.
Ağ, üretilen biçimsel kodun bir ispat denetleyicisinde yüksek doğruluk elde etmesini sağlamak için, token üretim doğruluğuyla birlikte ağırlıkları optimize edebilir.
Bana göre dil, zekânın temeli değil daha çok ikincil bir şey; temel, birbiriyle tutarlı nesnelerin bulunduğu rüya benzeri bir simülasyona daha yakın ve dil de bunu açıklayan bir araç gibi geliyor.
- Bu öneri, anlamsal bilgi yönetim sistemi kurarken kullanılan klasik biçimsel yukarıdan aşağı yaklaşım ile biçimsel olmayan aşağıdan yukarı yaklaşım tartışmasına geri dönüyor.
  Yukarıdan aşağı yaklaşım, büyük veriden ve olasılıksal modellerden önceki dönemde çok denendi ama devasa miktarda elle kürasyon gerektiriyordu ve bilgi de yetersizdi.
  Büyük verinin ortaya çıkışı kürasyon sorununu çözmedi; kürasyonu otomatikleştiremediğiniz için ölçek büyüdükçe durum daha da kötüleşti.
  Yapay zeka 1990’lar civarında olasılıksal tarafa yönelince bugünkü ilişkisel olasılık modelleri mümkün hale geldi ve daha fazla kürasyon içeren, daha biçimsel bir yaklaşımın bunları geçeceğine dair bir umut görünmüyor.
  LLM’lere akıl yürütme, nedensellik gibi tip 2 düşünme unsurlarını nasıl eklerseniz ekleyin, uygulama yine olasılıksal, biçimsel olmayan ve aşağıdan yukarı olmak zorunda.
  Mantık ve anlam ilişkilerini insanların bilgi modeline elle kürasyon yoluyla işlemesi, gereken ölçek ve kırılganlığa dayanıklılık açısından yeterli değil; bunun böyle olduğu zaten ortaya çıktı.
- Mantığın da kendine özgü pek çok sorunu var.
  “Godel, Escher, Bach”a bakmak ya da OWL 20 yıldır ortada olmasına rağmen neden neredeyse hiç pazar payı kazanmadığını düşünmek yeterli.
  İnsanların asenkron kod yönetimi için RETE yerine her türlü çözümü denemiş olmasının, “karmaşık olay işleme”nin Celery gibi görev yürütücülerine rakip olmak yerine niş bir alan olarak kalmasının ve Drools’un neden anlaşılır hata mesajları veremediğinin arkasında da aynı bağlam var.
- Sorun, modelin hiç görmediği yeni şeylerde ve insanların da cevabını bilmediği sorularda ortaya çıkıyor.
  Halüsinasyon sorununun tamamı bana sadece durma problemine birkaç katman daha eklenmiş hali gibi geliyor. Belki de ChatGPT’ye P=NP olup olmadığını sormalıyız.
- İlk adım için CYC geçerli bir çözüm olabilir.
  Benim deneyimime göre DAG için anlamlı bir ilişki şeması denebilecek bir şey. Açık kaynak sürümü de var ama şirket artık onu doğrudan sürdürmüyor.
  https://cyc.com
  https://github.com/asanchez75/opencyc
- Bilgi ya da mantıksal ilişkiler için biçimsel doğrulama diyorsun da, peki bilimkurgu romanlarını ya da şiiri nasıl biçimsel olarak doğrulayacaksın?
  Doğada var olan paradokslar ya da birbiriyle çelişse de kendi içinde mantıklı olan teorilerle ne yapacaksın?
  Söylemesi kolay ama pratikte bu, “çözmeyi bilmediğimiz NP-zor problemleri çözersek işe yarar” demeye benziyor.
Buna halüsinasyon denebilir ama başka bir ifadeyle bu sistemlerin gerçeğe dik olduğunu da söyleyebiliriz.
Yani doğru ya da yanlış olmakla hiçbir ilgileri yok.
Bu düşünce şu makalede de ifade ediliyor: https://link.springer.com/article/10.1007/s10676-024-09775-5
- Bu, bir olasılık dağılımına doğru mu yoksa yalancı mı diye sormaya benziyor.
  Algoritmadan sanki kişisel özellikleri varmış gibi söz etmek bir kategori hatasıdır.
- Bağlantısı verilen makale, LLM’lerin olgu düzeyinde rastgele mi seçim yaptığını yoksa tutarlı mı davrandığını tespit etmekle ilgili.
  Prosedürel olarak üretilmiş rastlantısallık beyin fırtınası gibi işler için harika olabilir; tutarlılık ise eğitim verisinde de görece tutarlı biçimde yer alan bir şeyi tekrarladığının işareti.
  Bu yüzden doğru da olabilir yanlış da olabilir, ama bir yerden alınmış olma ihtimali daha yüksek.
  Bilginin ne kadar rastgele olduğunu bilmek küçük de olsa bir ilerleme gibi görünüyor.
- LLM’ler, “ne olursa olsun en az üç paragraf cevap ver” hedefiyle eğitiliyor; susmak ya da “neden bahsettiğini anlamıyorum” gibi sevimsiz bir yanıt vermek yerine böyle yanıtlar her zaman tercih ediliyor.
  Bu durumda fiilen inandırıcı saçmalıklar üretmeleri öğretilmiş oluyor.
  Bu da doğaçlama tiyatro derslerinde diyaloğu ilginç tutmayı ve karşı oyuncuya “hayır” dememeyi öğretmeye benziyor.
- Ortak gerçekliğin LLM’lere uyacak şekilde büküleceğinden, tersinin olmayacağından şüpheleniyorum.
  Bilgisayarın söylediği şey doğrudan “gerçek” haline gelebilir.
- Bu LLM’ler bilinçten çok bilinçdışına daha yakın görünüyor.
  Jung buna muhtemelen “antinomy” derdi. Amaç gerçeği temsil etmek değil, mümkün cevapların bütününü temsil etmek.
LLM’lerin yaptığı her şey sonuçta “halüsinasyon” değil mi zaten?
Halüsinasyon olup olmadığını anlayabilmek için doğru cevabı zaten biliyor olmak gerekir. Cevabın doğru olup olmadığını bilen bir sistem kurabilsek artık LLM’ye ihtiyaç kalmaz.
- Halüsinasyon terimi aslında sağlıklı bir zihnin başarısızlığa uğramasını ima eder.
  Bugünkü LLM’lerin yaptığı şeye saçmalamak demek daha doğru. Bu saçmalık ne kadar iyi hale gelirse, tesadüfen doğru çıkma oranı da o kadar yükselir.
- Bu konudaki her tartışmada, anlamı gayet açık ve yerleşmiş bir terim olan “halüsinasyon” sözcüğüne mutlaka takılan biri çıkmak zorunda mı diye düşünmeden edemiyorum. Giderek yorucu oluyor.
- İnsanlar da her şeyi uydurur.
  Bazen fiziksel ve toplumsal dinamiklere dayanarak tutarlı olurlar, bazen olmazlar.
  Açıkça her zaman doğru olan bir sistem imkânsız olduğuna göre, tutarlılığı hedefleyen sistemlere ihtiyacımız var.
- Yazıyı okumuş olsaydınız, LLM ile cevap üretme sürecinin olgu denetimi sürecinin önemli bir parçası olduğunu anlayabilirdiniz.
Şimdilik yapay zeka şirketlerinin chatbotları yalnızca biraz yönlendirilmiş birer metin üretim aracı olarak sunması daha iyi olabilir
Böylece insanlar da onları buna göre kullanabilir
Bir miktar anlıyormuş gibi görünmesi mümkün ve adım adım akıl yürütmeyi biraz taklit etmesi de sağlanabilir, ama bu kara kutu işlevinin %95’i metin üretimi
Aslında üretim de bilgi üretimi değil; bir ansiklopediden çok doğaçlama bir performans partnerine daha yakın ve teknoloji sektöründekiler bunu zaten biliyor
LLM’lerin insanları yanlış yönlendirme sorununda bu zekice yanıt entropisi çözümüne gerçekten gerek var mı emin değilim. Çözüm ilginç ve ifadelere güven puanı eklemek gibi pratik bir iyileştirme sağlayacakmış gibi görünüyor
Ama makine öğrenimi metin üreteçlerini neredeyse AGI’ymiş gibi pazarlamamaları bile zararların çoğunu azaltıp daha büyük fayda sağlamaz mı
- Şu anda React ve Redux ile bir frontend yaparken LLM ile çalışıyorum; ikisi de neredeyse hiç bilmediğim teknolojiler
  Soru sorduğumda LLM bana yanıt ve JavaScript kodu verdi, JavaScript bilgim de epey paslanmış durumdaydı
  Kodun hepsi derlendi ve çoğu beklendiği gibi çalıştı. Hatalar da vardı ama anlamadığım hataları LLM açıkladı ve çalışan düzeltme kodu verdi
  Genel olarak bir mentorla çalışıyormuşum gibi harika bir deneyimdi ve acemi biri olarak bana ciddi zaman kazandırdı. Tabii ki sonucu doğrulamak gerekiyor
  %95 sayısı nereden geliyor? Ayrıca bunun metin üretimi mi yoksa olgu/bilgi üretimi mi olduğu önemli değil. Gerçekten değerli bir araç ve kullandığım her şeyden çok daha iyi
“Her soru için birkaç olası yanıt örnekleyip, anlamca benzer olan yanıtları algoritmik olarak gruplamak” yaklaşımı, tek bir nesnel çoktan seçmeli doğru cevap bulunan sorular için makul
Birden fazla eşdeğer derecede geçerli yanıtın mümkün olduğu durumlarda çok yardımcı olmayabilir
Yine de arama motoru uygulamaları için fazlasıyla yeterli
Anlamsal entropi kavramını görünce, Enron skandalından sonra bir bankanın basın bültenlerindeki saçmalık düzeyini ölçen bir “bullshitometer” geliştirdiğini hatırladım
Bankanın adını hatırlamıyorum ama bunun Enron basın bültenlerine uygulanınca şirketin çöküşünü öngörebildiğini gösterdiklerini söylemişlerdi
İstatistikte duyarlılık analizi diye bir kavram var
Bu yöntem de bir ölçüde buna benziyor, ancak ilginç bir alternatif, girdiyi anlamı koruduğu düşünülen biçimlerde değiştirip çıktı anlamının nasıl değiştiğine bakmak olabilir
Elbette anlamı değiştirmeden girdiyi değiştirmek zor tarafı, ama tamamen imkansız görünmüyor
En azından LLM’ye anlamı değiştirmeden girdiyi yeniden yazmasını söylemek mümkün. Ancak model girdiyi yanlış anlamışsa, o yanlış anlama yönünde yeniden yazarak düzeltmeden sonra halüsinasyon çıktısıyla daha iyi uyuşan bir durum da ortaya çıkabilir
Anlamsal entropinin, anlam eşdeğerliğini tespit etmek üzere eğitilmiş bir LLM gerektirdiği varsayımıyla, halüsinasyonları daha iyi yakalayabileceğini anlıyorum
Ama anlam eşdeğerliğinin halüsinasyon sorununu doğrudan nasıl çözdüğü pek açık görünmüyor
Şimdilik bunun halüsinasyon tespiti için bir heuristikten ibaret olduğundan şüpheleniyorum
Üstelik bu tür vakaları yakalamak için anlam eşdeğerliği tespiti yapan ikinci bir LLM gerektirmesi gereksiz derecede karmaşık görünüyor
Eğer bir anlam eşdeğerliği veri kümesi varsa, ikinci bir LLM eğitmek yerine bunu ana LLM’in eğitim sürecine doğrudan dahil etmeyi düşünürdüm
- Bu araştırmayı eleştirecek kadar henüz tam anlamadım ama anlam eşdeğerliği veri kümeleri eğitime entegre edilebilir
  Yine de “anlam üzerinde iyi AUC elde etmek” gibi açık işlevleri birkaç tane karıştırarak, algısal hedefi belirsiz karmaşık bir modelin zayıflıklarını telafi etmeye çalışmak hâlâ tuhaf geliyor
  Bunları gerçekten iyi karıştırıp karıştırmadığımızı da bilmiyoruz; eğitime öngörmesi zor sonuçlar, riskler ve önyargılar katıp katmadığımızı da
  “Anlam eşdeğerliğini değerlendirebiliyor mu” gibi dar tanımlı görevlerde, bilinmeyen riski daha az olan daha iyi bir model üretilebilir ve bu model nispeten net biçimde uygulanırsa bilinmeyen risk de azalır
  Bu nedenle, belirli ve makul bir heuristiğe giden yolu hafifçe yanlı iki tahmin ediciyle kurmak, mevcut karmaşık karışıma veri ekleyip katkısının öngörülebilir olmasını ummaktan çok daha güvenli ve genel olabilir
- Halüsinasyonları yakalamak, birçok uygulamada oldukça faydalı
  Kamu kurumları için LLM yanıtlarında olgusal hataların etkisini azaltmaya yönelik araştırma yapıyorum; çünkü yanlış olgusal yanıt vermek yasa dışı olabilir
  Yeterli doğrulukla tespit edilebilirse sistem yanıt vermeyi reddedip kullanıcıdan kurumla iletişime geçmesini isteyebilir
  Elbette modelin baştan yanlış yanıt vermemesi için eğitilmesi daha iyi olurdu
  Gereksiz karmaşıklık, API üzerinden erişilen önceden eğitilmiş ticari kara kutu LLM kullanımında da ortaya çıkıyor. Ne yazık ki uygulamalarda LLM’ler çoğunlukla böyle kullanılıyor
  API üzerinden ince ayar yapmak mümkün olabilir ama bu tür büyük sentetik veri kümeleriyle uğraşırken zahmetli, sınırlı ve çok pahalı
  Yalnızca yazıyı okuyarak “anlamsal entropi”nin somut olarak nasıl hesaplandığını anlamak zordu. İlgilenenler için kod çok daha anlaşılır: https://github.com/jlko/semantic_uncertainty/blob/master/sem...
Oldukça zekice bir fikir. Aynı soruyu defalarca sorduğunuzda modelin farklı yanıt verip vermediğini kontrol etmeye dayanıyor
“Kontrol” başka bir model tarafından yapılıyor, “farklılık” ise entropiyle ölçülüyor

Büyük dil modellerinde halüsinasyonları anlamsal entropiyle tespit etmek

Tespit hedefi: tüm halüsinasyonlar değil, confabulation

Anlamsal entropinin temel fikri

Algoritma: örnekleme, anlamsal kümeleme, entropi hesaplama

QA ve matematik problemi değerlendirmesi

Reddetme tabanlı doğruluk ve değerlendirme metrikleri

Uzun biyografi üretimi: FactualBio deneyi

Sınırlamalar ve uygulanabilirlik

Veri ve kod

İlgili okumalar

1 yorum

Hacker News yorumları