GPT-5.5, MIT lisanslı GLM-5.2’ye göre 3 kat daha yüksek halüsinasyon oranına sahip

(arrowtsx.dev)

1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş

Büyük yapay zeka araştırma laboratuvarları arasında sonsuz ölçekleme stratejisine dair şüpheler artarken, model boyutunun gerçek dünyadaki doğruluğu garanti etmediğini gösteren bir örnek ortaya konuyor
MIT lisanslı açık ağırlıklı model GLM-5.2, 753B parametre ve yaklaşık 40B aktif parametreyle GPT-5.5’e yalnızca 4 puan farkla yaklaşıyor
AA-Omniscience halüsinasyon oranı GLM-5.2’de %28, GPT-5.5’te %86, DeepSeek V4 Pro’da %94 olarak ölçüldü; bu da belirsizlik kalibrasyonu farkının performans puanı kadar önemli hale geldiğini gösteriyor
Python testinde DeepSeek V4 Pro, 3 dakika 52 saniye ve 7.7k reasoning token kullanmasına rağmen yanlış yanıt verdi; GLM-5.2 ise 12 saniye ve yaklaşık 800 token ile teknik imkansızlığı tespit etti
Model seçimini yalnızca parametre sayısı ya da teorik performansa göre yapmak zor; ham yetenek, halüsinasyon oranı ve hesaplama verimliliğine birlikte bakmak gerekiyor

Model ölçekleme stratejisine yönelik şüpheler

Başlıca yapay zeka laboratuvarları arasında, performansı artırmak için yalnızca parametre sayısını ve eğitim verisini büyütme yaklaşımına dair kuşkular artıyor
Claude Fable 5, piyasaya çıktıktan 3 gün sonra ABD hükümeti tarafından kısıtlandı ve ulusal güvenlik kaynaklı ilk ABD yapay zeka yasağı vakası olarak ele alındı
- Dünyanın en büyük modellerinden birinin tek bir jailbreak riski nedeniyle yasaklanması, ölçekleme paradigmasının sınırlarını gösteren bir örnek olarak kullanılıyor
Büyük modeller hâlâ Artificial Analysis Intelligence Index’te yüksek puanlar alıyor, ancak açık ağırlıklı modeller de aradaki farkı ciddi biçimde kapatıyor
- Z.ai’nin GLM-5.2 modeli, 753B parametre ve yaklaşık 40B aktif parametreye sahip MIT lisanslı açık ağırlıklı bir LLM
- GLM-5.2, Artificial Analysis Intelligence Index içinde GPT-5.5’in 4, Fable 5’in ise 9 puan gerisine kadar yaklaşıyor
- Kapalı modellerin GLM-5.2’den 1.5 ila 2 kat daha büyük olduğu tahmin edilirken, bu farkın daralması gerçek zekada plato olasılığını destekliyor

Halüsinasyon oranının ortaya çıkardığı belirsizlik kalibrasyonu sorunu

Büyük miktarda olgusal ve teorik olmayan verilerle eğitilen modeller, bilmediklerinde bile yanıt üretmeye yönlendirilecek şekilde pekiştirilebilir
AA-Omniscience benchmark üzerindeki halüsinasyon oranları, modeller arasında büyük farklar gösteriyor
- Halüsinasyon oranı karşılaştırması: {b:94,28,36,48,86}
- DeepSeek V4 Pro: 1.6T parametre, 49B aktif parametre, AA Intelligence Index 44 puan, halüsinasyon oranı %94
- GLM-5.2: halüsinasyon oranı %28
- Opus 4.8: halüsinasyon oranı %36
- Fable 5: halüsinasyon oranı %48
- GPT-5.5: halüsinasyon oranı %86
DeepSeek V4 Pro’nun %94 halüsinasyon oranı, yanıt bulamadığı sorularda yalnızca yaklaşık %6 oranında “bilmiyorum” dediği; geri kalan durumlarda ise kendinden emin ama yanlış yanıtlar verdiği anlamına geliyor

Python testinde ayrışan hesaplama verimliliği

Karşılaştırma testi, belirgin bir mimari kusur içeren görece karmaşık bir Python sorusu üzerinden yapıldı
- Her iki model de OpenRouter üzerinde high reasoning effort ve temperature 1 ile test edildi
- Sistem prompt’u şu şekildeydi: “You respond professionally. You are a highly capable coding assistant well-versed in Python.”
- GLM-5.2, Z.ai tarafından FP8 precision ile; DeepSeek V4 Pro ise Baidu Qianfan tarafından FP8 precision ile sunuldu
DeepSeek V4 Pro, 3 dakika 52 saniye boyunca 7.7k reasoning token kullanmasına rağmen kendinden emin yanlış bir yanıt üretti
GLM-5.2 ise yalnızca 12 saniye ve yaklaşık 800 reasoning token ile, single-threaded bir görevin yielding veya system polling olmadan multiplexed I/O gerçekleştirmesinin teknik olarak imkansız olduğu sonucuna vardı
reasoning budget, külliyat boyutu ve parametre sayısını rastgele artırmak, yalnızca hesaplama israfına yol açıp kulağa makul gelen yanlış yanıtlar üretme riskini büyütebilir
Çok büyük modeller bile “bilmiyorum” diyemeyebilir veya incelikli mantıksal ya da teknik hataları fark edemeyebilir; bu yüzden raw capability, uncertainty calibration/hallucination rate ve computational efficiency birlikte değerlendirilmeli

1 yorum

GN⁺ 4 시간 전

Hacker News görüşleri

Gerçek zekanın büyük ölçüde durakladığı ve bundan sonra daha büyük modeller eğitmenin zekayı yalnızca durdurmakla kalmayıp daha da kötüleştireceği, oldukça cüretkâr bir iddia
Daha büyük modellerin ve daha fazla verinin neden doğrudan daha fazla halüsinasyona yol açtığı sonucuna varıldığını anlamıyorum. Son birkaç yılda pratikte tam tersi görüldü; bazı modeller hâlâ daha fazla halüsinasyon üretebiliyor olsa da, mevcut modeller daha küçük ve çok daha az veriyle eğitilmiş ilk 175B ChatGPT'ye kıyasla çok daha az halüsinasyon görüyor
Büyük yapay zeka laboratuvarlarının sonsuz parametre sayısı ve eğitim verisi ölçeklendirmesine şüpheyle yaklaşmaya başlamasına dair alıntı nedeniyle veriden söz ettim. Şu anki durum, sektörün 1T altı modellerde bile hâlâ çıkarılacak çok şey gördüğünü düşündürüyor; ancak istenen yetenekleri açığa çıkarmak için bu dağılım içinde daha fazla ve daha yüksek kaliteli veriye ihtiyaç var gibi görünüyor
- Bir modeli şu ankinden daha akıllı hâle getirmek için eğitilecek vakalar ve örnekler gerekir; ama insan muhakemesinin en üst yüzdelik dilimine yaklaştıkça böyle materyaller aşırı derecede azalıyor
  Zorlama mantık problemleri üretilebilir, ama İngilizce biçimsel mantık değildir; bu yüzden mesele çoğu zaman bir dil oyununa dönüşür. “Monty Hall” türü problemler de, farklı sunulduğunda apaçık hâle gelen ve aslında sadece insanlara ilginç gelen dil oyunlarına daha yakın
  Sonuçta model eğitenler, eğitim derlemiyle, yani tarihte kayda geçmiş bütün insan üretiminin ezici sıradanlığıyla mücadele ediyor. Modeller geliştikçe sonraki aşama, bu sınırlamaları aşmak için insanla birlikte tasarlanan modeller olacak. Dili kullanma biçimimiz, problem çözme süreçlerimiz ve bugün “orchestration” dediğimiz şey de birlikte evrilecek
  Eğer devasa bağlamları işleyebiliyor ve aynı kısıtları gerektirmiyorsa, gerçek dünya metaforları pek iyi uymuyor. Halüsinasyon ile ekstrapolasyonun ne kadar farklı olduğu gibi sorular da ortaya çıkıyor
  LLM'lere yönelik şüphe ve kafa karışıklığının önemli bir kısmı, ortalama zekâya sahip birinin çok zeki birinin açıklamasını dinleyip saçmalık sanmasına, sonra da kibirli biçimde onu kaba olmakla suçlamasına çok benziyor
  Kurtlar, insanın yanında yaşamaya uygun özellikler taşıyacak şekilde köpeklere dönüştürüldüyse, LLM'ler de bizim sınırlamalarımız, kibrimiz, estetik önyargılarımız ve peşin hükümlerimiz etrafında evrilecek. İnsanların çoğunun LLM'lerden istediği şey temelde zekâ ve akılcılık değil
- Alıntı, “daha büyük model + daha fazla veri = daha fazla halüsinasyon” demiyordu. Daha büyük modeller için söylenen şey zekânın duraklamasıydı; daha fazla veri ya da halüsinasyon artışıyla ilgili bir ifade yoktu
  İlgili alıntı, “model çok olgusal ve teorik olmayan büyük miktarda veriyle eğitilirse her zaman bir cevap verme yolunu öğrenir” kısmıydı
  Dolayısıyla ortada iki ayrı iddia var. 1) Daha büyük modellerde performans plato yapıyor 2) Daha fazla olgusal veriyle eğitilen modellerin halüsinasyon oranı daha yüksek oluyor
  1 numara oldukça bilinen bir şey. OpenAI’nin ölçekleme yasaları araştırmasının da yıllar önce parametre sayısı ve eğitim verisi miktarında azalan getiri gösterdiğini hatırlıyorum. 2 numara içinse, asıl metin dışında buna dair başka hangi dayanak var bilmiyorum
- Halüsinasyonlar hesaplama miktarı ve bellek kapasitesinden de ciddi biçimde etkilenmiyor mu? Şirketler ajan tarzı yapılarda sonuç doğrulamaya daha fazla zaman ayırabiliyor, daha fazla düşünme token’ı kullanabiliyor ve daha az kuantizasyon yapabiliyor. Bunların hepsi büyük ölçüde hesaplama ve belleğe bağlı ama halüsinasyonları azalttığı da gösterildi
  Belki de GPT-5.5, hesaplama, bellek ve enerji yetersizliği nedeniyle ciddi biçimde kısıtlanmıştır
  Daha büyük modellerin tıkandığı sonucuna varmanın abartılı göründüğüne katılıyorum
- Büyük yapay zeka laboratuvarlarının sonsuz parametre sayısı ve eğitim verisi ölçeklendirmesine şüpheyle yaklaşmasının asıl nedeni büyük olasılıkla eğitim verisinin kalitesi. Bu tartışmalarda bunun neden pek dile getirilmediğini anlamıyorum
  Başından beri açık olduğu üzere, ölçekleme yasaları yalnızca temel veride tanımlanmış yeteneklerin bir kısmını mümkün kıldı ve yapay sinir ağlarının bunları gizil uzayda soyutlamasına izin verdi
- Bu aşırı uyum değil mi? Veri daha fazla ama o veride olmayan bir şey sorulduğunda halüsinasyon ortaya çıkıyor gibi
Bunun “asgari uygulanabilir LLM”in nasıl göründüğü olup olmadığını merak ediyorum. Bir LLM'in ne kadar büyük olması gerekir ki, o noktadan sonra daha büyük bir bağlam penceresi ve PDF ya da Markdown dosyaları gibi dinamik bilgi içeriklerini içeri iterek eğitim verisi dışındaki bilgiyi verebilsin, bunu sık sık düşünüyorum
LLM'lerin daha fazla veriye değil, daha iyi rafine edilme sürecine ihtiyacı var gibi görünüyor
Halüsinasyon, görünüşte RLVR ile hedef alınması kolay bir sorun gibi görünüyor. Zaten doğru cevapla doğrulanan muazzam miktarda akıl yürütme izi üretiliyor; o halde “bilmiyorum”u geçerli bir cevap olarak ekleyip, binlerce akıl yürütme izinden hiçbirinin doğru cevaba ulaşamadığı sorularda “bilmiyorum”a ulaşan izleri eğitim verisine terfi ettirmek yeterli olmalı
Özünde modele “bilmiyorum”un geçerli bir cevap olduğunu öğretmek anlamına geliyor
Sam Altman da eskiden bu fikre ima eden bir blog yazısı yazmış gibiydi, dolayısıyla herkes için bariz bir fikir olmalı. O halde pratikte düşünüldüğü kadar kolay olmadığını varsaymak gerekiyor
- Bunun nedeni, neredeyse tüm benchmark'ların doğruysa 1 puan, diğer durumlarda 0 puan vererek doğruluğu ölçmesi. Güvenin %10 olduğu 100 sorunun hepsine “bilmiyorum” diye cevap verirsen 0 puan alırsın, ama hepsine kendinden emin şekilde cevap verirsen beklenen değer 10 puandır. Bu yüzden çoğu yapay zeka bu şekilde eğitiliyor
  Bildiğim kadarıyla rastgele tahminin, tüm sorulara “bilmiyorum” diye cevap vermekten daha düşük ortalama puan aldığı tek AI benchmark'ı AA-Omniscience
- Sorunun, LLM çıktısında ve araçların bunu yorumlama biçiminde olduğunu düşünüyorum. Çıktı, mümkün olan tüm sonraki token'ların olasılık dağılımıdır. Tüm token'ların olasılığı çok düşük olsa bile, toplam olasılığın 1 olması için normalize edilir. O aşamadan sonra modelin belirli bir token'ı gerçekten güçlü biçimde tercih edip etmediğini mi, yoksa büyütülmüş gürültü mü gördüğümüzü ayırt etmek zorlaşır
  Ayrı bir “bilmiyorum” token'ı öğretmek, diğer tüm token'ların arasına bir hendek koymak gerektiği anlamına gelir. “Evet” ile “hayır” arasında ikisinin de görece yüksek olasılığa sahip olduğu bulanık bir gürültü bölgesi olması yerine, “bilmiyorum”un daha yüksek olduğu yeni bir tepe gerekir. Sonra yeniden “evet” ile “bilmiyorum”, “bilmiyorum” ile “hayır” arasında yeni bulanık bölgeler oluşur. Araya bir başka cevabı daha öğretmek istiyorsan çok daha incelikli olman gerekir
  Bunun yerine birden fazla seçeneğin olasılıklarının neredeyse aynı olup olmadığını kontrol edebilirsin. Ancak ilk iki seçeneğin “Genève” ve “Geneva” gibi fiilen eşanlamlı olup bunun modelin cevabı bildiğine dair iyi bir işaret mi, yoksa “evet” ve “hayır” mı olduğunu da kontrol etmek gerekir
- Asıl sorun, halüsinasyon bastırmanın genellenmemesi. Çeşitli sorularda yanlış cevapları cezalandırabilirsin, ama bu tutarlı bir dünya görüşünün ortaya çıkmasına yol açmaz. Halüsinasyona gerçek çözüm ancak mantık yürütme becerisiyle birleşmiş tutarlı bir dünya görüşüdür
  Mevcut mimaride açık alan görevlerinde halüsinasyonun kalıcı olarak varlığını sürdürmesi çok olası
- O kadar basit değil. Bu soruyu merak ettiğim için geçmişte tam olarak bunu hedefleyerek LLM eğitmeyi denedim
  Görev basitti. Sorgu, arama sonuçları ve cevap içeren MS-MARCO[0] veri kümesini kullanarak bir eğitim seti oluşturdum. 1) Gerçek dayanak sonuçlarıyla bazı ilgisiz sonuçların karıştırıldığı ve doğru cevabın eklendiği sorular 2) Yalnızca ilgisiz sonuçların eklendiği ve cevabın “No answer present” olarak bırakıldığı sorular
  Veri kümesi neredeyse 1 milyon örnekle büyüktü ve SFT gibi veri kümesini taklit ettirmeye yönelik yöntemlerden, aynı kullanıcı sorgusuna verilen iyi ve kötü cevapları karşı karşıya koyan DPO'ya, cevap var/yok anotasyonlarını doğrulayan GRPO'ya kadar çeşitli tekniklerle eğitim yaptım
  Sonuç olarak halüsinasyon azalmadı; aksine çok daha kötüleşti. Artık model, cevap gerçekten mevcut olsa bile ya da en baştan arama sonucu gerektirmeyen X+Y gibi basit sorularda bile “No answer present” demeye başladı
  Elbette benim eğitimim, frontier laboratuvarların yapabileceklerine kıyasla ilkeldi denebilir. Yine de bunun daha temel bir sınıra işaret ettiğini düşünüyorum. LLM'ler zor sistemler; “arama sonucu listesini gör, bunu kullanıcı sorgusuyla ilişkisi açısından değerlendir ve cevapla ilgisi belirli bir eşikten düşükse cevabı kullanma” gibi şeyleri birinci ilkelerden temiz biçimde anlamıyorlar
  Kısacası bu, göründüğü kadar basit değil ve belki de ulaşılamaz olabilir
  0: https://huggingface.co/datasets/microsoft/ms_marco
- Eğer böyle bir ödül fonksiyonu kullanılabiliyorsa, LLM'e gerek yoktur; o ödül fonksiyonuna sorgu gönderip her türlü soruyu cevaplamak yeterlidir. Benchmark oluşturup otomatik kontrol yapılabilir, ama genel durumda bu çözülemez. Model benchmark'larda iyi performans gösterse bile, benchmark'ın kapsamadığı alanlarda hâlâ aşırı özgüvenli cevaplar verebilir
  Modelin daha sık “bilmiyorum” demesi yönünde ayar yapılabilir, ancak bunun bir performans maliyeti vardır. Anlamlı şekilde cevaplayabileceği bazı soruları da reddetmeye başlar. Uç durumda model, her zaman ya da neredeyse her zaman bu ifadeyi tahmin edecek şekilde çökebilir
Halüsinasyon oranı puanını yorumlamak biraz zor. Çünkü bu değer, modelin cevabı bilmediği durumlar koşuluna göre hesaplanıyor. Dolayısıyla günlük kullanımda halüsinasyonla karşılaşma olasılığını doğrudan ölçmüyor. Bu olasılık, modelin cevabı bilmeme ihtimaline ve kullanıcının görev dağılımının değerlendirme dağılımıyla ne kadar örtüştüğüne de bağlı
Bu halüsinasyon oranı farkını tamamen model boyutuna bağlamak da ihtiyat gerektiriyor. GLM-5.2, parametre sayısı iki kat fazla olan DeepSeek-V4 Pro'dan çok daha az halüsinasyon görüyor; ama DeepSeek-V4 Flash, GLM-5.2'nin yarısından da küçük olmasına rağmen AA-Omniscience halüsinasyon endeksinde 1. sırada
Opus 4.8'in DeepSeek-V4 Pro'dan büyük olma ihtimali yüksek ve endekste halüsinasyon oranı %36 ile GLM-5.2'nin %28'inden yüksek, ama DeepSeek rakamlarından çok daha düşük. Ayrıca Opus'un doğruluğu %47, GLM-5.2'ninki ise %25. Bu sayılarla mutlak halüsinasyon oranı, yani halüsinasyon içeren yanıt sayısının toplam yanıt sayısına bölünmesi hesaplanırsa Opus %19, GLM-5.2 ise %21 çıkıyor
Dolayısıyla diğer koşullar aynıysa büyük modeller, cevabı bilmedikleri durumlarda halüsinasyona daha yatkın olabilir; ancak halüsinasyon oranını etkileyen başka birçok etken de var ve bu metriğin takip edilmesi gereken temel metrik olup olmadığı da tamamen net değil
- Katılmıyor değilim ama aynı zamanda model, bu kadar ikili bir anlamda bir şeyi gerçekten “bilen” bir varlık da değil. Basit bir açıklama gibi görünse de aslında oldukça incelikli
  Bir olgu eğitim verisinde bir kez mi geçti, hiç mi geçmedi, on kez mi geçti, bin kez mi geçti; buna göre model neyi biliyor sayılır? Olgular olduğu gibi depolanmıyor, bileşenlerine ayrılıp ağırlıkların içinde sıkıştırılıyor
  Aşırı baskın şekilde çok sık geçmeyen “benzer” olgular birlikte gruplanıyor ve sonunda birbirine karışıyor. Peki benzer olgu tam olarak nedir? Hangi olgu tamamen silinmiştir, hangisi başka şeylerle bir araya gelip havuzu kirletirken aynı anda akıl yürütme yeteneği de kazandırmıştır? Model hiçbir şey bilmez ve neyi bilip neyi bilmediğini de asla bilemez
- Belki de soru ne kadar kolaysa modelin cevabı bilmediğini fark etmesi de o kadar kolay olabilir
  Eğer Opus en zor sorular dışındaki her şeyi doğru yapıyorsa, yanlış yaptığı sorular doğrulaması ya da halüsinasyon tespiti en zor sorular olacağı için halüsinasyon oranı daha yüksek çıkabilir
- Bu galiba varsayımsal sorularla test edilebilir. Bilgi kesim tarihinden sonra gerçekleşmemiş olaylar sorulabilir ya da gerçekten çözülmesi imkansız şeyler sorulabilir
- Halüsinasyona “temellendirme başarısızlığı” demek gerekir
  ABD'deki frontier modele yakın maliyet yapısında, model ne zaman belirsiz kalıp arama yapıp yapmama arasında tereddüt etse sanki ona elektroşok uygulanıyormuş gibi bir şey var. Neredeyse tüm halüsinasyonlar aramadan kaçınma tepkisine karşılık geliyor
  Ben modelin sırasını da beklemiyorum. Elimde man page ya da Hoogle sonucu varsa, onu doğrudan son prefix cache kesim noktasına enjekte ediyorum. Bunu yapmak daha avantajlı
- Burada yaygın bir başarısızlık modu olan bilgi kesim tarihinden sonraki bilgi eksik. O tarihten sonraki bilgi gerekiyorsa model boyutundan bağımsız olarak başarısız olunur; bu yüzden halüsinasyon oranı bilgi tabanından bağımsız olarak önemli olabilir
  Tüm kullanım senaryoları destek kapsamı dışına çıkma riski açısından eşitse önceki mantık doğru olurdu; ama birçok durumda bazı veri noktalarının destek kapsamı dışında olduğu zaten garantidir, bu yüzden bunu fark etme konusundaki mutlak yetenek önemlidir
GPT-5.5 ile DeepSeek V4 Pro'nun inanılmaz büyük olmalarına rağmen halüsinasyonda en belirgin şekilde önde gitmeleri, büyük model = daha yüksek halüsinasyon olasılığı gibi görünüyor. Bu benim deneyimimle örtüşmüyor
- Bunun anlamı, cevabı bilmediğinde halüsinasyon yapma ihtimalinin daha yüksek olması gibi görünüyor. Büyük modeller küçük modellere göre doğru cevabı daha sık verebilir; ama yanıldıklarında “bilmiyorum” demek yerine uydurma yapmaya daha yatkın olabilirler
“Model çok olgusal ve teorik olmayan büyük hacimli verilerle eğitildiğinde her zaman bir cevap vermeyi öğrenir” kısmı ile DeepSeek V4 Pro'nun AA-Omniscience halüsinasyon oranının %94, GLM-5.2'nin %28, Opus 4.8'in %36, Fable 5'in %48, GPT-5.5'in %86 olması şaşırtıcı
Önceki çalışmalardan halüsinasyonun LLM'lerin temel sorunu olduğunu ve prompt injection gibi düzeltilmesi zor olabileceğini zaten biliyordum; ama oranların bu kadar kötü olduğunu bilmiyordum
Herkes en iyi modeller sanki yalnızca edge case'lerde halüsinasyon yapıyormuş gibi davrandı; ama burada en iyi performans gösteren GLM-5.2 bile bir şeyi “bilmediğinde” %28 oranında halüsinasyon yapıyor
Yine de blog başlığındaki “Bigger models are not the way” ifadesi bana daha yerinde geliyor ve asıl daha büyük haber olması gereken noktaya temas ediyor. Eğer daha büyük modeller ve daha büyük eğitim setleri artık orantılı getiri sağlamıyorsa, muhtemelen zaten S-eğrisinin üst kısmına yaklaşmışızdır. OpenAI ya da xAI gibi şirketlerin değerlemelerinin, bu modellerin sonsuza kadar ölçeklenebileceği gibi absürt bir fikre ciddi biçimde dayanıyor olduğunu düşününce bu çok büyük haber
- LLM'lerde Wikipedia'daki anlamıyla bir bilgi kavramı yok
  Soru token'ları sadece yanıt token'larını tanımlar. İşin özü, ilgili ağırlıkları birlikte kümelendirmekte
- Başlık konusunda katılıyorum, benim hatamdı. Özellikle kodlama ajanlarında bu tür “frontier” modelleri kullanırken gerçekten korkunç şeyler yaşadım; kod tabanı hakkında sık sık olgu uyduruyorlardı
Eğer mesele sadece benchmark puanlarını azamiye çıkarmaksa daha büyük her zaman daha iyi olmayabilir; ama genel zeka ve büyük modellere özgü o his söz konusu olduğunda durum hiç de öyle değil
Açık kaynak modeller etkileyici, ancak Opus ya da 5.5 ile karşılaştırınca benchmark'ta iyi uyum sağlanmış dar problem kümelerinin dışına çıkıldığı anda ne kadar hızlı dağıldıkları oldukça açık
Halüsinasyon oranının model boyutundan değil, eğitim biçiminden kaynaklandığını düşünüyorum. Modeller, iyi kurgulanmış soruların ve iyi düzenlenmiş, doğru yanıtların ezici çoğunlukta olduğu devasa bir derlem üzerinde eğitildi. Özellikle kitaplar böyle; kitaplar ilgili alanın uzmanları tarafından sıkı biçimde kürasyonlanmış materyallerdir
Kitaplarda, cevabı olmayan sorular sorulup da o sorunun neden ve nasıl cevapsız olduğunun akıl yürütülerek açıklandığı örnekler neredeyse hiç görülmez. İyi bir soru sorduktan sonra dürüstçe cevabı bilmediğini açıklayan kitaplar da neredeyse yoktur. Çünkü kürasyon sürecinde, yazarın cevabını bilmediği sorular tartışmanın dışında bırakılır
Ayrıca RLHF sırasında laboratuvarların, çözümü olan ve ilginç yanıt üreten sorulara yanlı davrandığını, iyi bir yanıtı olmayan “kötü” soruların ise yeterince temsil edilmediğini düşünüyorum. Modelin bilmediğini kabul etmesi gereken sorulara RLHF açısından daha az emek harcanmış olması da çok muhtemel
İnsanlar ise yaşamları boyunca gerçek dünyada doğrudan cevabını bilmedikleri sorularla karşılaşarak öğrendi ve bir şeyi bilmediklerini ya da emin olmadıklarını çok hızlı değerlendirmeyi öğrendi
Bir de insanlarda, LLM’lerde olmayan korku var. İnsan beyninde mantıksal düşünme kısmından ayrı çalışan amigdala korku sinyali üretir; bunun sonucu olarak da ne söylediğimiz konusunda çok daha dikkatli oluruz. Buna karşılık LLM’lerde amigdala benzeri bir korku organı yoktur ve onlar sadece eğitim derlemindeki kalıplara göre yanıt vermeyi öğrenir. Yanlış cevap verip mahcup olmaktan ya da işten atılmaktan “korkmadıkları” için, tamamen yanlış cevapları bile gayet hevesli biçimde ortaya koyabilirler
Bu yüzden halüsinasyon oranı eğitimle iyileştirilebilir, ancak şu anda laboratuvarlar en zeki ve en yetenekli modeli üretmeye yönelik yüksek riskli rekabet yüzünden o tarafa optimizasyon yapmıyor
Alternatif olarak, LLM’e amigdala benzeri ayrı bir organ eklenebileceğini düşünüyorum. Bu organ, kullanıcı istemi ile LLM’in düşünce izlerini temel alarak eşzamansız biçimde sinyal gönderip LLM çıkarımına korku sinyali enjekte edebilir ve onu daha güvenli yanıtlara yönlendirebilir
- Model boyutunun doğrudan neden olmadığına kesinlikle katılıyorum. Yine de parametre sayısı daha yüksek olan modellerin, aşırı uyum ya da yetersiz uyumdan kaçınmak için daha fazla eğitim verisine ihtiyaç duyduğu gerçeği var
  Bu yüzden “azami eğitim verisi boyutu”na yönelik yarışın istemeden aşırı uyuma yol açtığını düşünüyorum. Ölümcül düzeyde değil ama model içinde her şeyi biliyormuş gibi görünen bir algıyı tetikleyecek kadar var
- Skinner olsaydı, korku ya da açgözlülük gibi duygulardan ziyade bunun bir sonuç meselesi olduğunu söylerdi

GPT-5.5, MIT lisanslı GLM-5.2’ye göre 3 kat daha yüksek halüsinasyon oranına sahip

Model ölçekleme stratejisine yönelik şüpheler

Halüsinasyon oranının ortaya çıkardığı belirsizlik kalibrasyonu sorunu

Python testinde ayrışan hesaplama verimliliği

İlgili okumalar

1 yorum

Hacker News görüşleri