- Büyük yapay zeka araştırma laboratuvarları arasında sonsuz ölçekleme stratejisine dair şüpheler artarken, model boyutunun gerçek dünyadaki doğruluğu garanti etmediğini gösteren bir örnek ortaya konuyor
- MIT lisanslı açık ağırlıklı model GLM-5.2, 753B parametre ve yaklaşık 40B aktif parametreyle GPT-5.5’e yalnızca 4 puan farkla yaklaşıyor
- AA-Omniscience halüsinasyon oranı GLM-5.2’de %28, GPT-5.5’te %86, DeepSeek V4 Pro’da %94 olarak ölçüldü; bu da belirsizlik kalibrasyonu farkının performans puanı kadar önemli hale geldiğini gösteriyor
- Python testinde DeepSeek V4 Pro, 3 dakika 52 saniye ve 7.7k reasoning token kullanmasına rağmen yanlış yanıt verdi; GLM-5.2 ise 12 saniye ve yaklaşık 800 token ile teknik imkansızlığı tespit etti
- Model seçimini yalnızca parametre sayısı ya da teorik performansa göre yapmak zor; ham yetenek, halüsinasyon oranı ve hesaplama verimliliğine birlikte bakmak gerekiyor
Model ölçekleme stratejisine yönelik şüpheler
- Başlıca yapay zeka laboratuvarları arasında, performansı artırmak için yalnızca parametre sayısını ve eğitim verisini büyütme yaklaşımına dair kuşkular artıyor
- Claude Fable 5, piyasaya çıktıktan 3 gün sonra ABD hükümeti tarafından kısıtlandı ve ulusal güvenlik kaynaklı ilk ABD yapay zeka yasağı vakası olarak ele alındı
- Dünyanın en büyük modellerinden birinin tek bir jailbreak riski nedeniyle yasaklanması, ölçekleme paradigmasının sınırlarını gösteren bir örnek olarak kullanılıyor
- Büyük modeller hâlâ Artificial Analysis Intelligence Index’te yüksek puanlar alıyor, ancak açık ağırlıklı modeller de aradaki farkı ciddi biçimde kapatıyor
- Z.ai’nin GLM-5.2 modeli, 753B parametre ve yaklaşık 40B aktif parametreye sahip MIT lisanslı açık ağırlıklı bir LLM
- GLM-5.2, Artificial Analysis Intelligence Index içinde GPT-5.5’in 4, Fable 5’in ise 9 puan gerisine kadar yaklaşıyor
- Kapalı modellerin GLM-5.2’den 1.5 ila 2 kat daha büyük olduğu tahmin edilirken, bu farkın daralması gerçek zekada plato olasılığını destekliyor
Halüsinasyon oranının ortaya çıkardığı belirsizlik kalibrasyonu sorunu
- Büyük miktarda olgusal ve teorik olmayan verilerle eğitilen modeller, bilmediklerinde bile yanıt üretmeye yönlendirilecek şekilde pekiştirilebilir
- AA-Omniscience benchmark üzerindeki halüsinasyon oranları, modeller arasında büyük farklar gösteriyor
- Halüsinasyon oranı karşılaştırması:
- DeepSeek V4 Pro: 1.6T parametre, 49B aktif parametre, AA Intelligence Index 44 puan, halüsinasyon oranı %94
- GLM-5.2: halüsinasyon oranı %28
- Opus 4.8: halüsinasyon oranı %36
- Fable 5: halüsinasyon oranı %48
- GPT-5.5: halüsinasyon oranı %86
- DeepSeek V4 Pro’nun %94 halüsinasyon oranı, yanıt bulamadığı sorularda yalnızca yaklaşık %6 oranında “bilmiyorum” dediği; geri kalan durumlarda ise kendinden emin ama yanlış yanıtlar verdiği anlamına geliyor
Python testinde ayrışan hesaplama verimliliği
- Karşılaştırma testi, belirgin bir mimari kusur içeren görece karmaşık bir Python sorusu üzerinden yapıldı
- Her iki model de OpenRouter üzerinde
highreasoning effort ve temperature 1 ile test edildi - Sistem prompt’u şu şekildeydi: “You respond professionally. You are a highly capable coding assistant well-versed in Python.”
- GLM-5.2, Z.ai tarafından FP8 precision ile; DeepSeek V4 Pro ise Baidu Qianfan tarafından FP8 precision ile sunuldu
- Her iki model de OpenRouter üzerinde
- DeepSeek V4 Pro, 3 dakika 52 saniye boyunca 7.7k reasoning token kullanmasına rağmen kendinden emin yanlış bir yanıt üretti
- GLM-5.2 ise yalnızca 12 saniye ve yaklaşık 800 reasoning token ile, single-threaded bir görevin yielding veya system polling olmadan multiplexed I/O gerçekleştirmesinin teknik olarak imkansız olduğu sonucuna vardı
- reasoning budget, külliyat boyutu ve parametre sayısını rastgele artırmak, yalnızca hesaplama israfına yol açıp kulağa makul gelen yanlış yanıtlar üretme riskini büyütebilir
- Çok büyük modeller bile “bilmiyorum” diyemeyebilir veya incelikli mantıksal ya da teknik hataları fark edemeyebilir; bu yüzden raw capability, uncertainty calibration/hallucination rate ve computational efficiency birlikte değerlendirilmeli
1 yorum
Hacker News görüşleri
Gerçek zekanın büyük ölçüde durakladığı ve bundan sonra daha büyük modeller eğitmenin zekayı yalnızca durdurmakla kalmayıp daha da kötüleştireceği, oldukça cüretkâr bir iddia
Daha büyük modellerin ve daha fazla verinin neden doğrudan daha fazla halüsinasyona yol açtığı sonucuna varıldığını anlamıyorum. Son birkaç yılda pratikte tam tersi görüldü; bazı modeller hâlâ daha fazla halüsinasyon üretebiliyor olsa da, mevcut modeller daha küçük ve çok daha az veriyle eğitilmiş ilk 175B ChatGPT'ye kıyasla çok daha az halüsinasyon görüyor
Büyük yapay zeka laboratuvarlarının sonsuz parametre sayısı ve eğitim verisi ölçeklendirmesine şüpheyle yaklaşmaya başlamasına dair alıntı nedeniyle veriden söz ettim. Şu anki durum, sektörün 1T altı modellerde bile hâlâ çıkarılacak çok şey gördüğünü düşündürüyor; ancak istenen yetenekleri açığa çıkarmak için bu dağılım içinde daha fazla ve daha yüksek kaliteli veriye ihtiyaç var gibi görünüyor
Zorlama mantık problemleri üretilebilir, ama İngilizce biçimsel mantık değildir; bu yüzden mesele çoğu zaman bir dil oyununa dönüşür. “Monty Hall” türü problemler de, farklı sunulduğunda apaçık hâle gelen ve aslında sadece insanlara ilginç gelen dil oyunlarına daha yakın
Sonuçta model eğitenler, eğitim derlemiyle, yani tarihte kayda geçmiş bütün insan üretiminin ezici sıradanlığıyla mücadele ediyor. Modeller geliştikçe sonraki aşama, bu sınırlamaları aşmak için insanla birlikte tasarlanan modeller olacak. Dili kullanma biçimimiz, problem çözme süreçlerimiz ve bugün “orchestration” dediğimiz şey de birlikte evrilecek
Eğer devasa bağlamları işleyebiliyor ve aynı kısıtları gerektirmiyorsa, gerçek dünya metaforları pek iyi uymuyor. Halüsinasyon ile ekstrapolasyonun ne kadar farklı olduğu gibi sorular da ortaya çıkıyor
LLM'lere yönelik şüphe ve kafa karışıklığının önemli bir kısmı, ortalama zekâya sahip birinin çok zeki birinin açıklamasını dinleyip saçmalık sanmasına, sonra da kibirli biçimde onu kaba olmakla suçlamasına çok benziyor
Kurtlar, insanın yanında yaşamaya uygun özellikler taşıyacak şekilde köpeklere dönüştürüldüyse, LLM'ler de bizim sınırlamalarımız, kibrimiz, estetik önyargılarımız ve peşin hükümlerimiz etrafında evrilecek. İnsanların çoğunun LLM'lerden istediği şey temelde zekâ ve akılcılık değil
İlgili alıntı, “model çok olgusal ve teorik olmayan büyük miktarda veriyle eğitilirse her zaman bir cevap verme yolunu öğrenir” kısmıydı
Dolayısıyla ortada iki ayrı iddia var. 1) Daha büyük modellerde performans plato yapıyor 2) Daha fazla olgusal veriyle eğitilen modellerin halüsinasyon oranı daha yüksek oluyor
1 numara oldukça bilinen bir şey. OpenAI’nin ölçekleme yasaları araştırmasının da yıllar önce parametre sayısı ve eğitim verisi miktarında azalan getiri gösterdiğini hatırlıyorum. 2 numara içinse, asıl metin dışında buna dair başka hangi dayanak var bilmiyorum
Belki de GPT-5.5, hesaplama, bellek ve enerji yetersizliği nedeniyle ciddi biçimde kısıtlanmıştır
Daha büyük modellerin tıkandığı sonucuna varmanın abartılı göründüğüne katılıyorum
Başından beri açık olduğu üzere, ölçekleme yasaları yalnızca temel veride tanımlanmış yeteneklerin bir kısmını mümkün kıldı ve yapay sinir ağlarının bunları gizil uzayda soyutlamasına izin verdi
Bunun “asgari uygulanabilir LLM”in nasıl göründüğü olup olmadığını merak ediyorum. Bir LLM'in ne kadar büyük olması gerekir ki, o noktadan sonra daha büyük bir bağlam penceresi ve PDF ya da Markdown dosyaları gibi dinamik bilgi içeriklerini içeri iterek eğitim verisi dışındaki bilgiyi verebilsin, bunu sık sık düşünüyorum
LLM'lerin daha fazla veriye değil, daha iyi rafine edilme sürecine ihtiyacı var gibi görünüyor
Halüsinasyon, görünüşte RLVR ile hedef alınması kolay bir sorun gibi görünüyor. Zaten doğru cevapla doğrulanan muazzam miktarda akıl yürütme izi üretiliyor; o halde “bilmiyorum”u geçerli bir cevap olarak ekleyip, binlerce akıl yürütme izinden hiçbirinin doğru cevaba ulaşamadığı sorularda “bilmiyorum”a ulaşan izleri eğitim verisine terfi ettirmek yeterli olmalı
Özünde modele “bilmiyorum”un geçerli bir cevap olduğunu öğretmek anlamına geliyor
Sam Altman da eskiden bu fikre ima eden bir blog yazısı yazmış gibiydi, dolayısıyla herkes için bariz bir fikir olmalı. O halde pratikte düşünüldüğü kadar kolay olmadığını varsaymak gerekiyor
Bildiğim kadarıyla rastgele tahminin, tüm sorulara “bilmiyorum” diye cevap vermekten daha düşük ortalama puan aldığı tek AI benchmark'ı AA-Omniscience
Ayrı bir “bilmiyorum” token'ı öğretmek, diğer tüm token'ların arasına bir hendek koymak gerektiği anlamına gelir. “Evet” ile “hayır” arasında ikisinin de görece yüksek olasılığa sahip olduğu bulanık bir gürültü bölgesi olması yerine, “bilmiyorum”un daha yüksek olduğu yeni bir tepe gerekir. Sonra yeniden “evet” ile “bilmiyorum”, “bilmiyorum” ile “hayır” arasında yeni bulanık bölgeler oluşur. Araya bir başka cevabı daha öğretmek istiyorsan çok daha incelikli olman gerekir
Bunun yerine birden fazla seçeneğin olasılıklarının neredeyse aynı olup olmadığını kontrol edebilirsin. Ancak ilk iki seçeneğin “Genève” ve “Geneva” gibi fiilen eşanlamlı olup bunun modelin cevabı bildiğine dair iyi bir işaret mi, yoksa “evet” ve “hayır” mı olduğunu da kontrol etmek gerekir
Mevcut mimaride açık alan görevlerinde halüsinasyonun kalıcı olarak varlığını sürdürmesi çok olası
Görev basitti. Sorgu, arama sonuçları ve cevap içeren MS-MARCO[0] veri kümesini kullanarak bir eğitim seti oluşturdum. 1) Gerçek dayanak sonuçlarıyla bazı ilgisiz sonuçların karıştırıldığı ve doğru cevabın eklendiği sorular 2) Yalnızca ilgisiz sonuçların eklendiği ve cevabın “No answer present” olarak bırakıldığı sorular
Veri kümesi neredeyse 1 milyon örnekle büyüktü ve SFT gibi veri kümesini taklit ettirmeye yönelik yöntemlerden, aynı kullanıcı sorgusuna verilen iyi ve kötü cevapları karşı karşıya koyan DPO'ya, cevap var/yok anotasyonlarını doğrulayan GRPO'ya kadar çeşitli tekniklerle eğitim yaptım
Sonuç olarak halüsinasyon azalmadı; aksine çok daha kötüleşti. Artık model, cevap gerçekten mevcut olsa bile ya da en baştan arama sonucu gerektirmeyen X+Y gibi basit sorularda bile “No answer present” demeye başladı
Elbette benim eğitimim, frontier laboratuvarların yapabileceklerine kıyasla ilkeldi denebilir. Yine de bunun daha temel bir sınıra işaret ettiğini düşünüyorum. LLM'ler zor sistemler; “arama sonucu listesini gör, bunu kullanıcı sorgusuyla ilişkisi açısından değerlendir ve cevapla ilgisi belirli bir eşikten düşükse cevabı kullanma” gibi şeyleri birinci ilkelerden temiz biçimde anlamıyorlar
Kısacası bu, göründüğü kadar basit değil ve belki de ulaşılamaz olabilir
0: https://huggingface.co/datasets/microsoft/ms_marco
Modelin daha sık “bilmiyorum” demesi yönünde ayar yapılabilir, ancak bunun bir performans maliyeti vardır. Anlamlı şekilde cevaplayabileceği bazı soruları da reddetmeye başlar. Uç durumda model, her zaman ya da neredeyse her zaman bu ifadeyi tahmin edecek şekilde çökebilir
Halüsinasyon oranı puanını yorumlamak biraz zor. Çünkü bu değer, modelin cevabı bilmediği durumlar koşuluna göre hesaplanıyor. Dolayısıyla günlük kullanımda halüsinasyonla karşılaşma olasılığını doğrudan ölçmüyor. Bu olasılık, modelin cevabı bilmeme ihtimaline ve kullanıcının görev dağılımının değerlendirme dağılımıyla ne kadar örtüştüğüne de bağlı
Bu halüsinasyon oranı farkını tamamen model boyutuna bağlamak da ihtiyat gerektiriyor. GLM-5.2, parametre sayısı iki kat fazla olan DeepSeek-V4 Pro'dan çok daha az halüsinasyon görüyor; ama DeepSeek-V4 Flash, GLM-5.2'nin yarısından da küçük olmasına rağmen AA-Omniscience halüsinasyon endeksinde 1. sırada
Opus 4.8'in DeepSeek-V4 Pro'dan büyük olma ihtimali yüksek ve endekste halüsinasyon oranı %36 ile GLM-5.2'nin %28'inden yüksek, ama DeepSeek rakamlarından çok daha düşük. Ayrıca Opus'un doğruluğu %47, GLM-5.2'ninki ise %25. Bu sayılarla mutlak halüsinasyon oranı, yani halüsinasyon içeren yanıt sayısının toplam yanıt sayısına bölünmesi hesaplanırsa Opus %19, GLM-5.2 ise %21 çıkıyor
Dolayısıyla diğer koşullar aynıysa büyük modeller, cevabı bilmedikleri durumlarda halüsinasyona daha yatkın olabilir; ancak halüsinasyon oranını etkileyen başka birçok etken de var ve bu metriğin takip edilmesi gereken temel metrik olup olmadığı da tamamen net değil
Bir olgu eğitim verisinde bir kez mi geçti, hiç mi geçmedi, on kez mi geçti, bin kez mi geçti; buna göre model neyi biliyor sayılır? Olgular olduğu gibi depolanmıyor, bileşenlerine ayrılıp ağırlıkların içinde sıkıştırılıyor
Aşırı baskın şekilde çok sık geçmeyen “benzer” olgular birlikte gruplanıyor ve sonunda birbirine karışıyor. Peki benzer olgu tam olarak nedir? Hangi olgu tamamen silinmiştir, hangisi başka şeylerle bir araya gelip havuzu kirletirken aynı anda akıl yürütme yeteneği de kazandırmıştır? Model hiçbir şey bilmez ve neyi bilip neyi bilmediğini de asla bilemez
Eğer Opus en zor sorular dışındaki her şeyi doğru yapıyorsa, yanlış yaptığı sorular doğrulaması ya da halüsinasyon tespiti en zor sorular olacağı için halüsinasyon oranı daha yüksek çıkabilir
ABD'deki frontier modele yakın maliyet yapısında, model ne zaman belirsiz kalıp arama yapıp yapmama arasında tereddüt etse sanki ona elektroşok uygulanıyormuş gibi bir şey var. Neredeyse tüm halüsinasyonlar aramadan kaçınma tepkisine karşılık geliyor
Ben modelin sırasını da beklemiyorum. Elimde man page ya da Hoogle sonucu varsa, onu doğrudan son prefix cache kesim noktasına enjekte ediyorum. Bunu yapmak daha avantajlı
Tüm kullanım senaryoları destek kapsamı dışına çıkma riski açısından eşitse önceki mantık doğru olurdu; ama birçok durumda bazı veri noktalarının destek kapsamı dışında olduğu zaten garantidir, bu yüzden bunu fark etme konusundaki mutlak yetenek önemlidir
GPT-5.5 ile DeepSeek V4 Pro'nun inanılmaz büyük olmalarına rağmen halüsinasyonda en belirgin şekilde önde gitmeleri, büyük model = daha yüksek halüsinasyon olasılığı gibi görünüyor. Bu benim deneyimimle örtüşmüyor
“Model çok olgusal ve teorik olmayan büyük hacimli verilerle eğitildiğinde her zaman bir cevap vermeyi öğrenir” kısmı ile DeepSeek V4 Pro'nun AA-Omniscience halüsinasyon oranının %94, GLM-5.2'nin %28, Opus 4.8'in %36, Fable 5'in %48, GPT-5.5'in %86 olması şaşırtıcı
Önceki çalışmalardan halüsinasyonun LLM'lerin temel sorunu olduğunu ve prompt injection gibi düzeltilmesi zor olabileceğini zaten biliyordum; ama oranların bu kadar kötü olduğunu bilmiyordum
Herkes en iyi modeller sanki yalnızca edge case'lerde halüsinasyon yapıyormuş gibi davrandı; ama burada en iyi performans gösteren GLM-5.2 bile bir şeyi “bilmediğinde” %28 oranında halüsinasyon yapıyor
Yine de blog başlığındaki “Bigger models are not the way” ifadesi bana daha yerinde geliyor ve asıl daha büyük haber olması gereken noktaya temas ediyor. Eğer daha büyük modeller ve daha büyük eğitim setleri artık orantılı getiri sağlamıyorsa, muhtemelen zaten S-eğrisinin üst kısmına yaklaşmışızdır. OpenAI ya da xAI gibi şirketlerin değerlemelerinin, bu modellerin sonsuza kadar ölçeklenebileceği gibi absürt bir fikre ciddi biçimde dayanıyor olduğunu düşününce bu çok büyük haber
Soru token'ları sadece yanıt token'larını tanımlar. İşin özü, ilgili ağırlıkları birlikte kümelendirmekte
Eğer mesele sadece benchmark puanlarını azamiye çıkarmaksa daha büyük her zaman daha iyi olmayabilir; ama genel zeka ve büyük modellere özgü o his söz konusu olduğunda durum hiç de öyle değil
Açık kaynak modeller etkileyici, ancak Opus ya da 5.5 ile karşılaştırınca benchmark'ta iyi uyum sağlanmış dar problem kümelerinin dışına çıkıldığı anda ne kadar hızlı dağıldıkları oldukça açık
Halüsinasyon oranının model boyutundan değil, eğitim biçiminden kaynaklandığını düşünüyorum. Modeller, iyi kurgulanmış soruların ve iyi düzenlenmiş, doğru yanıtların ezici çoğunlukta olduğu devasa bir derlem üzerinde eğitildi. Özellikle kitaplar böyle; kitaplar ilgili alanın uzmanları tarafından sıkı biçimde kürasyonlanmış materyallerdir
Kitaplarda, cevabı olmayan sorular sorulup da o sorunun neden ve nasıl cevapsız olduğunun akıl yürütülerek açıklandığı örnekler neredeyse hiç görülmez. İyi bir soru sorduktan sonra dürüstçe cevabı bilmediğini açıklayan kitaplar da neredeyse yoktur. Çünkü kürasyon sürecinde, yazarın cevabını bilmediği sorular tartışmanın dışında bırakılır
Ayrıca RLHF sırasında laboratuvarların, çözümü olan ve ilginç yanıt üreten sorulara yanlı davrandığını, iyi bir yanıtı olmayan “kötü” soruların ise yeterince temsil edilmediğini düşünüyorum. Modelin bilmediğini kabul etmesi gereken sorulara RLHF açısından daha az emek harcanmış olması da çok muhtemel
İnsanlar ise yaşamları boyunca gerçek dünyada doğrudan cevabını bilmedikleri sorularla karşılaşarak öğrendi ve bir şeyi bilmediklerini ya da emin olmadıklarını çok hızlı değerlendirmeyi öğrendi
Bir de insanlarda, LLM’lerde olmayan korku var. İnsan beyninde mantıksal düşünme kısmından ayrı çalışan amigdala korku sinyali üretir; bunun sonucu olarak da ne söylediğimiz konusunda çok daha dikkatli oluruz. Buna karşılık LLM’lerde amigdala benzeri bir korku organı yoktur ve onlar sadece eğitim derlemindeki kalıplara göre yanıt vermeyi öğrenir. Yanlış cevap verip mahcup olmaktan ya da işten atılmaktan “korkmadıkları” için, tamamen yanlış cevapları bile gayet hevesli biçimde ortaya koyabilirler
Bu yüzden halüsinasyon oranı eğitimle iyileştirilebilir, ancak şu anda laboratuvarlar en zeki ve en yetenekli modeli üretmeye yönelik yüksek riskli rekabet yüzünden o tarafa optimizasyon yapmıyor
Alternatif olarak, LLM’e amigdala benzeri ayrı bir organ eklenebileceğini düşünüyorum. Bu organ, kullanıcı istemi ile LLM’in düşünce izlerini temel alarak eşzamansız biçimde sinyal gönderip LLM çıkarımına korku sinyali enjekte edebilir ve onu daha güvenli yanıtlara yönlendirebilir
Bu yüzden “azami eğitim verisi boyutu”na yönelik yarışın istemeden aşırı uyuma yol açtığını düşünüyorum. Ölümcül düzeyde değil ama model içinde her şeyi biliyormuş gibi görünen bir algıyı tetikleyecek kadar var