- GPTZero’nun Hallucination Check aracı, NeurIPS 2025’te kabul edilen 5.290 makaleden 4.841’ini analiz ederek 100’den fazla ‘halüsinasyon kaynak gösterimi (hallucinated citations)’ tespit etti
- Çok sayıda makalede var olmayan yazarlar, hatalı DOI ve URL’ler, uydurulmuş başlıklar gibi AI üretimi izler bulundu
- GPTZero bu tür hataları ‘vibe citing’ olarak tanımlıyor; bunu, gerçek makale bilgilerinin karıştırılıp dönüştürülerek inandırıcı görünen kaynak gösterimlerine dönüştürülmesi olarak açıklıyor
- Tüm vakalar insan uzman doğrulamasından geçti; araç çok düşük yanlış negatif oranına sahip (%%99 tespit) ve bunun yerine şüpheli vakaları temkinli biçimde işaretliyor
- Bu durum, araştırma makalesi yazımı ve doğrulama sürecinde AI kaynak gösterim hatalarının otomatik tespitine duyulan ihtiyacı gösteren bir örnek olarak değerlendiriliyor
GPTZero’nun NeurIPS 2025 makale analiz sonuçları
- GPTZero, NeurIPS 2025’te kabul edilen 5.290 makaleden 4.841’ini tarayarak 100’den fazla halüsinasyon kaynak gösterimi buldu
- Her bir vaka, insan doğrulamasıyla gerçekten var olmayan bir kaynak gösterimi olduğunun teyit edilmesiyle belirlendi
- Örnek olarak, var olmayan dergi adları, yazar adları ve DOI’ler içeren çok sayıda kaynak gösterimi tespit edildi
- GPTZero bu tür kaynak gösterim hatalarını AI üretimi izler (vibe citing) olarak sınıflandırıyor
- Gerçek makale başlıkları ve yazarlarının birleştirilmesi veya dönüştürülmesiyle oluşturulan sahte kaynak gösterimleri bunun tipik biçimi
- Bazıları gerçek makalelere benzer başlıklar kullanıyor, ancak yıl, kaynak veya yazar uyumsuzluklarıyla ortaya çıkıyor
‘Vibe citing’in tanımı ve türleri
- GPTZero, ‘vibe citing’i “üretken yapay zekanın gerçek kaynakları birleştirip dönüştürerek oluşturduğu kaynak gösterimi” olarak tanımlıyor
- Yazar adı, başlık, yayınevi, DOI gibi unsurların manipüle edildiği veya sentezlendiği vakaları içeriyor
- Gerçekte var olan makalelerin kısmen alıntılanması ya da sahte dergi adları üretilmesi de buna dahil
- Buna karşılık, basit yazım hataları, ölü bağlantılar, eksik sayfa numaraları gibi durumlar insan hatası sayılarak hariç tutuluyor
- GPTZero, gerçek, kusurlu ve halüsinasyon kaynak gösterimleri arasındaki farkı bir karşılaştırma tablosuyla gösteriyor
- Örneğin “Deep learning” makalesinin “Samuel LeCun Jackson. Deep learning. Science & Nature, 2021.” biçimine dönüştürülmesi halüsinasyon kaynak gösterimi olarak sınıflandırılıyor
Hallucination Check aracının işlevi
- Hallucination Check, kaynak doğrulamayı otomatikleştiren AI tabanlı bir tespit sistemi
- Çevrimiçi olarak doğrulanamayan kaynak gösterimlerini otomatik biçimde işaretliyor
- Yazarların, editörlerin ve hakemlerin kaynak hatalarını hızla incelemesine yardımcı oluyor
- Kullanım aşamaları
- Yazarlar gönderim öncesinde makaledeki kaynakları otomatik olarak kontrol eder
- Hakemler doğrulanmamış kaynak gösterimlerini hızla belirler
- Konferans ve dergi editörleri, AI Detector ile birlikte kullanarak AI yazım izleri ve kaynak gösterim hatalarını aynı anda tespit edebilir
GPTZero’nun doğrulama doğruluğu
- Hallucination Check, çok düşük yanlış negatif oranına sahip (%%99 tespit doğruluğu)
- Yani gerçek halüsinasyon kaynak gösterimlerini kaçırma olasılığı son derece düşük
- Buna karşılık temkinli tespit nedeniyle yanlış pozitif oranı bir miktar daha yüksek
- GPTZero, ICLR 2026, Deloitte raporu gibi örneklerde de aynı yöntemle onlarca AI kaynak gösterim hatası bulduğunu söylüyor
Akademi ve yayıncılık ekosistemi açısından anlamı
- NeurIPS 2025 vakası, AI araçlarıyla makale yazımının yaygınlaşmasıyla birlikte kaynak güvenilirliğinin düşmesi sorununu görünür kılıyor
- GPTZero, ICLR organizasyon komitesiyle iş birliği yaparak gelecekte gönderilen makaleler için otomatik doğrulama sistemi kuruyor
- Bu tür girişimlerin, makale değerlendirme verimliliği ve şeffaflığının artmasına ve AI üretimi içeriğin doğrulama sistemlerinin güçlenmesine yol açması bekleniyor
1 yorum
Hacker News yorumları
Google’da, iş arkadaşımın ortak yazar olduğu makalelerden birini rastgele kontrol ettim
Sorunlu olduğu söylenen makale ICLR 2024 makalesiydi; atıfta iki yazar eksikti ve bir başka kişi (Kyle Richardson) yanlış biçimde eklenmişti
Bu atıf, makalenin ana kısmında değil arka plan bölümündeydi ve büyük olasılıkla AI otomatik tamamlama sürecinde oluşmuş basit bir yazım hatasıydı
Veri kümesinde daha ciddi örnekler olabilir, ama benim gördüğüm şey DOI kontrolüyle hemen düzeltilebilecek küçük bir hataydı
Böyle tekil hata içeren makalelerin dahil edilmesi, yazar tarafının ürün tanıtımı etkisini en üst düzeye çıkarma niyetini düşündürüyor
Sorun, bunun tek hata olup olmadığını bilemememiz
Böyle bir hata, makalenin yeterince doğrulanmadan gönderildiğinin ve LLM’in özensizce kullanıldığının bir işaretidir
Geri kalan içeriği doğrulamak için alan bilgisi ve yeniden üretim deneyleri gerekir
Bu durum yaygınlaşırsa araştırmanın güven temeli sarsılma riski taşır
Ama bu durumda yanlıştı
Kaynakçada halüsinasyon görülmesi, bana göre makalenin tamamının AI ile yazıldığına dair güçlü bir işarettir
Sadece DOI kontrolüyle elenebilecek bir sorun, ama şu anda atıf doğrulaması makale değerlendirme sürecinin temel bir adımı değil
Atıfları hâlâ “anlatısal metin” olarak ele alan güven modeli artık ölçeklenmiyor
Duke University’de atıf ve doğrulama sürecini makine tarafından doğrulanabilir bir altyapıya dönüştürme projesi olan Liberata üzerinde çalışıyorum
Hatta “zararsız örnekleri” çıkarmak daha aldatıcı olurdu
Verinin kendi adına konuşmasına izin vermek daha dürüst bir yaklaşım
Bu durum bilimsel araştırmaya ciddi zarar verecek gibi görünüyor
Zaten veri manipülasyonu sorunu varken, LLM’ler inandırıcı görünen makaleler üretirse durum daha da kötüleşir
Yine de bu vesileyle yeniden üretilebilirlik (reproducibility) daha ciddi ele alınabilir
“Geçen yılki şüpheli bir makaleyi doğrulamak için 2 yıl ve 1 milyon dolar gerekiyor” önerisine fon veren kurum neredeyse yok
Bilimsel fon dağıtım yapısı değişmeden bunu çözmek zor
Makale sayısına göre değerlendirme yapılırsa düşük kaliteli makaleler çoğalıyor; atıf sayısına göre değerlendirme yapılırsa yalnızca keşif odaklı araştırmalar teşvik ediliyor
Yeniden üretim çalışmaları az atıf alıyor ve sonuçta itibar ile geçim “keşiflere” bağlı olduğu için kimse yeniden üretime yatırım yapmıyor
Liberata gibi projeler, yayın kültürünü “yenilik” merkezli yaklaşımdan “doğrulama ve yeniden üretim” merkezli yaklaşıma taşımaya çalışıyor
Bu değişim gerçekleşirse, şu anki karmaşa gerekli bir düzeltme süreci olabilir
Tüm makaleler yeniden üretilebilir olsa bile bunun bilimin temel sorunlarını çözmeyeceğini düşünüyorlar
İlgili yazı: Replication studies can’t fix science
NeurIPS tarafı, halüsinasyonlu atıf (reference hallucination) bulunmasının makalenin tamamını geçersiz kılmadığını söylüyor
Fortune makalesinin tamamına göre, LLM kullanımı hızla evriliyor ve 2025’te değerlendiricilere halüsinasyonları işaretlemeleri yönünde talimat verilmiş
Makalelerin %1,1’inde atıf hatası olsa bile bunun makalenin içeriğini başlı başına geçersiz kılmadığı görüşündeler
En zararsız görünen tek bir gerekçeyi seçip genel sorunu örtmeye çalışıyormuş izlenimi veriyor
Bilim zaten bir yeniden üretilebilirlik krizi yaşıyordu; şimdi buna halüsinasyon sorunu da ekleniyor
Özel şirketlerin etkisinin arttığı bir dönemde açık bilimin geleceği karanlık görünüyor
Makalenin geri çekilmesi bile fiilen bir bedel doğurmuyor; yapı suistimalin beklenen değerinin pozitif olduğu bir hale gelmiş durumda
Teşvikler değişmezse sadece daha kötü olur
LLM’in atıfları işlemesine izin vermek, sonunda veri yorumunu da ona bırakmak anlamına gelir ve bu da halüsinasyonlu sonuçlara yol açabilir
İronik biçimde, araştırma makaleleri mevcut araştırmalarla bilgi diyaloğu kurmak için literatür taraması içerir
LLM ile atıfları uydurmak ise “devlerin omuzlarında durmak” değil, bir yanılsamanın omuzlarında durmak demektir
2024 WACV makalesi değerlendirmesinde tamamen AI tarafından yazılmış bir değerlendirme aldım
Değerlendirici dört metin kutusuna da (özet, güçlü yönler, zayıf yönler, genel değerlendirme) birbirinden tamamen farklı ve birbiriyle çelişen yorumlar yazmıştı
Böyle bir durumun sebebi değerlendirici aşırı yükü ve daha fazla gönüllüye ihtiyaç var
(Makale değerlendirebilecek durumdaysanız, sevdiğiniz konferansın program başkanına doğrudan ulaşmanız tavsiye edilir)
Bazı makaleler atıflara ‘Firstname Lastname’, ‘John Doe’, ‘Jane Smith’ gibi sahte isimler koyuyor ve kimse fark etmiyor
İlk NeurIPS makalesini yayımlayan bir doktora öğrencisi için ekonomik ödül çok büyük
Büyük teknoloji şirketlerindeki stajların çoğu, NeurIPS/ICML/ICLR’de birinci yazarlı makaleyi fiilen ön koşul sayıyor
Bir kez bunu başardığınızda maaş ikiye ya da üçe katlanabiliyor ve kariyer kapıları açılıyor demek abartı sayılmaz
Böyle bir yapıda suistimal çıkması şaşırtıcı değil
Tek bir NeurIPS makalesi, doktora olmadan bile araştırma pozisyonlarına yeterlilik sağlayabiliyor ve 300 bin doların üzerinde maaş mümkün olabiliyor
Spotlight ya da Oral sunum ise bu değeri yedi haneli seviyelere çıkarabilir
Herkes, mevcut teşvik yapısının bu davranışları doğurduğu konusunda hemfikir
O halde “havuç” yerine “sopa” kullanmak gerekmez mi diye düşünüyorum
Öneri şu: LLM halüsinasyonu ya da veri manipülasyonu tespit edilirse kariyeri bitirecek düzeyde yaptırımlar uygulansın
AI tespit araçları henüz yeterince güvenilir değil ve basit BibTeX hataları ya da dil düzeltmesi sırasında oluşmuş yanlışlar da olabilir
Güçlü cezalar ancak açıkça kasıtlı suistimal olduğu ortaya çıktığında, örneğin net veri manipülasyonu durumunda, meşru olur
2020 öncesi makalelerde kaynak uydurmanın ne kadar yaygın olduğunu analiz etmek ilginç olurdu
Ne LLM’lere ne de AI dedektörlerine tamamen güveniyorum
Sadece şimdi sıklıkları hızlanmış durumda
Atıf hatası sorunu, AI arama ve veri toplama maliyeti bugünkünden 100 kat ucuzladığında ortadan kalkacaktır
Ama o noktada da AI’nin yazdığı makalelerin gerçeği yansıtıp yansıtmadığını ayırt etmek zorlaşacak;
bir tür ‘olasılıksal ayna (stochastic mirror)’ çağına girmiş olacağız