NeurIPS 2025 kabul edilen makalelerinde GPTZero 100 yeni halüsinasyon kaynak gösterimi buldu

(gptzero.me)

1 puan yazan GN⁺ 2026-01-23 | 1 yorum | WhatsApp'ta paylaş

GPTZero’nun Hallucination Check aracı, NeurIPS 2025’te kabul edilen 5.290 makaleden 4.841’ini analiz ederek 100’den fazla ‘halüsinasyon kaynak gösterimi (hallucinated citations)’ tespit etti
Çok sayıda makalede var olmayan yazarlar, hatalı DOI ve URL’ler, uydurulmuş başlıklar gibi AI üretimi izler bulundu
GPTZero bu tür hataları ‘vibe citing’ olarak tanımlıyor; bunu, gerçek makale bilgilerinin karıştırılıp dönüştürülerek inandırıcı görünen kaynak gösterimlerine dönüştürülmesi olarak açıklıyor
Tüm vakalar insan uzman doğrulamasından geçti; araç çok düşük yanlış negatif oranına sahip (%%99 tespit) ve bunun yerine şüpheli vakaları temkinli biçimde işaretliyor
Bu durum, araştırma makalesi yazımı ve doğrulama sürecinde AI kaynak gösterim hatalarının otomatik tespitine duyulan ihtiyacı gösteren bir örnek olarak değerlendiriliyor

GPTZero’nun NeurIPS 2025 makale analiz sonuçları

GPTZero, NeurIPS 2025’te kabul edilen 5.290 makaleden 4.841’ini tarayarak 100’den fazla halüsinasyon kaynak gösterimi buldu
- Her bir vaka, insan doğrulamasıyla gerçekten var olmayan bir kaynak gösterimi olduğunun teyit edilmesiyle belirlendi
- Örnek olarak, var olmayan dergi adları, yazar adları ve DOI’ler içeren çok sayıda kaynak gösterimi tespit edildi
GPTZero bu tür kaynak gösterim hatalarını AI üretimi izler (vibe citing) olarak sınıflandırıyor
- Gerçek makale başlıkları ve yazarlarının birleştirilmesi veya dönüştürülmesiyle oluşturulan sahte kaynak gösterimleri bunun tipik biçimi
- Bazıları gerçek makalelere benzer başlıklar kullanıyor, ancak yıl, kaynak veya yazar uyumsuzluklarıyla ortaya çıkıyor

‘Vibe citing’in tanımı ve türleri

GPTZero, ‘vibe citing’i “üretken yapay zekanın gerçek kaynakları birleştirip dönüştürerek oluşturduğu kaynak gösterimi” olarak tanımlıyor
- Yazar adı, başlık, yayınevi, DOI gibi unsurların manipüle edildiği veya sentezlendiği vakaları içeriyor
- Gerçekte var olan makalelerin kısmen alıntılanması ya da sahte dergi adları üretilmesi de buna dahil
Buna karşılık, basit yazım hataları, ölü bağlantılar, eksik sayfa numaraları gibi durumlar insan hatası sayılarak hariç tutuluyor
GPTZero, gerçek, kusurlu ve halüsinasyon kaynak gösterimleri arasındaki farkı bir karşılaştırma tablosuyla gösteriyor
- Örneğin “Deep learning” makalesinin “Samuel LeCun Jackson. Deep learning. Science & Nature, 2021.” biçimine dönüştürülmesi halüsinasyon kaynak gösterimi olarak sınıflandırılıyor

Hallucination Check aracının işlevi

Hallucination Check, kaynak doğrulamayı otomatikleştiren AI tabanlı bir tespit sistemi
- Çevrimiçi olarak doğrulanamayan kaynak gösterimlerini otomatik biçimde işaretliyor
- Yazarların, editörlerin ve hakemlerin kaynak hatalarını hızla incelemesine yardımcı oluyor
Kullanım aşamaları
1. Yazarlar gönderim öncesinde makaledeki kaynakları otomatik olarak kontrol eder
2. Hakemler doğrulanmamış kaynak gösterimlerini hızla belirler
3. Konferans ve dergi editörleri, AI Detector ile birlikte kullanarak AI yazım izleri ve kaynak gösterim hatalarını aynı anda tespit edebilir

GPTZero’nun doğrulama doğruluğu

Hallucination Check, çok düşük yanlış negatif oranına sahip (%%99 tespit doğruluğu)
- Yani gerçek halüsinasyon kaynak gösterimlerini kaçırma olasılığı son derece düşük
- Buna karşılık temkinli tespit nedeniyle yanlış pozitif oranı bir miktar daha yüksek
GPTZero, ICLR 2026, Deloitte raporu gibi örneklerde de aynı yöntemle onlarca AI kaynak gösterim hatası bulduğunu söylüyor

Akademi ve yayıncılık ekosistemi açısından anlamı

NeurIPS 2025 vakası, AI araçlarıyla makale yazımının yaygınlaşmasıyla birlikte kaynak güvenilirliğinin düşmesi sorununu görünür kılıyor
GPTZero, ICLR organizasyon komitesiyle iş birliği yaparak gelecekte gönderilen makaleler için otomatik doğrulama sistemi kuruyor
Bu tür girişimlerin, makale değerlendirme verimliliği ve şeffaflığının artmasına ve AI üretimi içeriğin doğrulama sistemlerinin güçlenmesine yol açması bekleniyor

1 yorum

GN⁺ 2026-01-23

Hacker News yorumları

Google’da, iş arkadaşımın ortak yazar olduğu makalelerden birini rastgele kontrol ettim
Sorunlu olduğu söylenen makale ICLR 2024 makalesiydi; atıfta iki yazar eksikti ve bir başka kişi (Kyle Richardson) yanlış biçimde eklenmişti
Bu atıf, makalenin ana kısmında değil arka plan bölümündeydi ve büyük olasılıkla AI otomatik tamamlama sürecinde oluşmuş basit bir yazım hatasıydı
Veri kümesinde daha ciddi örnekler olabilir, ama benim gördüğüm şey DOI kontrolüyle hemen düzeltilebilecek küçük bir hataydı
Böyle tekil hata içeren makalelerin dahil edilmesi, yazar tarafının ürün tanıtımı etkisini en üst düzeye çıkarma niyetini düşündürüyor
- Bu tür hatalar, uzman olmayanların bile kolayca doğrulayabileceği halüsinasyonların tipik işaretleridir
  Sorun, bunun tek hata olup olmadığını bilemememiz
  Böyle bir hata, makalenin yeterince doğrulanmadan gönderildiğinin ve LLM’in özensizce kullanıldığının bir işaretidir
  Geri kalan içeriği doğrulamak için alan bilgisi ve yeniden üretim deneyleri gerekir
  Bu durum yaygınlaşırsa araştırmanın güven temeli sarsılma riski taşır
- Eksik kalan analiz, LLM öncesi konferanslarla (2022~2023) karşılaştırma yapıp aracın yanlış pozitif oranını göstermektir
- Normalde makalenin kaynakçası kopyala-yapıştır yapıldığında yazar adları yanlış olmaz
  Ama bu durumda yanlıştı
  Kaynakçada halüsinasyon görülmesi, bana göre makalenin tamamının AI ile yazıldığına dair güçlü bir işarettir
- Bu tür hataların kolay oluşması ve iyi yakalanmaması ilginç
  Sadece DOI kontrolüyle elenebilecek bir sorun, ama şu anda atıf doğrulaması makale değerlendirme sürecinin temel bir adımı değil
  Atıfları hâlâ “anlatısal metin” olarak ele alan güven modeli artık ölçeklenmiyor
  Duke University’de atıf ve doğrulama sürecini makine tarafından doğrulanabilir bir altyapıya dönüştürme projesi olan Liberata üzerinde çalışıyorum
- Yazarın veri kümesinin, halüsinasyonların somut etkisi hakkında bir iddiada bulunduğunu düşünmüyorum
  Hatta “zararsız örnekleri” çıkarmak daha aldatıcı olurdu
  Verinin kendi adına konuşmasına izin vermek daha dürüst bir yaklaşım
Bu durum bilimsel araştırmaya ciddi zarar verecek gibi görünüyor
Zaten veri manipülasyonu sorunu varken, LLM’ler inandırıcı görünen makaleler üretirse durum daha da kötüleşir
Yine de bu vesileyle yeniden üretilebilirlik (reproducibility) daha ciddi ele alınabilir
- Yeniden üretilebilirlik sorununun temelinde fon yetersizliği var
  “Geçen yılki şüpheli bir makaleyi doğrulamak için 2 yıl ve 1 milyon dolar gerekiyor” önerisine fon veren kurum neredeyse yok
  Bilimsel fon dağıtım yapısı değişmeden bunu çözmek zor
- Bilim insanlarının çoğu da yeniden üretilebilirlik krizini kabul ediyor, ama sorun ödül yapısında
  Makale sayısına göre değerlendirme yapılırsa düşük kaliteli makaleler çoğalıyor; atıf sayısına göre değerlendirme yapılırsa yalnızca keşif odaklı araştırmalar teşvik ediliyor
  Yeniden üretim çalışmaları az atıf alıyor ve sonuçta itibar ile geçim “keşiflere” bağlı olduğu için kimse yeniden üretime yatırım yapmıyor
- AI, bu yapısal sorunları görünür kılan bir fırsat da olabilir
  Liberata gibi projeler, yayın kültürünü “yenilik” merkezli yaklaşımdan “doğrulama ve yeniden üretim” merkezli yaklaşıma taşımaya çalışıyor
  Bu değişim gerçekleşirse, şu anki karmaşa gerekli bir düzeltme süreci olabilir
- Bazıları yeniden üretilebilirliğin kendisinin abartıldığını savunuyor
  Tüm makaleler yeniden üretilebilir olsa bile bunun bilimin temel sorunlarını çözmeyeceğini düşünüyorlar
  İlgili yazı: Replication studies can’t fix science
- Zaten geçersiz kılınmış araştırmaları alıntılayan makalelerin hâlâ atıf almaya devam etmesi sorununun çözülüp çözülmediğini merak ediyorum
NeurIPS tarafı, halüsinasyonlu atıf (reference hallucination) bulunmasının makalenin tamamını geçersiz kılmadığını söylüyor
Fortune makalesinin tamamına göre, LLM kullanımı hızla evriliyor ve 2025’te değerlendiricilere halüsinasyonları işaretlemeleri yönünde talimat verilmiş
Makalelerin %1,1’inde atıf hatası olsa bile bunun makalenin içeriğini başlı başına geçersiz kılmadığı görüşündeler
- Ama bu bana fazla hoşgörülü bir tepki gibi geliyor
  En zararsız görünen tek bir gerekçeyi seçip genel sorunu örtmeye çalışıyormuş izlenimi veriyor
  Bilim zaten bir yeniden üretilebilirlik krizi yaşıyordu; şimdi buna halüsinasyon sorunu da ekleniyor
  Özel şirketlerin etkisinin arttığı bir dönemde açık bilimin geleceği karanlık görünüyor
- Ceza olmadığı için bu devam edecek
  Makalenin geri çekilmesi bile fiilen bir bedel doğurmuyor; yapı suistimalin beklenen değerinin pozitif olduğu bir hale gelmiş durumda
  Teşvikler değişmezse sadece daha kötü olur
- Bazıları, gönderilen tüm makalelerin GPTZero gibi araçlarla taranıp halüsinasyon çıkarsa anında reddedilmesi gerektiğini savunuyor
- Atıf hatası olması içeriğin yanlış olduğunu tek başına kanıtlamaz, ama tek bir tahrifat bile genel güveni yıkar
  LLM’in atıfları işlemesine izin vermek, sonunda veri yorumunu da ona bırakmak anlamına gelir ve bu da halüsinasyonlu sonuçlara yol açabilir
- LLM halüsinasyonu bir kez bile tespit edilirse makalenin geri çekilmesi ve yazarın başvuru yasağı alması gerektiğini düşünüyorum
İronik biçimde, araştırma makaleleri mevcut araştırmalarla bilgi diyaloğu kurmak için literatür taraması içerir
LLM ile atıfları uydurmak ise “devlerin omuzlarında durmak” değil, bir yanılsamanın omuzlarında durmak demektir
- Bu yüzden biri şaka olarak “bu, yalanın omuzlarında durmak” dedi
- Felsefi açıdan bakınca soru şu: LLM’ler yeni çöp mü üretiyor, yoksa zaten var olan çöp üretim yapısını mı büyütüyor?
2024 WACV makalesi değerlendirmesinde tamamen AI tarafından yazılmış bir değerlendirme aldım
Değerlendirici dört metin kutusuna da (özet, güçlü yönler, zayıf yönler, genel değerlendirme) birbirinden tamamen farklı ve birbiriyle çelişen yorumlar yazmıştı
Böyle bir durumun sebebi değerlendirici aşırı yükü ve daha fazla gönüllüye ihtiyaç var
(Makale değerlendirebilecek durumdaysanız, sevdiğiniz konferansın program başkanına doğrudan ulaşmanız tavsiye edilir)
- Tek tepki “Vay be…” olmuştu
Bazı makaleler atıflara ‘Firstname Lastname’, ‘John Doe’, ‘Jane Smith’ gibi sahte isimler koyuyor ve kimse fark etmiyor
- Yine de en azından sonradan ortaya çıkarsa cezalandırılmasını umuyorum
- Bir başkası da alaycı biçimde “geleceğin yöntemi bu” dedi
İlk NeurIPS makalesini yayımlayan bir doktora öğrencisi için ekonomik ödül çok büyük
Büyük teknoloji şirketlerindeki stajların çoğu, NeurIPS/ICML/ICLR’de birinci yazarlı makaleyi fiilen ön koşul sayıyor
Bir kez bunu başardığınızda maaş ikiye ya da üçe katlanabiliyor ve kariyer kapıları açılıyor demek abartı sayılmaz
Böyle bir yapıda suistimal çıkması şaşırtıcı değil
- Gerçekte tek bir makalenin piyasa değeri çok daha yüksek
  Tek bir NeurIPS makalesi, doktora olmadan bile araştırma pozisyonlarına yeterlilik sağlayabiliyor ve 300 bin doların üzerinde maaş mümkün olabiliyor
  Spotlight ya da Oral sunum ise bu değeri yedi haneli seviyelere çıkarabilir
Herkes, mevcut teşvik yapısının bu davranışları doğurduğu konusunda hemfikir
O halde “havuç” yerine “sopa” kullanmak gerekmez mi diye düşünüyorum
Öneri şu: LLM halüsinasyonu ya da veri manipülasyonu tespit edilirse kariyeri bitirecek düzeyde yaptırımlar uygulansın
- Ama ceza ne kadar ağırsa, o kadar çok adil süreç (due process) gerekir
  AI tespit araçları henüz yeterince güvenilir değil ve basit BibTeX hataları ya da dil düzeltmesi sırasında oluşmuş yanlışlar da olabilir
  Güçlü cezalar ancak açıkça kasıtlı suistimal olduğu ortaya çıktığında, örneğin net veri manipülasyonu durumunda, meşru olur
2020 öncesi makalelerde kaynak uydurmanın ne kadar yaygın olduğunu analiz etmek ilginç olurdu
- Ayrıca AI dedektörlerinin LLM öncesi makaleleri ne ölçüde AI yazımı sanarak yanlış pozitif verdiğini de merak ediyorum
  Ne LLM’lere ne de AI dedektörlerine tamamen güveniyorum
- Sonuçta bu tür sorunlar muhtemelen geçmişte de vardı
  Sadece şimdi sıklıkları hızlanmış durumda
Atıf hatası sorunu, AI arama ve veri toplama maliyeti bugünkünden 100 kat ucuzladığında ortadan kalkacaktır
Ama o noktada da AI’nin yazdığı makalelerin gerçeği yansıtıp yansıtmadığını ayırt etmek zorlaşacak;
bir tür ‘olasılıksal ayna (stochastic mirror)’ çağına girmiş olacağız

NeurIPS 2025 kabul edilen makalelerinde GPTZero 100 yeni halüsinasyon kaynak gösterimi buldu

GPTZero’nun NeurIPS 2025 makale analiz sonuçları

‘Vibe citing’in tanımı ve türleri

Hallucination Check aracının işlevi

GPTZero’nun doğrulama doğruluğu

Akademi ve yayıncılık ekosistemi açısından anlamı

İlgili okumalar

1 yorum

Hacker News yorumları