1 puan yazan GN⁺ 2026-01-23 | 1 yorum | WhatsApp'ta paylaş
  • GPTZero’nun Hallucination Check aracı, NeurIPS 2025’te kabul edilen 5.290 makaleden 4.841’ini analiz ederek 100’den fazla ‘halüsinasyon kaynak gösterimi (hallucinated citations)’ tespit etti
  • Çok sayıda makalede var olmayan yazarlar, hatalı DOI ve URL’ler, uydurulmuş başlıklar gibi AI üretimi izler bulundu
  • GPTZero bu tür hataları ‘vibe citing’ olarak tanımlıyor; bunu, gerçek makale bilgilerinin karıştırılıp dönüştürülerek inandırıcı görünen kaynak gösterimlerine dönüştürülmesi olarak açıklıyor
  • Tüm vakalar insan uzman doğrulamasından geçti; araç çok düşük yanlış negatif oranına sahip (%%99 tespit) ve bunun yerine şüpheli vakaları temkinli biçimde işaretliyor
  • Bu durum, araştırma makalesi yazımı ve doğrulama sürecinde AI kaynak gösterim hatalarının otomatik tespitine duyulan ihtiyacı gösteren bir örnek olarak değerlendiriliyor

GPTZero’nun NeurIPS 2025 makale analiz sonuçları

  • GPTZero, NeurIPS 2025’te kabul edilen 5.290 makaleden 4.841’ini tarayarak 100’den fazla halüsinasyon kaynak gösterimi buldu
    • Her bir vaka, insan doğrulamasıyla gerçekten var olmayan bir kaynak gösterimi olduğunun teyit edilmesiyle belirlendi
    • Örnek olarak, var olmayan dergi adları, yazar adları ve DOI’ler içeren çok sayıda kaynak gösterimi tespit edildi
  • GPTZero bu tür kaynak gösterim hatalarını AI üretimi izler (vibe citing) olarak sınıflandırıyor
    • Gerçek makale başlıkları ve yazarlarının birleştirilmesi veya dönüştürülmesiyle oluşturulan sahte kaynak gösterimleri bunun tipik biçimi
    • Bazıları gerçek makalelere benzer başlıklar kullanıyor, ancak yıl, kaynak veya yazar uyumsuzluklarıyla ortaya çıkıyor

‘Vibe citing’in tanımı ve türleri

  • GPTZero, ‘vibe citing’i “üretken yapay zekanın gerçek kaynakları birleştirip dönüştürerek oluşturduğu kaynak gösterimi” olarak tanımlıyor
    • Yazar adı, başlık, yayınevi, DOI gibi unsurların manipüle edildiği veya sentezlendiği vakaları içeriyor
    • Gerçekte var olan makalelerin kısmen alıntılanması ya da sahte dergi adları üretilmesi de buna dahil
  • Buna karşılık, basit yazım hataları, ölü bağlantılar, eksik sayfa numaraları gibi durumlar insan hatası sayılarak hariç tutuluyor
  • GPTZero, gerçek, kusurlu ve halüsinasyon kaynak gösterimleri arasındaki farkı bir karşılaştırma tablosuyla gösteriyor
    • Örneğin “Deep learning” makalesinin “Samuel LeCun Jackson. Deep learning. Science & Nature, 2021.” biçimine dönüştürülmesi halüsinasyon kaynak gösterimi olarak sınıflandırılıyor

Hallucination Check aracının işlevi

  • Hallucination Check, kaynak doğrulamayı otomatikleştiren AI tabanlı bir tespit sistemi
    • Çevrimiçi olarak doğrulanamayan kaynak gösterimlerini otomatik biçimde işaretliyor
    • Yazarların, editörlerin ve hakemlerin kaynak hatalarını hızla incelemesine yardımcı oluyor
  • Kullanım aşamaları
    1. Yazarlar gönderim öncesinde makaledeki kaynakları otomatik olarak kontrol eder
    2. Hakemler doğrulanmamış kaynak gösterimlerini hızla belirler
    3. Konferans ve dergi editörleri, AI Detector ile birlikte kullanarak AI yazım izleri ve kaynak gösterim hatalarını aynı anda tespit edebilir

GPTZero’nun doğrulama doğruluğu

  • Hallucination Check, çok düşük yanlış negatif oranına sahip (%%99 tespit doğruluğu)
    • Yani gerçek halüsinasyon kaynak gösterimlerini kaçırma olasılığı son derece düşük
    • Buna karşılık temkinli tespit nedeniyle yanlış pozitif oranı bir miktar daha yüksek
  • GPTZero, ICLR 2026, Deloitte raporu gibi örneklerde de aynı yöntemle onlarca AI kaynak gösterim hatası bulduğunu söylüyor

Akademi ve yayıncılık ekosistemi açısından anlamı

  • NeurIPS 2025 vakası, AI araçlarıyla makale yazımının yaygınlaşmasıyla birlikte kaynak güvenilirliğinin düşmesi sorununu görünür kılıyor
  • GPTZero, ICLR organizasyon komitesiyle iş birliği yaparak gelecekte gönderilen makaleler için otomatik doğrulama sistemi kuruyor
  • Bu tür girişimlerin, makale değerlendirme verimliliği ve şeffaflığının artmasına ve AI üretimi içeriğin doğrulama sistemlerinin güçlenmesine yol açması bekleniyor

1 yorum

 
GN⁺ 2026-01-23
Hacker News yorumları
  • Google’da, iş arkadaşımın ortak yazar olduğu makalelerden birini rastgele kontrol ettim
    Sorunlu olduğu söylenen makale ICLR 2024 makalesiydi; atıfta iki yazar eksikti ve bir başka kişi (Kyle Richardson) yanlış biçimde eklenmişti
    Bu atıf, makalenin ana kısmında değil arka plan bölümündeydi ve büyük olasılıkla AI otomatik tamamlama sürecinde oluşmuş basit bir yazım hatasıydı
    Veri kümesinde daha ciddi örnekler olabilir, ama benim gördüğüm şey DOI kontrolüyle hemen düzeltilebilecek küçük bir hataydı
    Böyle tekil hata içeren makalelerin dahil edilmesi, yazar tarafının ürün tanıtımı etkisini en üst düzeye çıkarma niyetini düşündürüyor

    • Bu tür hatalar, uzman olmayanların bile kolayca doğrulayabileceği halüsinasyonların tipik işaretleridir
      Sorun, bunun tek hata olup olmadığını bilemememiz
      Böyle bir hata, makalenin yeterince doğrulanmadan gönderildiğinin ve LLM’in özensizce kullanıldığının bir işaretidir
      Geri kalan içeriği doğrulamak için alan bilgisi ve yeniden üretim deneyleri gerekir
      Bu durum yaygınlaşırsa araştırmanın güven temeli sarsılma riski taşır
    • Eksik kalan analiz, LLM öncesi konferanslarla (2022~2023) karşılaştırma yapıp aracın yanlış pozitif oranını göstermektir
    • Normalde makalenin kaynakçası kopyala-yapıştır yapıldığında yazar adları yanlış olmaz
      Ama bu durumda yanlıştı
      Kaynakçada halüsinasyon görülmesi, bana göre makalenin tamamının AI ile yazıldığına dair güçlü bir işarettir
    • Bu tür hataların kolay oluşması ve iyi yakalanmaması ilginç
      Sadece DOI kontrolüyle elenebilecek bir sorun, ama şu anda atıf doğrulaması makale değerlendirme sürecinin temel bir adımı değil
      Atıfları hâlâ “anlatısal metin” olarak ele alan güven modeli artık ölçeklenmiyor
      Duke University’de atıf ve doğrulama sürecini makine tarafından doğrulanabilir bir altyapıya dönüştürme projesi olan Liberata üzerinde çalışıyorum
    • Yazarın veri kümesinin, halüsinasyonların somut etkisi hakkında bir iddiada bulunduğunu düşünmüyorum
      Hatta “zararsız örnekleri” çıkarmak daha aldatıcı olurdu
      Verinin kendi adına konuşmasına izin vermek daha dürüst bir yaklaşım
  • Bu durum bilimsel araştırmaya ciddi zarar verecek gibi görünüyor
    Zaten veri manipülasyonu sorunu varken, LLM’ler inandırıcı görünen makaleler üretirse durum daha da kötüleşir
    Yine de bu vesileyle yeniden üretilebilirlik (reproducibility) daha ciddi ele alınabilir

    • Yeniden üretilebilirlik sorununun temelinde fon yetersizliği var
      “Geçen yılki şüpheli bir makaleyi doğrulamak için 2 yıl ve 1 milyon dolar gerekiyor” önerisine fon veren kurum neredeyse yok
      Bilimsel fon dağıtım yapısı değişmeden bunu çözmek zor
    • Bilim insanlarının çoğu da yeniden üretilebilirlik krizini kabul ediyor, ama sorun ödül yapısında
      Makale sayısına göre değerlendirme yapılırsa düşük kaliteli makaleler çoğalıyor; atıf sayısına göre değerlendirme yapılırsa yalnızca keşif odaklı araştırmalar teşvik ediliyor
      Yeniden üretim çalışmaları az atıf alıyor ve sonuçta itibar ile geçim “keşiflere” bağlı olduğu için kimse yeniden üretime yatırım yapmıyor
    • AI, bu yapısal sorunları görünür kılan bir fırsat da olabilir
      Liberata gibi projeler, yayın kültürünü “yenilik” merkezli yaklaşımdan “doğrulama ve yeniden üretim” merkezli yaklaşıma taşımaya çalışıyor
      Bu değişim gerçekleşirse, şu anki karmaşa gerekli bir düzeltme süreci olabilir
    • Bazıları yeniden üretilebilirliğin kendisinin abartıldığını savunuyor
      Tüm makaleler yeniden üretilebilir olsa bile bunun bilimin temel sorunlarını çözmeyeceğini düşünüyorlar
      İlgili yazı: Replication studies can’t fix science
    • Zaten geçersiz kılınmış araştırmaları alıntılayan makalelerin hâlâ atıf almaya devam etmesi sorununun çözülüp çözülmediğini merak ediyorum
  • NeurIPS tarafı, halüsinasyonlu atıf (reference hallucination) bulunmasının makalenin tamamını geçersiz kılmadığını söylüyor
    Fortune makalesinin tamamına göre, LLM kullanımı hızla evriliyor ve 2025’te değerlendiricilere halüsinasyonları işaretlemeleri yönünde talimat verilmiş
    Makalelerin %1,1’inde atıf hatası olsa bile bunun makalenin içeriğini başlı başına geçersiz kılmadığı görüşündeler

    • Ama bu bana fazla hoşgörülü bir tepki gibi geliyor
      En zararsız görünen tek bir gerekçeyi seçip genel sorunu örtmeye çalışıyormuş izlenimi veriyor
      Bilim zaten bir yeniden üretilebilirlik krizi yaşıyordu; şimdi buna halüsinasyon sorunu da ekleniyor
      Özel şirketlerin etkisinin arttığı bir dönemde açık bilimin geleceği karanlık görünüyor
    • Ceza olmadığı için bu devam edecek
      Makalenin geri çekilmesi bile fiilen bir bedel doğurmuyor; yapı suistimalin beklenen değerinin pozitif olduğu bir hale gelmiş durumda
      Teşvikler değişmezse sadece daha kötü olur
    • Bazıları, gönderilen tüm makalelerin GPTZero gibi araçlarla taranıp halüsinasyon çıkarsa anında reddedilmesi gerektiğini savunuyor
    • Atıf hatası olması içeriğin yanlış olduğunu tek başına kanıtlamaz, ama tek bir tahrifat bile genel güveni yıkar
      LLM’in atıfları işlemesine izin vermek, sonunda veri yorumunu da ona bırakmak anlamına gelir ve bu da halüsinasyonlu sonuçlara yol açabilir
    • LLM halüsinasyonu bir kez bile tespit edilirse makalenin geri çekilmesi ve yazarın başvuru yasağı alması gerektiğini düşünüyorum
  • İronik biçimde, araştırma makaleleri mevcut araştırmalarla bilgi diyaloğu kurmak için literatür taraması içerir
    LLM ile atıfları uydurmak ise “devlerin omuzlarında durmak” değil, bir yanılsamanın omuzlarında durmak demektir

    • Bu yüzden biri şaka olarak “bu, yalanın omuzlarında durmak” dedi
    • Felsefi açıdan bakınca soru şu: LLM’ler yeni çöp mü üretiyor, yoksa zaten var olan çöp üretim yapısını mı büyütüyor?
  • 2024 WACV makalesi değerlendirmesinde tamamen AI tarafından yazılmış bir değerlendirme aldım
    Değerlendirici dört metin kutusuna da (özet, güçlü yönler, zayıf yönler, genel değerlendirme) birbirinden tamamen farklı ve birbiriyle çelişen yorumlar yazmıştı
    Böyle bir durumun sebebi değerlendirici aşırı yükü ve daha fazla gönüllüye ihtiyaç var
    (Makale değerlendirebilecek durumdaysanız, sevdiğiniz konferansın program başkanına doğrudan ulaşmanız tavsiye edilir)

    • Tek tepki “Vay be…” olmuştu
  • Bazı makaleler atıflara ‘Firstname Lastname’, ‘John Doe’, ‘Jane Smith’ gibi sahte isimler koyuyor ve kimse fark etmiyor

    • Yine de en azından sonradan ortaya çıkarsa cezalandırılmasını umuyorum
    • Bir başkası da alaycı biçimde “geleceğin yöntemi bu” dedi
  • İlk NeurIPS makalesini yayımlayan bir doktora öğrencisi için ekonomik ödül çok büyük
    Büyük teknoloji şirketlerindeki stajların çoğu, NeurIPS/ICML/ICLR’de birinci yazarlı makaleyi fiilen ön koşul sayıyor
    Bir kez bunu başardığınızda maaş ikiye ya da üçe katlanabiliyor ve kariyer kapıları açılıyor demek abartı sayılmaz
    Böyle bir yapıda suistimal çıkması şaşırtıcı değil

    • Gerçekte tek bir makalenin piyasa değeri çok daha yüksek
      Tek bir NeurIPS makalesi, doktora olmadan bile araştırma pozisyonlarına yeterlilik sağlayabiliyor ve 300 bin doların üzerinde maaş mümkün olabiliyor
      Spotlight ya da Oral sunum ise bu değeri yedi haneli seviyelere çıkarabilir
  • Herkes, mevcut teşvik yapısının bu davranışları doğurduğu konusunda hemfikir
    O halde “havuç” yerine “sopa” kullanmak gerekmez mi diye düşünüyorum
    Öneri şu: LLM halüsinasyonu ya da veri manipülasyonu tespit edilirse kariyeri bitirecek düzeyde yaptırımlar uygulansın

    • Ama ceza ne kadar ağırsa, o kadar çok adil süreç (due process) gerekir
      AI tespit araçları henüz yeterince güvenilir değil ve basit BibTeX hataları ya da dil düzeltmesi sırasında oluşmuş yanlışlar da olabilir
      Güçlü cezalar ancak açıkça kasıtlı suistimal olduğu ortaya çıktığında, örneğin net veri manipülasyonu durumunda, meşru olur
  • 2020 öncesi makalelerde kaynak uydurmanın ne kadar yaygın olduğunu analiz etmek ilginç olurdu

    • Ayrıca AI dedektörlerinin LLM öncesi makaleleri ne ölçüde AI yazımı sanarak yanlış pozitif verdiğini de merak ediyorum
      Ne LLM’lere ne de AI dedektörlerine tamamen güveniyorum
    • Sonuçta bu tür sorunlar muhtemelen geçmişte de vardı
      Sadece şimdi sıklıkları hızlanmış durumda
  • Atıf hatası sorunu, AI arama ve veri toplama maliyeti bugünkünden 100 kat ucuzladığında ortadan kalkacaktır
    Ama o noktada da AI’nin yazdığı makalelerin gerçeği yansıtıp yansıtmadığını ayırt etmek zorlaşacak;
    bir tür ‘olasılıksal ayna (stochastic mirror)’ çağına girmiş olacağız