ICLR 2026 başvuru makalelerinde 50'den fazla halüsinasyon örneği tespit edildi

(gptzero.me)

3 puan yazan GN⁺ 2025-12-08 | 4 yorum | WhatsApp'ta paylaş

GPTZero, ICLR 2026 başvuru makalelerinde 50'nin üzerinde alıntı hatası ve sahte yazar bilgisi tespit etti
Her makale OpenReview bağlantısıyla birlikte gerçek olup olmadığı ve alıntı eşleşmesinin doğrulandığını gösterdi
Birçok örnekte olmayan yazarlar, yanlış yıl, farklı makale başlığı bulunduğu doğrulandı
Bazı makaleler gerçek bir çalışmayla kısmen eşleşiyor ancak ayrıntılı meta veriler bozulmuş durumda
Akademik başvurularda bile yapay zeka kaynaklı halüsinasyon (hallucination) meselesinin yayılımını gösteren bir örnek

GPTZero'nun ICLR 2026 Halüsinasyon Tespit Sonuçları

GPTZero, ICLR 2026 başvuru makalelerinde alıntı ve yazar bilgisini otomatik olarak doğruladı
- Her makale OpenReview bağlantısı, GPTZero doğrulama bağlantısı ve alıntı bilgisiyle birlikte sunuldu
- Doğrulama sonuçlarına göre, 50'nin üzerinde çalışmada yanlış alıntı veya mevcut olmayan yazar bulundu

Temsilî Halüsinasyon Örnekleri

TamperTok makalesi gerçek olsa da tüm yazar bilgileri yanlış
MixtureVitae makalesinin ilk 3 yazarı eşleşirken kalan 7 yazar mevcut değil
OrtSAE, Principled Policy Optimization, IMPQ gibi çalışmalarda gerçek makale ile başlık veya yazar bilgisi eşleşmiyor
PDMBench için benzer bir makale mevcut olsa da yılı ve başlığı farklı
C3-OWD, GRF-LLM gibi örnekler kısmi eşleşme kategorisinde

Tam Uyumlu Olmayan Örnekler

Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI gibi başvurularda atıfta bulunulan makale bulunmuyor
SAFE-LLM, Typed Chain-of-Thought, MANTA gibi örneklerde benzer bir makale olmasına karşın meta veri eşleşmiyor
AI-Assisted Medical Triage Assistant, QUART, KARMA gibi başvurular tamamen alakasız makalelere atıf yapıyor

Doğrulama Yöntemi ve Sonuç Türleri

GPTZero, her alıntıyı gerçek veritabanlarıyla (ör. arXiv, NeurIPS, ICLR, ACL vb.) karşılaştırdı
- Sonuçlar “mevcut”, “kısmi eşleşme”, “uyumsuzluk” ve “sahte yazar” olarak sınıflandırıldı
- Bazı kayıtlar, gerçek bir makale mevcut olsa da yazar, yıl ve başlığın tamamının farklı olduğu şeklinde işaretlendi

Anlamı ve Çıkarımlar

ICLR 2026 başvurularının çoğunda yapay zeka üretimi metin halüsinasyonu doğrudan yer alıyor
Akademik makale yazım sürecinde de otomatik doğrulama araçlarına duyulan ihtiyaç ön plana çıkıyor
GPTZero'nun bulguları, yapay zeka ile üretilen içeriğin güvenilirliğini doğrulama çerçevesinin güçlendirilmesi gerekliliğini gösteriyor

4 yorum

shakespeares 2025-12-09

Benzer bilgi düzeyine sahip yapay zekalarda tekrar tekrar daha fazla ilerleme kaydetmek mümkün mü?
Eğer değilse, o zaman dünyayı yalnızca aynı klon insanların klon yazıları kaplayacak ve bunun içinde iyiyi kötüden ayırmak daha da zorlaşacak gibi görünüyor.

GN⁺ 2025-12-08

Hacker News görüşü

Bunun açıkça mesleki etik dışı davranış olduğunu düşünüyorum
Araştırma ekibimde biri böyle bir şey yapsaydı işten çıkarılma riskiyle karşı karşıya kalırdı
Bir hakem olarak yazarın yalan söylediğini görürsem makalenin tamamına güvenemem ve etik açıdan bunun derhal reddedilmesi gerektiğini düşünürüm
Hatalar yaygındır, ama bu bambaşka bir seviye
- Bu aynı zamanda bir kültürel fark meselesi gibi görünüyor
  Batı dünyasında bireysel dürüstlüğün akademinin tamamındaki güveni ayakta tuttuğu düşünülürken, Orta Doğu, Hindistan ve Çin çevrelerinde bu tür davranışların sorumluluğunu dergilere yükleme eğilimi var
  Bu fark anlaşılmazsa işbirliği çok kafa karıştırıcı hale geliyor
Deneyimime göre makale kalitesini düşüren başlıca sorun yanlış atıf
Atıfın hiç olmamasındansa, atıf yapılan kaynağın aslında söyleneni söylememesi ya da bağlamı çarpıtması çok daha sık görülüyor
Bu tür hataları bulmak için orijinal metni okuyup anlamak gerekiyor, bu da inanılmaz zaman alıyor
Bu tür davranışlar basit bir hata değil, bilginin aşınmasına yol açıyor; bu yüzden “3 uyarıdan sonra ihraç” gibi yaptırımlar gerekli
- Bu doğrulama aslında LLM’lerin iyi yapabileceği bir alan da olabilir
  Makaledeki iddialarla atıf listesini karşılaştırıp gerçekten dayanak olup olmadığını otomatik kontrol etmek gibi bir kullanım mümkün
- Ama bazı araştırmacılar, fon sağlayıcıların (Exxon, Meta, Pfizer vb.) hoşuna gidecek sonuçlar üretmek için bilerek çarpıtma yapıyor
  Bu durumda mesele basit dikkatsizlik değil, çıkar ilişkisine dayalı manipülasyon
- Sahte atıflar buzdağının sadece görünen kısmı; atıf suistimali çok daha eski ve ciddi bir sorun
Sorun AI değil, tembellik ve dikkatsizlik diye düşünüyorum
Bir bilim insanı LLM kullanıp sahte atıflar içeren bir makale yazıyorsa, bu onun kötü bir bilim insanı olduğunu gösterir
Bu tür davranışlara toplumsal yaptırım olmazsa sonunda normalleştirilir
- Ben endüstriyel elektrikçiyim; kötü elektrik işçiliğini ancak uzmanlar fark edebilir
  Teknik doğrulama için deneyimli denetçiler gerekir
- Ama “sorun AI değil” demek, silah tartışmalarındaki “sorun silah değil, insan” kaçış mantığına benziyor
  Sonuçta sorunun AI’nin kendisi olduğunu düşünüyorum
- Marangoz benzetmesini sürdürürsek, LLM’in yaptığı raf dışarıdan sağlam görünür ama yapısal olarak zayıftır
  Dış görünüşünün iyi olması, sorunu daha da gizler
- Ben de makale bulmak için Gemini Pro kullanıyorum ama atıflar hâlâ berbat
  Yine de son 1 yılda halüsinasyonlar azaldı ve doğrulanmış makalelerle sınırlandırıldığında oldukça işe yarıyor
  Ancak araştırmacıların bu tür araçlara bağımlı olmaması için önce sürekli fon rekabeti yapısının değişmesi gerekir
- Bruce Schneier’in dediği gibi, herkes kendi doğrulayamayacağı bir algoritma yapabilir
  LLM’ler de aynı şekilde kullanıcının duymak istediği cevabı vererek doğrulama yanlılığını güçlendiriyor
  Bilimsel araştırmada LLM’leri güvenli şekilde kullanmanın bir yolu olmadığını düşünüyorum
Makaleleri gerçekten okuyunca, sorunun yalnızca metnin AI tarafından yazılması değil, fikrin kendisinin de AI üretimi olduğu birçok durum görülüyor
Yüzeyde inandırıcı görünüyor ama içerik saçma sapan
Eğer gerçek bir araştırmacı yalnızca basit bir .bib hatası yüzünden bu listeye girmişse buna üzülürüm
Avi Loeb (Harvard kuramsal fizikçisi), öğrencilerin var olmayan makalelere atıf yapma vakalarının hızla arttığını söyledi
LLM’in ürettiği kurgulara olduğu gibi inanıyorlar ve doğrulama bile yapmıyorlar
İlgili yazı: How AI is making us dumber
- Ancak Loeb, UFO iddialarıyla da tanınan biri olduğu için güvenilirliği tartışmalı
- Bazıları onu güvenilmez bir figür olarak görüyor
- Bence bu olgu, liderlikteki sorumluluktan kaçma kültüründen kaynaklanıyor
  Yukarıdakilerin kötü örnek olup aşağıdakileri azarlaması kötü bir eğitim biçimi
Bu çalışmanın tüm yanlış atıfları gerçekten LLM halüsinasyonu sayıp saymadığını merak ediyorum
LLM öncesi makalelerde de bu tür hatalar var mıydı; bir baz çizgisi analizi gerekli
- Makalede ‘Defining Hallucitations’ bölümü var; orada sahte atıf tanımı ve false positive sorunu açıklanıyor
  Aynı araç 2010’lar makalelerine uygulanırsa nasıl bir sonuç çıkacağını merak ediyorum
- Benim de yüksek lisans dönemimde .bib dosyamda küçük bir hata olmuştu
  Çoğu dergi atıfları DOI tabanlı doğruladığı için geçmiş makalelerle de karşılaştırmalı analiz yapılmalı
- Gerçekten yayımlanmış makalelere bakınca AI üretimi izler çok belirgin
  Sadece konu başlığını verseniz bile LLM benzer bir makale üretecek kadar benzeşiyorlar
- Aslında LLM öncesinde de insanlar hata yapıyordu ve kitaplarla makalelerde de çok sayıda yanlış vardı
  Nedeni insanın kusurlu bilgi sistemi; bu yalnızca LLM’lere özgü bir sorun değil
- Özetle, onların aracı bu tür doğrulamayı zaten yapıyor
Akran değerlendirmesinin amacı yalnızca hata tespiti değil, yenilik ve olgunluk değerlendirmesidir
O halde dikkatsizliği önleyecek teşvikler gerekli
Örneğin yayınevleri, ciddi dikkatsizlikleri bulan kişilere ödül verecek bir ödül sistemi kurabilir ya da
tekrar tekrar dikkatsizlik yapan araştırmacıları ifşa eden bir Wall of Shame işletebilir
- Ya da makale gönderiminde otomatik atıf kontrolü çalıştırıp bir iki gün içinde hataları bildiren bir sistem çok iyi olurdu
15 yıldır Zotero gibi atıf yönetim araçları kullanıyorum ama hâlâ yazar adları yanlış olan bu kadar çok atıf olması şaşırtıcı
.bib dosyası göndermeyi zorunlu kılmak, DOI doğrulamasıyla temel kalite kontrolü sağlamayı mümkün kılardı
Bu kadar temel bir doğrulamanın bile yapılmıyor olması şok edici
- Ama Zotero da kusursuz değil
  Yazarların kendi makalelerini bile yanlış atıfla verdiği oluyor ve DOI doğru olsa da yazar adı yazım hataları çok yaygın
  Araçlar sayesinde atıf sayısı arttı ve hata oranı düştü ama yine de makale başına en az bir hata kalıyor
20 bin başvurudan sadece 300’ü incelenmişken bile yüzlerce halüsinasyon makalesi bulunduysa, gerçek ölçek çok daha büyük olmalı
- Tek bir konferansta 20 bin başvuru olması bile başlı başına anormal bir ölçek
LLM halüsinasyonları tasarımsal bir özellik
İstatistiksel olarak makul görünen çıktı üretme sürecinde sahte atıflar doğal olarak ortaya çıkıyor
Ama makinenin gerçek atıflar üretmesi teknik olarak mümkün
Ne var ki mevcut LLM’ler, bizim istediğimiz ‘doğru atıf üretimi’ yerine, yalnızca biçim olarak benzeyen çıktılar veriyor

dbs0829 2025-12-08

Uzun zamandır LLM'lerin insanlığın gelişimini aksatabilecekleri düşüncesine sahibim; bu bağlamda aklıma gelen sorunun şimdi gündeme çıkmış olması dikkat çekici. Bilişsel yükü azaltmak, insan açısından adeta bir uyuşturucu gibi görünüyor. Ben de araştırma yapıyorum ve ekip içinde de LLM modelleri ne kadar çok kullanılırsa düşünmeme alışkanlığının o kadar yerleştiği yönünde bir temkin var. Muhtemelen bu sorun giderek daha da derinleşecek. Hacim, hakem değerlendirmesiyle kapsanması zor bir seviyeye kadar şiştiği için başka yöntemler bulmak gerekecek gibi görünüyor. Son dönemde ünlü konferanslara yapılan makale başvuru sayılarının ciddi biçimde arttığını görüyoruz; sanırım bunun nedeni de benzer olabilir.