- GPTZero, ICLR 2026 başvuru makalelerinde 50'nin üzerinde alıntı hatası ve sahte yazar bilgisi tespit etti
- Her makale OpenReview bağlantısıyla birlikte gerçek olup olmadığı ve alıntı eşleşmesinin doğrulandığını gösterdi
- Birçok örnekte olmayan yazarlar, yanlış yıl, farklı makale başlığı bulunduğu doğrulandı
- Bazı makaleler gerçek bir çalışmayla kısmen eşleşiyor ancak ayrıntılı meta veriler bozulmuş durumda
- Akademik başvurularda bile yapay zeka kaynaklı halüsinasyon (hallucination) meselesinin yayılımını gösteren bir örnek
GPTZero'nun ICLR 2026 Halüsinasyon Tespit Sonuçları
- GPTZero, ICLR 2026 başvuru makalelerinde alıntı ve yazar bilgisini otomatik olarak doğruladı
- Her makale OpenReview bağlantısı, GPTZero doğrulama bağlantısı ve alıntı bilgisiyle birlikte sunuldu
- Doğrulama sonuçlarına göre, 50'nin üzerinde çalışmada yanlış alıntı veya mevcut olmayan yazar bulundu
Temsilî Halüsinasyon Örnekleri
- TamperTok makalesi gerçek olsa da tüm yazar bilgileri yanlış
- MixtureVitae makalesinin ilk 3 yazarı eşleşirken kalan 7 yazar mevcut değil
- OrtSAE, Principled Policy Optimization, IMPQ gibi çalışmalarda gerçek makale ile başlık veya yazar bilgisi eşleşmiyor
- PDMBench için benzer bir makale mevcut olsa da yılı ve başlığı farklı
- C3-OWD, GRF-LLM gibi örnekler kısmi eşleşme kategorisinde
Tam Uyumlu Olmayan Örnekler
- Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI gibi başvurularda atıfta bulunulan makale bulunmuyor
- SAFE-LLM, Typed Chain-of-Thought, MANTA gibi örneklerde benzer bir makale olmasına karşın meta veri eşleşmiyor
- AI-Assisted Medical Triage Assistant, QUART, KARMA gibi başvurular tamamen alakasız makalelere atıf yapıyor
Doğrulama Yöntemi ve Sonuç Türleri
- GPTZero, her alıntıyı gerçek veritabanlarıyla (ör. arXiv, NeurIPS, ICLR, ACL vb.) karşılaştırdı
- Sonuçlar “mevcut”, “kısmi eşleşme”, “uyumsuzluk” ve “sahte yazar” olarak sınıflandırıldı
- Bazı kayıtlar, gerçek bir makale mevcut olsa da yazar, yıl ve başlığın tamamının farklı olduğu şeklinde işaretlendi
Anlamı ve Çıkarımlar
- ICLR 2026 başvurularının çoğunda yapay zeka üretimi metin halüsinasyonu doğrudan yer alıyor
- Akademik makale yazım sürecinde de otomatik doğrulama araçlarına duyulan ihtiyaç ön plana çıkıyor
- GPTZero'nun bulguları, yapay zeka ile üretilen içeriğin güvenilirliğini doğrulama çerçevesinin güçlendirilmesi gerekliliğini gösteriyor
4 yorum
Benzer bilgi düzeyine sahip yapay zekalarda tekrar tekrar daha fazla ilerleme kaydetmek mümkün mü?
Eğer değilse, o zaman dünyayı yalnızca aynı klon insanların klon yazıları kaplayacak ve bunun içinde iyiyi kötüden ayırmak daha da zorlaşacak gibi görünüyor.
Hacker News görüşü
Bunun açıkça mesleki etik dışı davranış olduğunu düşünüyorum
Araştırma ekibimde biri böyle bir şey yapsaydı işten çıkarılma riskiyle karşı karşıya kalırdı
Bir hakem olarak yazarın yalan söylediğini görürsem makalenin tamamına güvenemem ve etik açıdan bunun derhal reddedilmesi gerektiğini düşünürüm
Hatalar yaygındır, ama bu bambaşka bir seviye
Batı dünyasında bireysel dürüstlüğün akademinin tamamındaki güveni ayakta tuttuğu düşünülürken, Orta Doğu, Hindistan ve Çin çevrelerinde bu tür davranışların sorumluluğunu dergilere yükleme eğilimi var
Bu fark anlaşılmazsa işbirliği çok kafa karıştırıcı hale geliyor
Deneyimime göre makale kalitesini düşüren başlıca sorun yanlış atıf
Atıfın hiç olmamasındansa, atıf yapılan kaynağın aslında söyleneni söylememesi ya da bağlamı çarpıtması çok daha sık görülüyor
Bu tür hataları bulmak için orijinal metni okuyup anlamak gerekiyor, bu da inanılmaz zaman alıyor
Bu tür davranışlar basit bir hata değil, bilginin aşınmasına yol açıyor; bu yüzden “3 uyarıdan sonra ihraç” gibi yaptırımlar gerekli
Makaledeki iddialarla atıf listesini karşılaştırıp gerçekten dayanak olup olmadığını otomatik kontrol etmek gibi bir kullanım mümkün
Bu durumda mesele basit dikkatsizlik değil, çıkar ilişkisine dayalı manipülasyon
Sorun AI değil, tembellik ve dikkatsizlik diye düşünüyorum
Bir bilim insanı LLM kullanıp sahte atıflar içeren bir makale yazıyorsa, bu onun kötü bir bilim insanı olduğunu gösterir
Bu tür davranışlara toplumsal yaptırım olmazsa sonunda normalleştirilir
Teknik doğrulama için deneyimli denetçiler gerekir
Sonuçta sorunun AI’nin kendisi olduğunu düşünüyorum
Dış görünüşünün iyi olması, sorunu daha da gizler
Yine de son 1 yılda halüsinasyonlar azaldı ve doğrulanmış makalelerle sınırlandırıldığında oldukça işe yarıyor
Ancak araştırmacıların bu tür araçlara bağımlı olmaması için önce sürekli fon rekabeti yapısının değişmesi gerekir
LLM’ler de aynı şekilde kullanıcının duymak istediği cevabı vererek doğrulama yanlılığını güçlendiriyor
Bilimsel araştırmada LLM’leri güvenli şekilde kullanmanın bir yolu olmadığını düşünüyorum
Makaleleri gerçekten okuyunca, sorunun yalnızca metnin AI tarafından yazılması değil, fikrin kendisinin de AI üretimi olduğu birçok durum görülüyor
Yüzeyde inandırıcı görünüyor ama içerik saçma sapan
Eğer gerçek bir araştırmacı yalnızca basit bir
.bibhatası yüzünden bu listeye girmişse buna üzülürümAvi Loeb (Harvard kuramsal fizikçisi), öğrencilerin var olmayan makalelere atıf yapma vakalarının hızla arttığını söyledi
LLM’in ürettiği kurgulara olduğu gibi inanıyorlar ve doğrulama bile yapmıyorlar
İlgili yazı: How AI is making us dumber
Yukarıdakilerin kötü örnek olup aşağıdakileri azarlaması kötü bir eğitim biçimi
Bu çalışmanın tüm yanlış atıfları gerçekten LLM halüsinasyonu sayıp saymadığını merak ediyorum
LLM öncesi makalelerde de bu tür hatalar var mıydı; bir baz çizgisi analizi gerekli
Aynı araç 2010’lar makalelerine uygulanırsa nasıl bir sonuç çıkacağını merak ediyorum
.bibdosyamda küçük bir hata olmuştuÇoğu dergi atıfları DOI tabanlı doğruladığı için geçmiş makalelerle de karşılaştırmalı analiz yapılmalı
Sadece konu başlığını verseniz bile LLM benzer bir makale üretecek kadar benzeşiyorlar
Nedeni insanın kusurlu bilgi sistemi; bu yalnızca LLM’lere özgü bir sorun değil
Akran değerlendirmesinin amacı yalnızca hata tespiti değil, yenilik ve olgunluk değerlendirmesidir
O halde dikkatsizliği önleyecek teşvikler gerekli
Örneğin yayınevleri, ciddi dikkatsizlikleri bulan kişilere ödül verecek bir ödül sistemi kurabilir ya da
tekrar tekrar dikkatsizlik yapan araştırmacıları ifşa eden bir Wall of Shame işletebilir
15 yıldır Zotero gibi atıf yönetim araçları kullanıyorum ama hâlâ yazar adları yanlış olan bu kadar çok atıf olması şaşırtıcı
.bibdosyası göndermeyi zorunlu kılmak, DOI doğrulamasıyla temel kalite kontrolü sağlamayı mümkün kılardıBu kadar temel bir doğrulamanın bile yapılmıyor olması şok edici
Yazarların kendi makalelerini bile yanlış atıfla verdiği oluyor ve DOI doğru olsa da yazar adı yazım hataları çok yaygın
Araçlar sayesinde atıf sayısı arttı ve hata oranı düştü ama yine de makale başına en az bir hata kalıyor
20 bin başvurudan sadece 300’ü incelenmişken bile yüzlerce halüsinasyon makalesi bulunduysa, gerçek ölçek çok daha büyük olmalı
LLM halüsinasyonları tasarımsal bir özellik
İstatistiksel olarak makul görünen çıktı üretme sürecinde sahte atıflar doğal olarak ortaya çıkıyor
Ama makinenin gerçek atıflar üretmesi teknik olarak mümkün
Ne var ki mevcut LLM’ler, bizim istediğimiz ‘doğru atıf üretimi’ yerine, yalnızca biçim olarak benzeyen çıktılar veriyor
Uzun zamandır LLM'lerin insanlığın gelişimini aksatabilecekleri düşüncesine sahibim; bu bağlamda aklıma gelen sorunun şimdi gündeme çıkmış olması dikkat çekici. Bilişsel yükü azaltmak, insan açısından adeta bir uyuşturucu gibi görünüyor. Ben de araştırma yapıyorum ve ekip içinde de LLM modelleri ne kadar çok kullanılırsa düşünmeme alışkanlığının o kadar yerleştiği yönünde bir temkin var. Muhtemelen bu sorun giderek daha da derinleşecek. Hacim, hakem değerlendirmesiyle kapsanması zor bir seviyeye kadar şiştiği için başka yöntemler bulmak gerekecek gibi görünüyor. Son dönemde ünlü konferanslara yapılan makale başvuru sayılarının ciddi biçimde arttığını görüyoruz; sanırım bunun nedeni de benzer olabilir.
Katılıyorum. Bu şekilde devam ederse insan beyninin giderek küçülecek gibi görünüyor.
Sonunda yapay zekanın insanlara hükmettiği senaryo, belki de şu anda düşünebildiğimiz en üst düzey düşünce olabilir. İleride ise o düşünceye bile ulaşamayacak kadar, yeni bir dönüşüm olmadan sadece AI tarafından kontrol edilene kadar süren bir yakınsama aralığı kalabilir.