3 puan yazan GN⁺ 2025-12-08 | 4 yorum | WhatsApp'ta paylaş
  • GPTZero, ICLR 2026 başvuru makalelerinde 50'nin üzerinde alıntı hatası ve sahte yazar bilgisi tespit etti
  • Her makale OpenReview bağlantısıyla birlikte gerçek olup olmadığı ve alıntı eşleşmesinin doğrulandığını gösterdi
  • Birçok örnekte olmayan yazarlar, yanlış yıl, farklı makale başlığı bulunduğu doğrulandı
  • Bazı makaleler gerçek bir çalışmayla kısmen eşleşiyor ancak ayrıntılı meta veriler bozulmuş durumda
  • Akademik başvurularda bile yapay zeka kaynaklı halüsinasyon (hallucination) meselesinin yayılımını gösteren bir örnek

GPTZero'nun ICLR 2026 Halüsinasyon Tespit Sonuçları

  • GPTZero, ICLR 2026 başvuru makalelerinde alıntı ve yazar bilgisini otomatik olarak doğruladı
    • Her makale OpenReview bağlantısı, GPTZero doğrulama bağlantısı ve alıntı bilgisiyle birlikte sunuldu
    • Doğrulama sonuçlarına göre, 50'nin üzerinde çalışmada yanlış alıntı veya mevcut olmayan yazar bulundu

Temsilî Halüsinasyon Örnekleri

  • TamperTok makalesi gerçek olsa da tüm yazar bilgileri yanlış
  • MixtureVitae makalesinin ilk 3 yazarı eşleşirken kalan 7 yazar mevcut değil
  • OrtSAE, Principled Policy Optimization, IMPQ gibi çalışmalarda gerçek makale ile başlık veya yazar bilgisi eşleşmiyor
  • PDMBench için benzer bir makale mevcut olsa da yılı ve başlığı farklı
  • C3-OWD, GRF-LLM gibi örnekler kısmi eşleşme kategorisinde
Reklam

Tam Uyumlu Olmayan Örnekler

  • Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI gibi başvurularda atıfta bulunulan makale bulunmuyor
  • SAFE-LLM, Typed Chain-of-Thought, MANTA gibi örneklerde benzer bir makale olmasına karşın meta veri eşleşmiyor
  • AI-Assisted Medical Triage Assistant, QUART, KARMA gibi başvurular tamamen alakasız makalelere atıf yapıyor

Doğrulama Yöntemi ve Sonuç Türleri

  • GPTZero, her alıntıyı gerçek veritabanlarıyla (ör. arXiv, NeurIPS, ICLR, ACL vb.) karşılaştırdı
    • Sonuçlar “mevcut”, “kısmi eşleşme”, “uyumsuzluk” ve “sahte yazar” olarak sınıflandırıldı
    • Bazı kayıtlar, gerçek bir makale mevcut olsa da yazar, yıl ve başlığın tamamının farklı olduğu şeklinde işaretlendi

Anlamı ve Çıkarımlar

  • ICLR 2026 başvurularının çoğunda yapay zeka üretimi metin halüsinasyonu doğrudan yer alıyor
  • Akademik makale yazım sürecinde de otomatik doğrulama araçlarına duyulan ihtiyaç ön plana çıkıyor
  • GPTZero'nun bulguları, yapay zeka ile üretilen içeriğin güvenilirliğini doğrulama çerçevesinin güçlendirilmesi gerekliliğini gösteriyor

4 yorum

 
shakespeares 2025-12-09

Benzer bilgi düzeyine sahip yapay zekalarda tekrar tekrar daha fazla ilerleme kaydetmek mümkün mü?
Eğer değilse, o zaman dünyayı yalnızca aynı klon insanların klon yazıları kaplayacak ve bunun içinde iyiyi kötüden ayırmak daha da zorlaşacak gibi görünüyor.

 
GN⁺ 2025-12-08
Hacker News görüşü
  • Bunun açıkça mesleki etik dışı davranış olduğunu düşünüyorum
    Araştırma ekibimde biri böyle bir şey yapsaydı işten çıkarılma riskiyle karşı karşıya kalırdı
    Bir hakem olarak yazarın yalan söylediğini görürsem makalenin tamamına güvenemem ve etik açıdan bunun derhal reddedilmesi gerektiğini düşünürüm
    Hatalar yaygındır, ama bu bambaşka bir seviye

    • Bu aynı zamanda bir kültürel fark meselesi gibi görünüyor
      Batı dünyasında bireysel dürüstlüğün akademinin tamamındaki güveni ayakta tuttuğu düşünülürken, Orta Doğu, Hindistan ve Çin çevrelerinde bu tür davranışların sorumluluğunu dergilere yükleme eğilimi var
      Bu fark anlaşılmazsa işbirliği çok kafa karıştırıcı hale geliyor
  • Deneyimime göre makale kalitesini düşüren başlıca sorun yanlış atıf
    Atıfın hiç olmamasındansa, atıf yapılan kaynağın aslında söyleneni söylememesi ya da bağlamı çarpıtması çok daha sık görülüyor
    Bu tür hataları bulmak için orijinal metni okuyup anlamak gerekiyor, bu da inanılmaz zaman alıyor
    Bu tür davranışlar basit bir hata değil, bilginin aşınmasına yol açıyor; bu yüzden “3 uyarıdan sonra ihraç” gibi yaptırımlar gerekli

    • Bu doğrulama aslında LLM’lerin iyi yapabileceği bir alan da olabilir
      Makaledeki iddialarla atıf listesini karşılaştırıp gerçekten dayanak olup olmadığını otomatik kontrol etmek gibi bir kullanım mümkün
    • Ama bazı araştırmacılar, fon sağlayıcıların (Exxon, Meta, Pfizer vb.) hoşuna gidecek sonuçlar üretmek için bilerek çarpıtma yapıyor
      Bu durumda mesele basit dikkatsizlik değil, çıkar ilişkisine dayalı manipülasyon
    • Sahte atıflar buzdağının sadece görünen kısmı; atıf suistimali çok daha eski ve ciddi bir sorun
  • Sorun AI değil, tembellik ve dikkatsizlik diye düşünüyorum
    Bir bilim insanı LLM kullanıp sahte atıflar içeren bir makale yazıyorsa, bu onun kötü bir bilim insanı olduğunu gösterir
    Bu tür davranışlara toplumsal yaptırım olmazsa sonunda normalleştirilir

    • Ben endüstriyel elektrikçiyim; kötü elektrik işçiliğini ancak uzmanlar fark edebilir
      Teknik doğrulama için deneyimli denetçiler gerekir
    • Ama “sorun AI değil” demek, silah tartışmalarındaki “sorun silah değil, insan” kaçış mantığına benziyor
      Sonuçta sorunun AI’nin kendisi olduğunu düşünüyorum
    • Marangoz benzetmesini sürdürürsek, LLM’in yaptığı raf dışarıdan sağlam görünür ama yapısal olarak zayıftır
      Dış görünüşünün iyi olması, sorunu daha da gizler
    • Ben de makale bulmak için Gemini Pro kullanıyorum ama atıflar hâlâ berbat
      Yine de son 1 yılda halüsinasyonlar azaldı ve doğrulanmış makalelerle sınırlandırıldığında oldukça işe yarıyor
      Ancak araştırmacıların bu tür araçlara bağımlı olmaması için önce sürekli fon rekabeti yapısının değişmesi gerekir
    • Bruce Schneier’in dediği gibi, herkes kendi doğrulayamayacağı bir algoritma yapabilir
      LLM’ler de aynı şekilde kullanıcının duymak istediği cevabı vererek doğrulama yanlılığını güçlendiriyor
      Bilimsel araştırmada LLM’leri güvenli şekilde kullanmanın bir yolu olmadığını düşünüyorum
  • Makaleleri gerçekten okuyunca, sorunun yalnızca metnin AI tarafından yazılması değil, fikrin kendisinin de AI üretimi olduğu birçok durum görülüyor
    Yüzeyde inandırıcı görünüyor ama içerik saçma sapan
    Eğer gerçek bir araştırmacı yalnızca basit bir .bib hatası yüzünden bu listeye girmişse buna üzülürüm

  • Avi Loeb (Harvard kuramsal fizikçisi), öğrencilerin var olmayan makalelere atıf yapma vakalarının hızla arttığını söyledi
    LLM’in ürettiği kurgulara olduğu gibi inanıyorlar ve doğrulama bile yapmıyorlar
    İlgili yazı: How AI is making us dumber

    • Ancak Loeb, UFO iddialarıyla da tanınan biri olduğu için güvenilirliği tartışmalı
    • Bazıları onu güvenilmez bir figür olarak görüyor
    • Bence bu olgu, liderlikteki sorumluluktan kaçma kültüründen kaynaklanıyor
      Yukarıdakilerin kötü örnek olup aşağıdakileri azarlaması kötü bir eğitim biçimi
  • Bu çalışmanın tüm yanlış atıfları gerçekten LLM halüsinasyonu sayıp saymadığını merak ediyorum
    LLM öncesi makalelerde de bu tür hatalar var mıydı; bir baz çizgisi analizi gerekli

    • Makalede ‘Defining Hallucitations’ bölümü var; orada sahte atıf tanımı ve false positive sorunu açıklanıyor
      Aynı araç 2010’lar makalelerine uygulanırsa nasıl bir sonuç çıkacağını merak ediyorum
    • Benim de yüksek lisans dönemimde .bib dosyamda küçük bir hata olmuştu
      Çoğu dergi atıfları DOI tabanlı doğruladığı için geçmiş makalelerle de karşılaştırmalı analiz yapılmalı
    • Gerçekten yayımlanmış makalelere bakınca AI üretimi izler çok belirgin
      Sadece konu başlığını verseniz bile LLM benzer bir makale üretecek kadar benzeşiyorlar
    • Aslında LLM öncesinde de insanlar hata yapıyordu ve kitaplarla makalelerde de çok sayıda yanlış vardı
      Nedeni insanın kusurlu bilgi sistemi; bu yalnızca LLM’lere özgü bir sorun değil
    • Özetle, onların aracı bu tür doğrulamayı zaten yapıyor
  • Akran değerlendirmesinin amacı yalnızca hata tespiti değil, yenilik ve olgunluk değerlendirmesidir
    O halde dikkatsizliği önleyecek teşvikler gerekli
    Örneğin yayınevleri, ciddi dikkatsizlikleri bulan kişilere ödül verecek bir ödül sistemi kurabilir ya da
    tekrar tekrar dikkatsizlik yapan araştırmacıları ifşa eden bir Wall of Shame işletebilir

    • Ya da makale gönderiminde otomatik atıf kontrolü çalıştırıp bir iki gün içinde hataları bildiren bir sistem çok iyi olurdu
  • 15 yıldır Zotero gibi atıf yönetim araçları kullanıyorum ama hâlâ yazar adları yanlış olan bu kadar çok atıf olması şaşırtıcı
    .bib dosyası göndermeyi zorunlu kılmak, DOI doğrulamasıyla temel kalite kontrolü sağlamayı mümkün kılardı
    Bu kadar temel bir doğrulamanın bile yapılmıyor olması şok edici

    • Ama Zotero da kusursuz değil
      Yazarların kendi makalelerini bile yanlış atıfla verdiği oluyor ve DOI doğru olsa da yazar adı yazım hataları çok yaygın
      Araçlar sayesinde atıf sayısı arttı ve hata oranı düştü ama yine de makale başına en az bir hata kalıyor
  • 20 bin başvurudan sadece 300’ü incelenmişken bile yüzlerce halüsinasyon makalesi bulunduysa, gerçek ölçek çok daha büyük olmalı

    • Tek bir konferansta 20 bin başvuru olması bile başlı başına anormal bir ölçek
  • LLM halüsinasyonları tasarımsal bir özellik
    İstatistiksel olarak makul görünen çıktı üretme sürecinde sahte atıflar doğal olarak ortaya çıkıyor
    Ama makinenin gerçek atıflar üretmesi teknik olarak mümkün
    Ne var ki mevcut LLM’ler, bizim istediğimiz ‘doğru atıf üretimi’ yerine, yalnızca biçim olarak benzeyen çıktılar veriyor

 
dbs0829 2025-12-08

Uzun zamandır LLM'lerin insanlığın gelişimini aksatabilecekleri düşüncesine sahibim; bu bağlamda aklıma gelen sorunun şimdi gündeme çıkmış olması dikkat çekici. Bilişsel yükü azaltmak, insan açısından adeta bir uyuşturucu gibi görünüyor. Ben de araştırma yapıyorum ve ekip içinde de LLM modelleri ne kadar çok kullanılırsa düşünmeme alışkanlığının o kadar yerleştiği yönünde bir temkin var. Muhtemelen bu sorun giderek daha da derinleşecek. Hacim, hakem değerlendirmesiyle kapsanması zor bir seviyeye kadar şiştiği için başka yöntemler bulmak gerekecek gibi görünüyor. Son dönemde ünlü konferanslara yapılan makale başvuru sayılarının ciddi biçimde arttığını görüyoruz; sanırım bunun nedeni de benzer olabilir.

 
shakespeares 2025-12-09

Katılıyorum. Bu şekilde devam ederse insan beyninin giderek küçülecek gibi görünüyor.
Sonunda yapay zekanın insanlara hükmettiği senaryo, belki de şu anda düşünebildiğimiz en üst düzey düşünce olabilir. İleride ise o düşünceye bile ulaşamayacak kadar, yeni bir dönüşüm olmadan sadece AI tarafından kontrol edilene kadar süren bir yakınsama aralığı kalabilir.