Önde gelen AI konferansları, AI tarafından yazılmış değerlendirme notlarıyla doluyor

(nature.com)

3 puan yazan GN⁺ 2025-12-01 | 2 yorum | WhatsApp'ta paylaş

Uluslararası Makine Öğrenimi Konferansı ICLR 2026'nın makale inceleme raporlarının yaklaşık %21'i tamamen yapay zeka tarafından yazılmış olarak tespit edildi
Pangram Labs'in AI tespit aracı, 75.800 inceleme raporunu analiz ederek yarısından fazlasında AI kullanım izleri buldu
Bazı araştırmacılar aşırı uzun veya hatalı geribildirimler alarak AI tarafından oluşturulmuş olabileceğini gündeme getirdi
Konferans, AI kullanımının inceleme politikalarını ihlal edip etmediğini otomatik araçlarla kontrol edeceğini duyurdu ve güveni yeniden tesis sürecine girdi
Bu olay, akademik değerlendirme sürecinde şeffaflık ve güvenilirliğin hızlıca sağlanması gerektiğine işaret ediyor

ICLR 2026 makale incelemelerinde ortaya çıkan AI kullanım durumu

Uluslararası Makine Öğrenimi Konferansı ICLR 2026'da yapılan inceleme raporlarının yaklaşık %21'i tamamen AI tarafından yazılmış olarak analiz edildi; yarısından fazlasında ise AI etkisi bulundu
- Analiz, Pangram Labs tarafından gerçekleştirildi ve toplam 19.490 makale ile 75.800 inceleme raporu üzerinden yapıldı
- Pangram, AI tarafından üretilmiş metinleri tespit eden bir araç kullanarak bulguları yayımladı
Konferans, AI kullanımının inceleme kurallarını ihlal edip etmediğini otomatik araçlarla inceleme planını açıkladı
- ICLR 2026’nın program sorumlusu bunu AI ile oluşturulmuş inceleme sorunlarının geniş çapta ilk kez bu kadar görünür olduğu bir vaka olarak nitelendirdi

Araştırmacıların endişeleri ve inceleme süreci

Birçok araştırmacı, AI tarafından yazılmış olabileceği şüphesi bulunan değerlendirme notlarını sosyal medyada paylaştı
- Bazı notlarda "uydurulmuş atıf" (hallucinated citations) veya muğlak ve uzun uzadıya geribildirim yer alıyordu
Carnegie Mellon Üniversitesi'nden Graham Neubig, olağandışı görülen incelemeler için AI üretimi doğrulaması talep etti
- X'te (eski adıyla Twitter) bir ödül ilanı paylaştı; Pangram Labs'in Max Spero ise buna yanıt verip kapsamlı bir inceleme yaptı
- Pangram, 12 saat içinde tüm gönderilerin metinlerini analiz edecek bir kod yazdıklarını belirtti

Pangram Labs sonuçları

Pangram'ın aracı, LLM (büyük dil modelleri) tarafından üretilen veya düzenlenen metni tahmin etmek üzerine çalışıyor
- Sonuçlarda 15.899 inceleme raporunun tamamen AI tarafından oluşturulmuş, ayrıca 199 makalenin (%1) tamamen AI ile yazılmış** olduğu** belirlendi
- %61 makale insan tarafından yazılmış, %9 ise yarısından fazlası AI tarafından oluşturulmuş metin içeriyor
Reklam
Pangram, kendi modelini ICLR 2026'da preprint olarak sundu; o makale için yapılan bazı incelemeler de AI tarafından yazılmış olarak işaretlendi

Araştırmacıların tepkisi

Kopenhag Üniversitesi'nden Desmond Elliott, kendi bir makalesine verilen bir değerlendirmede çalışmanın ana fikrinin yanlış anlaşıldığını ve yanlış rakamların kullanıldığını belirtti
- Doktora öğrencisi, ilgili incelemenin LLM tarafından yazılmış olabileceğini öne sürdü
- Pangram analizine göre bu inceleme gerçekten de tamamen AI tarafından üretilmiş çıktı
- Bu inceleme çalışmaya en düşük puanı vererek metnin kabul edilme eşiğinin kenarına düşmesine neden oldu

Konferansın tepkisi ve sonraki adımlar

Konferans, AI kullanımını tespit edecek otomatik araçları devreye sokacağını duyurarak değerlendirme güvenilirliğini yeniden tesis etmeyi hedefliyor
Program sorumlusu, bu süreçte güvenin tanımının yeniden yapılması gerektiğini ifade etti
Bu olay, AI'nın akademik değerlendirme sürecine derinlemesine nüfuz ettiğine işaret eden bir örnek olarak, araştırma değerlendirmelerinde şeffaflığın güvenceye alınmasını merkezî bir konu haline getirdi

2 yorum

yuntae 2025-12-01

Oldukça ilginç birçok değerlendirme örneği varmış
https://reddit.com/r/MachineLearning/…

GN⁺ 2025-12-01

Hacker News görüşleri

Yazımda AI bağımlılığının arttığını düşünüyorum, ancak bu yazıda kullanılan metodoloji Pangram reklamı gibi görünüyor
AI dedektörlerinin çoğu güvenilir değil ve LLM kullanmamış kişilere hatta zarar veriyor
İlgili tartışmalar bu bağlantıda görülebilir
- Ben Pangram'ın kurucu ortaklarından biriyim. Bu problem alanında gerçek ilerleme kaydettik
  GPTZero gibi eski dedektörleri düşünüyorsanız, son dönemdeki performans artışlarını görmemişsinizdir
  Chicago Üniversitesi'nden iktisatçıların makalesine göre, insan yazımı 1.992 belgede 0 yanlış pozitif, AI belgelerinde ise %99'un üzerinde tespit oranı elde edildi
- AI dedektörleri yalnızca insanları cezalandırmak için kullanıldığında zararlıdır
  Bu çalışmadaki gibi istatistiksel analiz için kullanılmaları sorun değil
  Gerçekte AI ile yazılmış makale neredeyse yok, buna karşılık özellikle incelemelerde yoğun kullanılması doğal bir sonuç
- Bazı insanlar LLM'lere güvenmezken, kendi önyargılarını doğrulayan bir araştırmaysa LLM'leri memnuniyetle kullanıyor
  Bu çifte standart ilginç
%20 rakamı doğru olsun ya da olmasın, üst düzey konferanslarda inceleme kalitesindeki düşüşü herkes hissediyor
Bazı alanlarda gerçekten reviewer danışıklılığı var ve buna AC'lerin karıştığı durumlar da olmuş
Artık kimse bir makaleyi sırf ‘ilke olarak doğru olan bu’ diye özenle incelemiyor
- Eskiden açık bir teşvik olmasa bile insanlar vicdanlı şekilde inceleme yapardı, ama o kültür tamamen kayboldu
- AI araştırmacıları çok yüksek maaşlarla transfer edilirken sistemin bozulması kaçınılmaz
- Bu olgu bir tür piyasa ayarı olarak da görülebilir
  Kariyer için yazılan makaleler fazla çoğalınca, reviewer'lar daha az önem vermeye başlıyor
Pangram'ın analizine göre ICLR incelemelerinin %21'i tamamen AI üretimi, yarısından fazlası ise AI izi içeriyor
Ama “kanıt”ın ne olduğu ve AI üretimi olduğunun nasıl ispatlanabildiği soru işareti
- “Kanıt” ifadesi uygun değildi. Ama istatistiksel analiz nesnel olabilir
  Bu tür araçlar o amaç için uygundur
- Gerçekten de metodolojilerini açıkladıkları bir makale yazdılar
- Belki de AI dedektörünün kendisi de AI'dır
- Ben de öğrenci ödevlerini notlandırırken benzer bir sorun yaşıyorum
  Çoğunun AI ile yazıldığını ‘hissediyorum’, ama kanıtlayamadığım için hiçbir işlem yapamıyorum
- Aslında yalnızca metinden ayırt etmek imkansız
  Metadata gibi ek bilgiler olmadan, bunu bir LLM'in yazıp yazmadığını belirlemeye çalışmak anlamsız
Başlık doğru olabilir, ama AI dedektörlerinin güvenilirliği hâlâ düşük
Pangram'ın aracının bu kötü şöhreti geride bıraktığına dair bir kanıt yok
- Pangram kurucu ortağı olarak söyleyeyim, bizim yanlış pozitif oranımız 10 binde 1 seviyesinde
  Blog yazısında bunu ayrıntılı anlattık
  ICLR 2022 incelemelerinin 10.202 tanesinde 10.190'ı insan yazımıydı, yalnızca 12'sinde AI düzenleme izi vardı
- Konferans makaleleri zaten kalıplaşmış bir üslup izlediği için, AI olup olmadığını ayırt etmek zor
- Makalelerde oran %1 iken incelemelerde %20 AI çıkıyorsa, bunun nedeni basitçe reviewer'ların AI'ya daha fazla dayanmasıdır
  Tek tek kişileri suçlayamayız ama çok sayıda incelemenin AI'ya bırakıldığına neredeyse emin olabiliriz
“İncelemelerin %21'i AI üretimi” başlığını görünce, bende tersine beklediğimden daha düşük bir izlenim uyandı
- Eğer %21'i tamamen AI üretimiyse, bu doğrudan apaçık bir usulsüzlük demektir
  Kaza incelemelerinde anlatılan ‘İsviçre peyniri deliklerinin aynı hizaya gelmesi’ gibi, biriken görev ihmallerinin sonucu
İlk başta şaşırdım ama %21 aslında şaşırtıcı derecede düşük bir oran
Üstelik bu sayı AI dedektörü satan bir şirketten geldiği için, yanlış pozitif ihtimali de var
Asıl mesele incelemelerin AI tarafından yazılıp yazılmadığı değil, incelemelerin doğruluğu
- Hayır, mesele bu değil
  Konferanslar ‘akran değerlendirmesi’ iddiasında bulunuyor, ne kadar iyi olursa olsun hiçbir AI bir akran değildir
- Araştırma gerçekten yararlı ve doğruysa bu daha önemlidir
  Pangram'ın AI tespiti üzerinden öfke uyandırıp clickbait peşinde koştuğu izlenimi veriyor
- Gerçekte durum şu
  1. Bir bilim insanı önyargılı bir araştırma yapıyor
  2. Reviewer AI ile yüzeyde makul görünen bir inceleme üretiyor
  3. Sonunda araştırmacı, kendi incelemesini yeniden yapmak zorunda kaldığı tuhaf bir döngü içine giriyor
Sonuçta AI'nin yarattığı canavarın ilk kurbanları, onu yaratan programcılar, araştırmacılar ve üniversiteler gibi bilgi emekçileri oluyor
Bu konferans daha önce tüm reviewer'ların kimliğinin kısa süreliğine açığa çıktığı OpenReview hatasıyla da gündeme gelmişti
İlgili habere göre, sonrasında puanlar sıfırlanmış ve yeni AC'ler yeniden karar vermişti
İleride tüm makalelere varsayılan olarak AI incelemesi sunmak ve insan reviewer'ların bunu tamamlaması daha iyi olabilir
Böylece reviewer AI çıktısını gözden geçirir ve yazarlar da öngörülebilir geri bildirim alır
Elbette insan reviewer'lar yine AI kullanabilir, ama aynı şey yazarlar için de geçerli olur

Önde gelen AI konferansları, AI tarafından yazılmış değerlendirme notlarıyla doluyor

ICLR 2026 makale incelemelerinde ortaya çıkan AI kullanım durumu

Araştırmacıların endişeleri ve inceleme süreci

Pangram Labs sonuçları

Araştırmacıların tepkisi

Konferansın tepkisi ve sonraki adımlar

İlgili okumalar

2 yorum

Hacker News görüşleri