- Uluslararası Makine Öğrenimi Konferansı ICLR 2026'nın makale inceleme raporlarının yaklaşık %21'i tamamen yapay zeka tarafından yazılmış olarak tespit edildi
- Pangram Labs'in AI tespit aracı, 75.800 inceleme raporunu analiz ederek yarısından fazlasında AI kullanım izleri buldu
- Bazı araştırmacılar aşırı uzun veya hatalı geribildirimler alarak AI tarafından oluşturulmuş olabileceğini gündeme getirdi
- Konferans, AI kullanımının inceleme politikalarını ihlal edip etmediğini otomatik araçlarla kontrol edeceğini duyurdu ve güveni yeniden tesis sürecine girdi
- Bu olay, akademik değerlendirme sürecinde şeffaflık ve güvenilirliğin hızlıca sağlanması gerektiğine işaret ediyor
ICLR 2026 makale incelemelerinde ortaya çıkan AI kullanım durumu
- Uluslararası Makine Öğrenimi Konferansı ICLR 2026'da yapılan inceleme raporlarının yaklaşık %21'i tamamen AI tarafından yazılmış olarak analiz edildi; yarısından fazlasında ise AI etkisi bulundu
- Analiz, Pangram Labs tarafından gerçekleştirildi ve toplam 19.490 makale ile 75.800 inceleme raporu üzerinden yapıldı
- Pangram, AI tarafından üretilmiş metinleri tespit eden bir araç kullanarak bulguları yayımladı
- Konferans, AI kullanımının inceleme kurallarını ihlal edip etmediğini otomatik araçlarla inceleme planını açıkladı
- ICLR 2026’nın program sorumlusu bunu AI ile oluşturulmuş inceleme sorunlarının geniş çapta ilk kez bu kadar görünür olduğu bir vaka olarak nitelendirdi
Araştırmacıların endişeleri ve inceleme süreci
- Birçok araştırmacı, AI tarafından yazılmış olabileceği şüphesi bulunan değerlendirme notlarını sosyal medyada paylaştı
- Bazı notlarda "uydurulmuş atıf" (hallucinated citations) veya muğlak ve uzun uzadıya geribildirim yer alıyordu
- Carnegie Mellon Üniversitesi'nden Graham Neubig, olağandışı görülen incelemeler için AI üretimi doğrulaması talep etti
- X'te (eski adıyla Twitter) bir ödül ilanı paylaştı; Pangram Labs'in Max Spero ise buna yanıt verip kapsamlı bir inceleme yaptı
- Pangram, 12 saat içinde tüm gönderilerin metinlerini analiz edecek bir kod yazdıklarını belirtti
Pangram Labs sonuçları
- Pangram'ın aracı, LLM (büyük dil modelleri) tarafından üretilen veya düzenlenen metni tahmin etmek üzerine çalışıyor
- Sonuçlarda 15.899 inceleme raporunun tamamen AI tarafından oluşturulmuş, ayrıca 199 makalenin (%1) tamamen AI ile yazılmış** olduğu** belirlendi
- %61 makale insan tarafından yazılmış, %9 ise yarısından fazlası AI tarafından oluşturulmuş metin içeriyor
- Pangram, kendi modelini ICLR 2026'da preprint olarak sundu; o makale için yapılan bazı incelemeler de AI tarafından yazılmış olarak işaretlendi
Araştırmacıların tepkisi
- Kopenhag Üniversitesi'nden Desmond Elliott, kendi bir makalesine verilen bir değerlendirmede çalışmanın ana fikrinin yanlış anlaşıldığını ve yanlış rakamların kullanıldığını belirtti
- Doktora öğrencisi, ilgili incelemenin LLM tarafından yazılmış olabileceğini öne sürdü
- Pangram analizine göre bu inceleme gerçekten de tamamen AI tarafından üretilmiş çıktı
- Bu inceleme çalışmaya en düşük puanı vererek metnin kabul edilme eşiğinin kenarına düşmesine neden oldu
Konferansın tepkisi ve sonraki adımlar
- Konferans, AI kullanımını tespit edecek otomatik araçları devreye sokacağını duyurarak değerlendirme güvenilirliğini yeniden tesis etmeyi hedefliyor
- Program sorumlusu, bu süreçte güvenin tanımının yeniden yapılması gerektiğini ifade etti
- Bu olay, AI'nın akademik değerlendirme sürecine derinlemesine nüfuz ettiğine işaret eden bir örnek olarak, araştırma değerlendirmelerinde şeffaflığın güvenceye alınmasını merkezî bir konu haline getirdi
2 yorum
Oldukça ilginç birçok değerlendirme örneği varmış
https://reddit.com/r/MachineLearning/…
Hacker News görüşleri
Yazımda AI bağımlılığının arttığını düşünüyorum, ancak bu yazıda kullanılan metodoloji Pangram reklamı gibi görünüyor
AI dedektörlerinin çoğu güvenilir değil ve LLM kullanmamış kişilere hatta zarar veriyor
İlgili tartışmalar bu bağlantıda görülebilir
GPTZero gibi eski dedektörleri düşünüyorsanız, son dönemdeki performans artışlarını görmemişsinizdir
Chicago Üniversitesi'nden iktisatçıların makalesine göre, insan yazımı 1.992 belgede 0 yanlış pozitif, AI belgelerinde ise %99'un üzerinde tespit oranı elde edildi
Bu çalışmadaki gibi istatistiksel analiz için kullanılmaları sorun değil
Gerçekte AI ile yazılmış makale neredeyse yok, buna karşılık özellikle incelemelerde yoğun kullanılması doğal bir sonuç
Bu çifte standart ilginç
%20 rakamı doğru olsun ya da olmasın, üst düzey konferanslarda inceleme kalitesindeki düşüşü herkes hissediyor
Bazı alanlarda gerçekten reviewer danışıklılığı var ve buna AC'lerin karıştığı durumlar da olmuş
Artık kimse bir makaleyi sırf ‘ilke olarak doğru olan bu’ diye özenle incelemiyor
Kariyer için yazılan makaleler fazla çoğalınca, reviewer'lar daha az önem vermeye başlıyor
Pangram'ın analizine göre ICLR incelemelerinin %21'i tamamen AI üretimi, yarısından fazlası ise AI izi içeriyor
Ama “kanıt”ın ne olduğu ve AI üretimi olduğunun nasıl ispatlanabildiği soru işareti
Bu tür araçlar o amaç için uygundur
Çoğunun AI ile yazıldığını ‘hissediyorum’, ama kanıtlayamadığım için hiçbir işlem yapamıyorum
Metadata gibi ek bilgiler olmadan, bunu bir LLM'in yazıp yazmadığını belirlemeye çalışmak anlamsız
Başlık doğru olabilir, ama AI dedektörlerinin güvenilirliği hâlâ düşük
Pangram'ın aracının bu kötü şöhreti geride bıraktığına dair bir kanıt yok
Blog yazısında bunu ayrıntılı anlattık
ICLR 2022 incelemelerinin 10.202 tanesinde 10.190'ı insan yazımıydı, yalnızca 12'sinde AI düzenleme izi vardı
Tek tek kişileri suçlayamayız ama çok sayıda incelemenin AI'ya bırakıldığına neredeyse emin olabiliriz
“İncelemelerin %21'i AI üretimi” başlığını görünce, bende tersine beklediğimden daha düşük bir izlenim uyandı
Kaza incelemelerinde anlatılan ‘İsviçre peyniri deliklerinin aynı hizaya gelmesi’ gibi, biriken görev ihmallerinin sonucu
İlk başta şaşırdım ama %21 aslında şaşırtıcı derecede düşük bir oran
Üstelik bu sayı AI dedektörü satan bir şirketten geldiği için, yanlış pozitif ihtimali de var
Asıl mesele incelemelerin AI tarafından yazılıp yazılmadığı değil, incelemelerin doğruluğu
Konferanslar ‘akran değerlendirmesi’ iddiasında bulunuyor, ne kadar iyi olursa olsun hiçbir AI bir akran değildir
Pangram'ın AI tespiti üzerinden öfke uyandırıp clickbait peşinde koştuğu izlenimi veriyor
Sonuçta AI'nin yarattığı canavarın ilk kurbanları, onu yaratan programcılar, araştırmacılar ve üniversiteler gibi bilgi emekçileri oluyor
Bu konferans daha önce tüm reviewer'ların kimliğinin kısa süreliğine açığa çıktığı OpenReview hatasıyla da gündeme gelmişti
İlgili habere göre, sonrasında puanlar sıfırlanmış ve yeni AC'ler yeniden karar vermişti
İleride tüm makalelere varsayılan olarak AI incelemesi sunmak ve insan reviewer'ların bunu tamamlaması daha iyi olabilir
Böylece reviewer AI çıktısını gözden geçirir ve yazarlar da öngörülebilir geri bildirim alır
Elbette insan reviewer'lar yine AI kullanabilir, ama aynı şey yazarlar için de geçerli olur