3 puan yazan GN⁺ 2025-12-01 | 2 yorum | WhatsApp'ta paylaş
  • Uluslararası Makine Öğrenimi Konferansı ICLR 2026'nın makale inceleme raporlarının yaklaşık %21'i tamamen yapay zeka tarafından yazılmış olarak tespit edildi
  • Pangram Labs'in AI tespit aracı, 75.800 inceleme raporunu analiz ederek yarısından fazlasında AI kullanım izleri buldu
  • Bazı araştırmacılar aşırı uzun veya hatalı geribildirimler alarak AI tarafından oluşturulmuş olabileceğini gündeme getirdi
  • Konferans, AI kullanımının inceleme politikalarını ihlal edip etmediğini otomatik araçlarla kontrol edeceğini duyurdu ve güveni yeniden tesis sürecine girdi
  • Bu olay, akademik değerlendirme sürecinde şeffaflık ve güvenilirliğin hızlıca sağlanması gerektiğine işaret ediyor

ICLR 2026 makale incelemelerinde ortaya çıkan AI kullanım durumu

  • Uluslararası Makine Öğrenimi Konferansı ICLR 2026'da yapılan inceleme raporlarının yaklaşık %21'i tamamen AI tarafından yazılmış olarak analiz edildi; yarısından fazlasında ise AI etkisi bulundu
    • Analiz, Pangram Labs tarafından gerçekleştirildi ve toplam 19.490 makale ile 75.800 inceleme raporu üzerinden yapıldı
    • Pangram, AI tarafından üretilmiş metinleri tespit eden bir araç kullanarak bulguları yayımladı
  • Konferans, AI kullanımının inceleme kurallarını ihlal edip etmediğini otomatik araçlarla inceleme planını açıkladı
    • ICLR 2026’nın program sorumlusu bunu AI ile oluşturulmuş inceleme sorunlarının geniş çapta ilk kez bu kadar görünür olduğu bir vaka olarak nitelendirdi
Reklam

Araştırmacıların endişeleri ve inceleme süreci

  • Birçok araştırmacı, AI tarafından yazılmış olabileceği şüphesi bulunan değerlendirme notlarını sosyal medyada paylaştı
    • Bazı notlarda "uydurulmuş atıf" (hallucinated citations) veya muğlak ve uzun uzadıya geribildirim yer alıyordu
  • Carnegie Mellon Üniversitesi'nden Graham Neubig, olağandışı görülen incelemeler için AI üretimi doğrulaması talep etti
    • X'te (eski adıyla Twitter) bir ödül ilanı paylaştı; Pangram Labs'in Max Spero ise buna yanıt verip kapsamlı bir inceleme yaptı
    • Pangram, 12 saat içinde tüm gönderilerin metinlerini analiz edecek bir kod yazdıklarını belirtti

Pangram Labs sonuçları

  • Pangram'ın aracı, LLM (büyük dil modelleri) tarafından üretilen veya düzenlenen metni tahmin etmek üzerine çalışıyor
    • Sonuçlarda 15.899 inceleme raporunun tamamen AI tarafından oluşturulmuş, ayrıca 199 makalenin (%1) tamamen AI ile yazılmış** olduğu** belirlendi
    • %61 makale insan tarafından yazılmış, %9 ise yarısından fazlası AI tarafından oluşturulmuş metin içeriyor
    Reklam
  • Pangram, kendi modelini ICLR 2026'da preprint olarak sundu; o makale için yapılan bazı incelemeler de AI tarafından yazılmış olarak işaretlendi

Araştırmacıların tepkisi

  • Kopenhag Üniversitesi'nden Desmond Elliott, kendi bir makalesine verilen bir değerlendirmede çalışmanın ana fikrinin yanlış anlaşıldığını ve yanlış rakamların kullanıldığını belirtti
    • Doktora öğrencisi, ilgili incelemenin LLM tarafından yazılmış olabileceğini öne sürdü
    • Pangram analizine göre bu inceleme gerçekten de tamamen AI tarafından üretilmiş çıktı
    • Bu inceleme çalışmaya en düşük puanı vererek metnin kabul edilme eşiğinin kenarına düşmesine neden oldu

Konferansın tepkisi ve sonraki adımlar

  • Konferans, AI kullanımını tespit edecek otomatik araçları devreye sokacağını duyurarak değerlendirme güvenilirliğini yeniden tesis etmeyi hedefliyor
  • Program sorumlusu, bu süreçte güvenin tanımının yeniden yapılması gerektiğini ifade etti
  • Bu olay, AI'nın akademik değerlendirme sürecine derinlemesine nüfuz ettiğine işaret eden bir örnek olarak, araştırma değerlendirmelerinde şeffaflığın güvenceye alınmasını merkezî bir konu haline getirdi

2 yorum

 
yuntae 2025-12-01

Oldukça ilginç birçok değerlendirme örneği varmış
https://reddit.com/r/MachineLearning/…

 
GN⁺ 2025-12-01
Hacker News görüşleri
  • Yazımda AI bağımlılığının arttığını düşünüyorum, ancak bu yazıda kullanılan metodoloji Pangram reklamı gibi görünüyor
    AI dedektörlerinin çoğu güvenilir değil ve LLM kullanmamış kişilere hatta zarar veriyor
    İlgili tartışmalar bu bağlantıda görülebilir

    • Ben Pangram'ın kurucu ortaklarından biriyim. Bu problem alanında gerçek ilerleme kaydettik
      GPTZero gibi eski dedektörleri düşünüyorsanız, son dönemdeki performans artışlarını görmemişsinizdir
      Chicago Üniversitesi'nden iktisatçıların makalesine göre, insan yazımı 1.992 belgede 0 yanlış pozitif, AI belgelerinde ise %99'un üzerinde tespit oranı elde edildi
    • AI dedektörleri yalnızca insanları cezalandırmak için kullanıldığında zararlıdır
      Bu çalışmadaki gibi istatistiksel analiz için kullanılmaları sorun değil
      Gerçekte AI ile yazılmış makale neredeyse yok, buna karşılık özellikle incelemelerde yoğun kullanılması doğal bir sonuç
    • Bazı insanlar LLM'lere güvenmezken, kendi önyargılarını doğrulayan bir araştırmaysa LLM'leri memnuniyetle kullanıyor
      Bu çifte standart ilginç
  • %20 rakamı doğru olsun ya da olmasın, üst düzey konferanslarda inceleme kalitesindeki düşüşü herkes hissediyor
    Bazı alanlarda gerçekten reviewer danışıklılığı var ve buna AC'lerin karıştığı durumlar da olmuş
    Artık kimse bir makaleyi sırf ‘ilke olarak doğru olan bu’ diye özenle incelemiyor

    • Eskiden açık bir teşvik olmasa bile insanlar vicdanlı şekilde inceleme yapardı, ama o kültür tamamen kayboldu
    • AI araştırmacıları çok yüksek maaşlarla transfer edilirken sistemin bozulması kaçınılmaz
    • Bu olgu bir tür piyasa ayarı olarak da görülebilir
      Kariyer için yazılan makaleler fazla çoğalınca, reviewer'lar daha az önem vermeye başlıyor
  • Pangram'ın analizine göre ICLR incelemelerinin %21'i tamamen AI üretimi, yarısından fazlası ise AI izi içeriyor
    Ama “kanıt”ın ne olduğu ve AI üretimi olduğunun nasıl ispatlanabildiği soru işareti

    • “Kanıt” ifadesi uygun değildi. Ama istatistiksel analiz nesnel olabilir
      Bu tür araçlar o amaç için uygundur
    • Gerçekten de metodolojilerini açıkladıkları bir makale yazdılar
    • Belki de AI dedektörünün kendisi de AI'dır
    • Ben de öğrenci ödevlerini notlandırırken benzer bir sorun yaşıyorum
      Çoğunun AI ile yazıldığını ‘hissediyorum’, ama kanıtlayamadığım için hiçbir işlem yapamıyorum
    • Aslında yalnızca metinden ayırt etmek imkansız
      Metadata gibi ek bilgiler olmadan, bunu bir LLM'in yazıp yazmadığını belirlemeye çalışmak anlamsız
  • Başlık doğru olabilir, ama AI dedektörlerinin güvenilirliği hâlâ düşük
    Pangram'ın aracının bu kötü şöhreti geride bıraktığına dair bir kanıt yok

    • Pangram kurucu ortağı olarak söyleyeyim, bizim yanlış pozitif oranımız 10 binde 1 seviyesinde
      Blog yazısında bunu ayrıntılı anlattık
      ICLR 2022 incelemelerinin 10.202 tanesinde 10.190'ı insan yazımıydı, yalnızca 12'sinde AI düzenleme izi vardı
    • Konferans makaleleri zaten kalıplaşmış bir üslup izlediği için, AI olup olmadığını ayırt etmek zor
    • Makalelerde oran %1 iken incelemelerde %20 AI çıkıyorsa, bunun nedeni basitçe reviewer'ların AI'ya daha fazla dayanmasıdır
      Tek tek kişileri suçlayamayız ama çok sayıda incelemenin AI'ya bırakıldığına neredeyse emin olabiliriz
  • “İncelemelerin %21'i AI üretimi” başlığını görünce, bende tersine beklediğimden daha düşük bir izlenim uyandı

    • Eğer %21'i tamamen AI üretimiyse, bu doğrudan apaçık bir usulsüzlük demektir
      Kaza incelemelerinde anlatılan ‘İsviçre peyniri deliklerinin aynı hizaya gelmesi’ gibi, biriken görev ihmallerinin sonucu
  • İlk başta şaşırdım ama %21 aslında şaşırtıcı derecede düşük bir oran
    Üstelik bu sayı AI dedektörü satan bir şirketten geldiği için, yanlış pozitif ihtimali de var

  • Asıl mesele incelemelerin AI tarafından yazılıp yazılmadığı değil, incelemelerin doğruluğu

    • Hayır, mesele bu değil
      Konferanslar ‘akran değerlendirmesi’ iddiasında bulunuyor, ne kadar iyi olursa olsun hiçbir AI bir akran değildir
    • Araştırma gerçekten yararlı ve doğruysa bu daha önemlidir
      Pangram'ın AI tespiti üzerinden öfke uyandırıp clickbait peşinde koştuğu izlenimi veriyor
    • Gerçekte durum şu
      1. Bir bilim insanı önyargılı bir araştırma yapıyor
      2. Reviewer AI ile yüzeyde makul görünen bir inceleme üretiyor
      3. Sonunda araştırmacı, kendi incelemesini yeniden yapmak zorunda kaldığı tuhaf bir döngü içine giriyor
  • Sonuçta AI'nin yarattığı canavarın ilk kurbanları, onu yaratan programcılar, araştırmacılar ve üniversiteler gibi bilgi emekçileri oluyor

  • Bu konferans daha önce tüm reviewer'ların kimliğinin kısa süreliğine açığa çıktığı OpenReview hatasıyla da gündeme gelmişti
    İlgili habere göre, sonrasında puanlar sıfırlanmış ve yeni AC'ler yeniden karar vermişti

  • İleride tüm makalelere varsayılan olarak AI incelemesi sunmak ve insan reviewer'ların bunu tamamlaması daha iyi olabilir
    Böylece reviewer AI çıktısını gözden geçirir ve yazarlar da öngörülebilir geri bildirim alır
    Elbette insan reviewer'lar yine AI kullanabilir, ama aynı şey yazarlar için de geçerli olur