- arXiv'in bilgisayar bilimi (CS) kategorisi, inceleme (survey) makaleleri ve pozisyon makaleleri için yeni bir değerlendirme uygulaması başlattı
- Artık bu tür makaleler, yalnızca dergi veya konferanslarda hakem değerlendirmesinden (peer review) geçip kabul edildikten sonra arXiv'e gönderilebilecek
- Gönderim sırasında başarılı hakem değerlendirmesini kanıtlayan belgelerin (ör. dergi referansı, DOI metadata'sı) mutlaka eklenmesi gerekiyor
- Doğrulama belgesi olmayan gönderilerin reddedilme olasılığı yüksek; bu adım, son dönemde üretken yapay zeka nedeniyle yaşanan aşırı makale akınına yanıt olarak atıldı
- arXiv, bu değişiklikle yalnızca yüksek kaliteli inceleme makalelerini paylaşmayı ve temel araştırma makalelerinin dolaşımına odaklanmayı amaçlıyor
Değişen gönderim koşulları
- İnceleme makaleleri ve pozisyon makaleleri, ancak dergi veya konferans tarafından kabul edilip hakem değerlendirmesi tamamlandıktan sonra arXiv'e gönderilebilir
- Gönderim sırasında başarılı hakem değerlendirmesine dair kanıtlayıcı belge eklenmelidir
- Kanıt yoksa reddedilme olasılığı yüksektir
- Workshop düzeyindeki değerlendirme, geleneksel hakem değerlendirmesi olarak kabul edilmez ve gönderim koşullarını karşılamaz
Politika arka planı
- arXiv'in resmî politikasına göre inceleme makaleleri ve pozisyon makaleleri, resmen izin verilen içerik türleri arasında değil
- Geçmişte yalnızca az sayıdaki yüksek kaliteli makale, moderatör takdiriyle kabul ediliyordu
- Son dönemde üretken yapay zeka ve büyük dil modellerinin (LLM) yayılmasıyla birlikte düşük kaliteli inceleme makalelerinde keskin bir artış yaşandı
- Bunların çoğu, yalnızca kaynakça sıralayan çalışmalar olup yeni araştırma tartışmaları açısından yetersiz
- Bu durum, moderatörlerin inceleme yükünü aşırı artırdı ve arXiv'in temel amacı olan araştırma makalelerini paylaşma işlevini aksatmaya başladı
Değişikliğin amacı
- Uzmanlar tarafından yazılmış, değerli inceleme ve pozisyon makalelerinin arXiv'de kolayca bulunabilmesini desteklemek
- Moderatörlerin iş yükünü hafifletmek ve resmî içerik türlerinin incelenmesine odaklanmak
- arXiv'in temel hedefi olan bilimsel keşiflerin hızlı ve özgür biçimde ilerlemesini teşvik etmeyi sürdürmek
Önceki durum ile bugünkü durum arasındaki fark
- Geçmişte inceleme makaleleri genellikle az sayıdaki tanınmış araştırmacı ya da resmî kurumların (ör. Annual Reviews, IEEE, Computing Surveys) talebiyle yazılır ve bu yüzden kalite seviyesi yüksek olurdu
- Pozisyon makaleleri de çoğunlukla konferanslar veya devlet destekli araştırma kuruluşları (ör. Computing Research Association, National Academies) tarafından hazırlanıyordu
- Bugün ise her ay yüzlerce inceleme makalesi gönderiliyor ve durum kalite kontrolünün zorlaştığı bir noktaya ulaşmış durumda
Dış değerlendirme kurumlarından yararlanma
- arXiv'in, kalite doğrulamasını kendi başına yürütecek yeterli insan kaynağı ve kaynağı yok
- Bunun yerine güvenilir dış değerlendirme kurumlarının (konferanslar ve dergiler) doğrulamasını kabul ediyor
- Bu kurumlar, mahremiyet, etik, güvenlik, emniyet ve benzeri yapay zeka konuları üzerinde derinlemesine inceleme yapıyor
- Böylece arXiv, yalnızca kalitesi güvence altına alınmış makaleleri paylaşabilir hale geliyor
Yeniden gönderim ve istisnalar
- Hakem değerlendirmesi tamamlanmadığı için reddedilen makaleler, daha sonra değerlendirme tamamlanırsa itiraz (appeal) süreci üzerinden yeniden gönderilebilir
- Ancak onaylanmış bir itiraz olmadan yeniden gönderim yapılamaz
- Bilim ve teknolojinin toplumsal etkilerini ele alan araştırma makaleleri (cs.CY, physics.soc-ph vb.) bu değişikliğin kapsamına girmiyor
Diğer kategorilere yayılma ihtimali
- arXiv'in her kategorisi, uzman moderatörler tarafından bağımsız olarak yürütülüyor
- Tüm kategoriler aynı genel politikayı izlese de, inceleme makaleleri temelde gayriresmî bir içerik türü olmaya devam ediyor
- Başka alanlarda da LLM tabanlı makale patlaması yaşanırsa, benzer değerlendirme sıkılaştırma adımları getirilebilir
- Böyle bir değişiklik olursa resmî olarak duyurulacak
1 yorum
Hacker News görüşleri
Sorunun, insanların ürettiği miktara göre ödüllendirilmesi olduğuna dikkat çekiliyor
Araştırmacılar makale sayısına göre teşvik edilirse, en düşük kaliteyle mümkün olduğunca çok makale üretmek gibi bir şekilde sistemi suistimal etmeye yöneliyorlar
Görüntülenme bazlı ödüller ve reklam gösterimi bazlı ödüller de benzer biçimde çarpık davranışları tetikliyor
Sonuçta çevrimiçi dünya, insanlar için değil algoritma optimizasyonu için tasarlanmış bir sistem haline geliyor
San Francisco'da STK'lerin aldığı destek miktarı “yardım edilen evsiz sayısına” göre belirleniyor; bu da sonuçta evsizliği azaltmak yerine sürdürmeye yönelik bir teşvik yaratıyor
Sorun insanlar ve teşvik sistemi; araçların kendisi değil
Kod satırı sayısı ya da commit sayısı gibi anlamsız metriklerle performans ölçen kültürün zaten baştan hatalı olduğu söyleniyor
Şu anda adeta “Goodhart cehenneminde” yaşıyoruz — metriklerle oynamanın amacın kendisi haline geldiği bir dünyada
Bu, şaka yollu söylense de, böyle metrik odaklı yönetimin sonunda büyük çaplı arızalara yol açan şirket gerçekliğini hicvediyor
İnsan merkezli bir çevrimiçi dünyanın nasıl bir yapıda olacağı ve içerik üreticilerinin nasıl ödüllendirilmesi gerektiği sorgulanıyor
Asıl kilit noktanın makale sayısı değil, araştırma fonu bulma ve teklif kalitesi olduğu vurgulanıyor
arXiv'in artık preprint (ön baskı makale) kabul etmediği yönünde bir yanlış anlama vardı
Aslında değişen şey, yalnızca “inceleme makaleleri” ve “pozisyon bildirileri”nin dergi veya konferans hakem değerlendirmesinden geçtikten sonra gönderilebilmesi
arXiv'e bir itibar sistemi getirilmesi öneriliyor
Fikir, yazarların açık PGP anahtarlarını da paylaşarak bir güven ağı oluşturması
Bunun mevcut akademik dergilere göre daha az kapalı, ama tamamen açık sistemlere göre daha düzenli bir model olabileceği söyleniyor
arXiv'in kalite kontrol sorunu eleştiriliyor
Sadece ekim ayında 26.000 gönderim yapıldığı (istatistik bağlantısı) ve doğrulanmamış makalelerin ortalığı doldurduğu söyleniyor
Küçük bir gönderim ücreti alınmasının spam'i azaltabileceği öne sürülüyor
HN gönderisinin başlığının yanlış olduğu yönünde eleştiriler var
Aslında daha doğru ifade şu olurdu: “Yapay zeka tarafından yazılmış inceleme makalelerindeki artış nedeniyle arXiv CS alanında inceleme makaleleri için peer review istiyor”
Tamamen yapay zeka üretimi makaleleri arXiv'e yükleyen insanların motivasyonu sorgulanıyor
Gönderim süreci zahmetliyken bunu neden yaptıkları merak ediliyor
Düşük kaliteli makalelerin çoğunun yapay zeka ile ilgili konularda olduğu söyleniyor
Birçok kişi LLM'lerle ilk karşılaştığında, “LLM'in LLM hakkında yazı yazmasını sağlayalım” türü öz göndergesel deneylere girişiyor
Bunun sonucunda, özgün verilerin derme çatma bir özeti ortaya çıkıyor
arXiv'in bu adımı olumlu değerlendiriliyor
Hızla değişen multi-agent systems ve agentic LLMs alanlarında daha net ölçütlere ihtiyaç olduğu söyleniyor
Makale türü, veri/kod bağlantıları, benchmark kapsamı gibi makine tarafından okunabilir meta verilerin zorunlu tutulmasının güvenilirliği artırabileceği ifade ediliyor
“Survey” ve “Position” etiketleriyle birlikte yeniden üretilebilirlik kontrol listelerinin standartlaştırılması, erken fikirleri engellemeden kaliteyi koruyabilir deniyor
arXiv'in aslında çok eskiden beri öz tanıtım amaçlı düşük kaliteli makale sorunuyla uğraştığı belirtiliyor
Bunun LLM'lerden önce de var olan bir durum olduğu vurgulanıyor