Yeni arXiv politikası: uydurma referanslara 1 yıl kullanım yasağı
(twitter.com/tdietterich)- arXiv Code of Conduct, yazar olarak adı geçen kişinin içerik nasıl üretilmiş olursa olsun makalenin tamamından sorumlu olduğunu belirtiyor
- Üretken yapay zekanın oluşturduğu uygunsuz dil, intihal, önyargı, hatalar ve yanlış referanslar makaleye girse bile sorumluluk yazara ait
- arXiv, yazarın LLM tarafından üretilen çıktıları doğrulamadığına dair açık kanıt varsa makalenin tamamının güvenilmez olduğunu değerlendiriyor
- Yaptırım arXiv'i 1 yıl kullanma yasağı; sonrasında yapılan gönderilerin önce saygın bir hakemli akademik venue tarafından kabul edilmiş olması gerekiyor
- Uydurma referanslar veya “deneylerinizdeki gerçek sayılarla doldurun” gibi LLM meta yorumları açık kanıt sayılıyor
arXiv yazar sorumluluğu ve yaptırımlar
- arXiv Code of Conduct, bir makalede yazar olarak yer almanın, içerik üretim yönteminden bağımsız olarak makalenin tamamı için sorumluluk almak anlamına geldiğini belirtiyor
- Üretken yapay zeka araçlarının oluşturduğu uygunsuz dil, intihal edilmiş içerik, önyargılı içerik, hatalar, yanlışlıklar, hatalı referanslar ve yanıltıcı içerikler bilimsel çalışmaya dahil edilirse sorumluluk yazara ait
- arXiv, gönderide yazarın LLM çıktısını kontrol etmediğine dair açık kanıt bulunursa ilgili makaledeki hiçbir içeriğin güvenilir sayılamayacağını düşünüyor
- Yaptırım arXiv'i 1 yıl kullanma yasağı; ardından arXiv'e yeniden gönderi yapabilmek için çalışmanın önce saygın bir hakemli akademik venue tarafından kabul edilmiş olması gerekiyor
- Açık kanıt örnekleri arasında uydurma referanslar ve LLM'nin meta yorumları yer alıyor
- Örnek: “here is a 200 word summary; would you like me to make any changes?”
- Örnek: “the data in this table is illustrative, fill it in with the real numbers from your experiments”
1 yorum
Hacker News görüşleri
Cezanın arXiv'i 1 yıl kullanma yasağından sonra, sonraki gönderilerin önce itibarlı bir hakemli yayıncı tarafından kabul edilmiş olması şartını da içermesi, bilim için gerçekten çok iyi olurdu
arXiv ücretsiz olsa da bir haktan çok bir ayrıcalık gibi
Yine de bu durum https://info.arxiv.org/help/policies/index.html sayfasında açıkça görünmüyor; belki hâlâ plan aşamasındadır ya da ben yeterince iyi bakmamışımdır
Bir doktoranın dediği gibi, kıyamet makinesinin asıl meselesi, onu gizli tutarsanız hiçbir anlamının olmamasıdır
Kaynakça kontrolü için iyi olabilir ama beraberinde gelen berbat bilimin kendisini pek azaltmaz gibi duruyor
arXiv gönderileri o kadar yakından incelemiyorken bunu nasıl bilebilir?
“Hata, yanlışlık” deniyor ama yapılan şey esas olarak temel koşulların otomatik sistemle kontrol edilip bazen yüzeysel bir insan incelemesine geçilmesi; tüm kaynakçaları büyük ölçekte doğrulamak mümkün değil
Hakemli dergilerden 100 kat daha fazla hacim alan bir ön baskı arşivinde hakemlik benzeri bir süreç kurmaya çalışmış oluyorsunuz
Ayrıca arXiv'e yüklemekle hakem değerlendirmesinden geçmek arasında muazzam fark var
Ben de kişisel olarak matematik alanında muhtemelen ondan fazla hakemli ret aldım ama arXiv math'e sorunsuz yükledim
Hakemlik sadece yeni ve doğru olup olmadığına bakmıyor, aynı zamanda “matematik topluluğu için ilginç mi” diye de bakıyor; bu özünde öznel ve arXiv'e kabulden çok daha zor
Sayılar teorisinde tanınmış bir profesör kefalet sürecinde makaleyi övdü, başka bir profesör de e-postayla yayımlanmasını önerdi ama yine de 3 kez reddedildi ve hâlâ bekliyorum
Hakemli dergide yayımlanma şartı koymak, birçok araştırmacı için arXiv'i sonsuza kadar kapatabilir ve ön baskı fikrine de aykırı olur
Sonuçta sadece uydurulmuş bir alıntı var, dolandırıcılık falan değil
Bu, kişinin araştırmasının içeriği ya da kalitesi hakkında hiçbir şey söylemiyor
Böyle küçük bir ilk hata için 1 yıllık yasak zaten yeterli görünüyor
İnsanlar hata yapar ve önemli bir kısmı bu hatalardan ders çıkarabilir
Hayatında bir kez yapay zekanın bir kaynakçayı uydurması yüzünden birinin kariyer ilerlemesini ya da insanlığa katkı sunma kapasitesini kalıcı olarak mahvetmeye gerek yok
Bu, onarıcı olmaktan çok cezalandırıcı
Hoş karşılanacak bir adım ama daha temelde, atıf yapılan makaleler için doğru BibTeX girdisi üretmeyi kolaylaştırma sorununun çözülmesini daha çok isterdim
Belirli bir makalenin atıf bilgileri yayınevi dergileri, konferanslar, ön baskılar gibi birçok farklı kaynaktan gelebiliyor
Aynı makale arXiv ve konferans sitesi gibi birden fazla yerde bulunabiliyor ve ayrıntılar az da olsa farklı olabiliyor
Zotero gibi araçlar sayesinde yayımlanmış web sayfalarından atıf çekmek çok daha kolaylaştı ama çıkarılan BibTeX ayrıntılarında hâlâ sorunlar var
Yazar adları ve başlık genelde doğru geliyor ama yayınevi, yıl, cilt/sayı, sayfa, URL gibi bilgilerin doğru çekilip çekilmediğini ve LaTeX biçiminde düzgün görünüp görünmediğini hâlâ elle kontrol etmek gerekiyor
Ayrıca her yayının atıf stili de farklı olabiliyor
Tutarlı atıf verisini kolayca çekmeye yarayan birleşik bir yöntem olmayınca, ne yazık ki yapay zeka üretimli atıf verisine kestirmeden gitme eğilimi doğabiliyor
Uydurma atıfların ana metinde mi yoksa ayrı bir BibTeX dosyasında mı üretildiğinden emin değilim; dolayısıyla meseleyi biraz yanlış anlamış olabilirim
https://zbib.org/
https://xcancel.com/tdietterich/status/2055000956144935055
Sorun, uydurulmuş kaynakçaları büyük ölçekte nasıl tespit edecekleri
Elle örnekleme mi yapılacak, otomatik DOI doğrulaması mı olacak bilmiyorum
Politikanın yönü doğru görünüyor ama uygulaması zor
Güzel
LLM çıktısını dikkatlice kontrol edecek vaktin yoksa, benim de onu okuyacak vaktim yok
Rastgele bir tane seçip gerçekten derinlemesine baktığın oldu mu?
Burada hâlâ “itibarlı” şartının ne anlama geldiğine dair bir şey göremiyorum
İtibarlı hakemlik hangi ölçüte göre belirlenecek?
Böyle yaptırımlar gelmeden önce dikkatli doğrulama şart
Birisi açık izin almadan birinin adını yazıp gönderim yaptıysa herkes mi yasaklanacak?
Düzgün uygulanırsa bunun iyi bir yönelim olduğuna katılıyorum
O zaman tek cümlelik bir makaleyle arXiv'deki herkesi yasaklatmak bile mümkün olabilir
Twitter'da hep görülen LLM konusunda aşırı heyecanlı destekçilerin bu önleme öfkelenip yanıtlar yazması oldukça açıklayıcı bir işaret
LLM kirliliğiyle ilgili gönderilerin yorumlarında olduğu gibi, bazı insanlar LLM'den hoşlanmayanların varlığını kabul edemiyor ve hızlı benimsenmenin önüne en küçük bir engel çıkınca sinirleniyor
Sonunda HN'nin uzlaşısı, her yerde LLM kullanımını ateşli biçimde hızlandırmak mı oluyor diye düşündürüyor
Saçma ama aynı zamanda tam da HN'lik
Güzel. Akademik literatür her tür düşük kaliteli çöp yüzünden zaten kriz içinde
Kolayca tespit edilebilen uydurma içerikler için hesap sorulması ancak iyi olabilir
Yaklaşık 40 yıl önce fizik doktorası yapıyordum; o zaman da yanlış kaynakçalar sorundu
Bir meslektaşım, ana metinde kelimesi kelimesine AI çöpü cümleler bırakılmış hâlde makale gönderdi ve çok sert düzeltme talepleri aldı
Göndermeden önce taslağı kontrol etmek gerekir
Hakemler bunu yakalıyor
Ben ekran okuyucu kullandığım için makaleleri genelde ham TeX olarak okuyorum ve her şeyi gördüm
Aşağılayıcı ifadeler, hakemlere ve profesörlere hakaretler, dolandırıcılık itirafları, hatta önceki dolandırıcılıkları örtmek için gönderimden önce ortak yazarlara ek dolandırıcılık talimatları bile var
Düşünüldüğünden çok daha az; makalelerin %1'inden azı ama gerçekten var
Yeni arXiv makalelerinin TeX kaynaklarında bir kez LLM tabanlı dolandırıcılık tespiti çalıştırmak faydalı olabilir
Hepsini yakalamaz ama en aptal dolandırıcıların bir kısmını yakalayabilir
Bunun olumlu bir yanı da var: hakemden geçememiş daha güçlü iddiaları, konferans sayfa sınırı yüzünden çıkarılmış ek açıklamaları ve yazarların eklemeye değmez gördüğü deney sonuçlarını da bulabiliyorsunuz
Bunlara çok dikkatli yaklaşmak gerekir ama bazen gerçekten faydalı olabiliyor