GPT ile üretilen Google Scholar’daki sahte makaleler: temel özellikler, yayılım ve kanıt manipülasyonunu önlemeye yönelik çıkarımlar
(misinforeview.hks.harvard.edu)- Google Scholar’da, yaygın olarak kullanılan GPT modelleriyle üretilmiş gibi görünen çok sayıda şüpheli makale kolayca bulunabiliyor
- Bu makaleler çoğunlukla yaygın kullanılan genel amaçlı yapay zeka uygulamaları, özellikle ChatGPT kullanılarak hazırlanıyor ve bilimsel yazımı taklit ediyor
- Google Scholar, bu tür şüpheli makaleleri itibarlı ve kalite denetiminden geçmiş araştırma makaleleriyle birlikte listeliyor
- Google Scholar’da bulunan, GPT ile üretilmiş olduğundan şüphelenilen bilimsel makale örneklerinin analizi; birçok makalenin çevre, sağlık, bilişim gibi dijital dezenformasyona açık uygulama alanlarını ele aldığını gösteriyor
- Siyasi açıdan yüksek gerilimli alanlarda kötü niyetli kanıt manipülasyonu olasılığının artması giderek daha kaygı verici bir sorun haline geliyor
Bulgular
Bulgu 1: GPT ile üretilmiş olduğundan şüphelenilen 139 makale, Google Scholar arama sonuçlarında normal makaleler gibi listeleniyor. İndekslenmeyen dergiler çok sayıda
- Şüpheli makalelerin çoğu indekslenmeyen dergilerde veya working paper olarak yer alırken, bir kısmı saygın dergilerde, yayınlarda, konferanslarda ve repository’lerde de bulundu
- ChatGPT veya benzeri LLM uygulamalarının aldatıcı biçimde kullanıldığından şüphelenilen toplam 139 makale bulundu
- Bunların 19’u indeksli dergilerde, 89’u indekslenmeyen dergilerde, 19’u üniversite veritabanlarındaki öğrenci çalışmaları arasında, 12’si ise working paper olarak yer aldı (çoğu preprint DB’lerinde)
- Çevre ve sağlıkla ilgili makaleler örneklemin yaklaşık %34’ünü oluşturuyor; bunların %66’sı indekslenmeyen dergilerde yayımlandı
Bulgu 2: GPT ile üretilmiş olduğundan şüphelenilen makaleler çevrimiçi olarak dağıtılıyor, akademik iletişim altyapısının geneline yayılmış durumda ve çoğu zaman birden fazla kopyaya sahip. Pratik sonuçları olan uygulama alanları baskın
- Çevre konularıyla ilgili 27 makale, 26 benzersiz alan adında 56 URL üzerinden bulundu
- Sağlık konularıyla ilgili 20 makale, 20 benzersiz alan adında 46 URL üzerinden bulundu
- Tespit edilen makalelerin çoğu birden fazla kopya halinde bulunuyor ve şimdiden çeşitli arşivlere, repository’lere ve sosyal medyaya yayılmış durumda
- Bunları akademik kayıttan çıkarmak zor ya da imkansız olacak
Bulgu 3: Google Scholar, kalite denetiminden geçmiş atıf veritabanlarıyla geçmemiş olanların sonuçlarını aynı arayüzde sunduğu için GPT ile üretilmiş olduğundan şüphelenilen makalelere sınırsız erişim sağlanabiliyor
- Açık erişimli akademik iletişim altyapısında Google Scholar’ın merkezi konumu ile dahil etme kriterlerinde standart, şeffaflık ve hesap verebilirlik eksikliği, bilime yönelik kamusal güven üzerinde ciddi etki yaratabilir
- Bu durum, Google Scholar’ın kanıt hackleme için kötüye kullanılma olasılığını artırır ve sahte makaleleri ilk kaynaktan geri çekme ya da silme girişimlerini etkiler
- Herhangi bir çözüm, akademik iletişim altyapısının tamamını ve farklı aktörler, çıkarlar ve motivasyonlar arasındaki etkileşimi dikkate almak zorundadır
GN⁺ görüşü
Bu sorun, şu nedenlerle kaygı verici bir durumdur:
-
GPT ile üretilen makaleler akademik iletişim sistemini baskı altına alabilir ve bilimsel kaydın bütünlüğünü tehdit edebilir. Bu, mevcut paper mill sorununu daha da ağırlaştıracaktır.
-
Yapay zeka ile üretilmiş, bilimsel açıdan ikna edici görünen içerikler aslında aldatıcı biçimde oluşturulmuş olabilir. Bu, bilimsel bilgiye yönelik kamusal güveni zayıflatabilir ve ciddi toplumsal riskler doğurabilir.
-
Google Scholar’ın dahil etme kriterleri şeffaf değildir ve hesap verebilirliği yetersizdir. Bu da, standartlara uygun atıf veritabanları ile uygun olmayanları ayırt etmeden arama sonuçlarında birlikte sunma sorunuyla bağlantılıdır.
-
Sahte makaleler farklı platformlara yayıldığı için, özgün kaynak geri çekilse bile bunları izlemek ve kaldırmak zordur. Bu, ilgili araştırma alanlarında uzun süreli olumsuz etkiler yaratabilir.
-
Sağlık, çevre gibi toplumsal olarak hassas ve önemli konularda GPT ile üretilmiş çok sayıda makale bulunuyor. Bu, politika kararlarında ciddi karışıklıklara yol açabilir ve siyasi olarak kötüye kullanılabilir.
Bu soruna yanıt vermek için teknik, eğitsel ve kurumsal yaklaşımların birlikte değerlendirilmesi gerekir. Örneğin
- Akademik arama motorlarında peer-review durumu gibi ölçütlere göre filtreleme seçenekleri sunulması
- Değerlendirme araçlarının akademik arama motorlarının arayüzüne ve crawler’larına entegre edilmesi
- Ticari nedenlerle değil, kamu yararı için işletilen ücretsiz akademik arama motorlarının kurulması
- Politika yapıcılar, bilim iletişimcileri ve gazetecilere yönelik eğitim girişimleri
Temelde ise bu sorun; akademik yayıncılık sisteminin yapısal sorunları, "publish or perish" kültürü, Google’ın tekeli ve bilgi kontrolü etrafındaki ideolojik çatışmalar gibi daha geniş bir bağlam içinde ele alınmalıdır. Yalnızca teknik çözümler yeterli olmayacaktır.
2 yorum
alphaXiv - arXiv makaleleri üzerine herkese açık tartışma
Bu platformla bu yazı yan yana görünce sanki bir bağlantı varmış gibi hissettiriyor
Hacker News yorumu
APS March Meeting'de bir bilimsel dergi editörü, LLM tarafından üretilen makalelerden çok LLM tarafından üretilen değerlendirmelerden endişe duyuyor
Yazarların Python betiğinde hata olabilir
bibanahtarı yoksa veri çerçevesinin sütunları uyuşmayabilirGPT, bilimsel makaleleri manipüle etmeyi kolaylaştırabilir, ancak insanlar da bunu yapay zeka olmadan uzun süredir iyi yapıyordu
LLM ile ilgili makalelerde veri toplama yönteminin daha sofistike olması isteniyor
İlgili alanlardaki uzmanlar sahte sonuçları kolayca ayırt edebilir
Önceki tartışmada GPT kullanıldığı düşünülen makalelerin aslında OpenAI'dan önce yazıldığı belirtiliyor
ChatGPT gerçeği anlamıyor
Haberdeki görselin yapay zeka üretimi olmaması takdir ediliyor
GPT ile üretilen makaleler, ana dili İngilizce olmayan kişilerin İngilizcelerini geliştirmek için yazılmış olabilir
Karanlık bir çağa giriyor gibiyiz