wordfreq'in artık neden güncellenmediği
Üretken yapay zeka verileri kirletiyor
- 2021'den sonra insanların dil kullanımına dair güvenilir bilgi kalmadı
- wordfreq'in veri kaynaklarından biri olan açık web (OSCAR) artık büyük dil modellerinin ürettiği anlamsız metinlerle dolu
- Bu tür metinleri veriye dahil etmek, kelime sıklıklarını çarpıtıyor
- Örneğin ChatGPT,
delve kelimesine takıntılı olduğu için bu kelimenin sıklığını anormal biçimde artırıyor
Bir zamanlar ücretsiz olan bilgi artık pahalı
- wordfreq, Twitter ve Reddit'ten konuşma diline ait kullanım verileri topluyordu
- Twitter verisi her zaman istikrarsızdı; şimdi ise Twitter ortadan kalktı ve yerini X aldı
- Reddit de kamusal veri arşivi sağlamayı bıraktı ve artık veriyi yalnızca OpenAI'ın ödeyebileceği bir fiyata satıyor
Artık bu alanda yer almak istemiyorum
- wordfreq, derlem dilbilimi ve doğal dil işleme araçları için faydalı oldu
- Ancak bugün doğal dil işleme alanı üretken yapay zeka tarafından istila edilmiş durumda
- OpenAI ve Google'ın kontrol ettiği kapalı verilere dayanmayan NLP araştırması bulmak zor
- Metin toplama araçları artık çoğunlukla üretken yapay zeka eğitimi için kullanılıyor ve bu da telif hakkı ihlali sorunları doğuruyor
- Üretken yapay zeka ile karıştırılabilecek işlerde yer almak istemiyorum
GN⁺ özeti
- wordfreq, 2021'e kadarki dil verilerine dayanan bir projeydi
- Üretken yapay zekanın ortaya çıkmasıyla verinin güvenilirliği düştü; Twitter ve Reddit gibi başlıca veri kaynaklarının ücretli hale gelmesi de güncellemelerin durmasına yol açtı
- Doğal dil işleme alanı üretken yapay zeka tarafından istila edilirken yazar, artık bu alanda yer almak istemediğini belirtiyor
- Benzer işleve sahip projeler arasında Google Ngram Viewer gibi alternatif araçlar öneriliyor
1 yorum
Hacker News görüşü