1 puan yazan GN⁺ 2024-09-19 | 1 yorum | WhatsApp'ta paylaş

wordfreq'in artık neden güncellenmediği

Üretken yapay zeka verileri kirletiyor

  • 2021'den sonra insanların dil kullanımına dair güvenilir bilgi kalmadı
  • wordfreq'in veri kaynaklarından biri olan açık web (OSCAR) artık büyük dil modellerinin ürettiği anlamsız metinlerle dolu
  • Bu tür metinleri veriye dahil etmek, kelime sıklıklarını çarpıtıyor
  • Örneğin ChatGPT, delve kelimesine takıntılı olduğu için bu kelimenin sıklığını anormal biçimde artırıyor

Bir zamanlar ücretsiz olan bilgi artık pahalı

  • wordfreq, Twitter ve Reddit'ten konuşma diline ait kullanım verileri topluyordu
  • Twitter verisi her zaman istikrarsızdı; şimdi ise Twitter ortadan kalktı ve yerini X aldı
  • Reddit de kamusal veri arşivi sağlamayı bıraktı ve artık veriyi yalnızca OpenAI'ın ödeyebileceği bir fiyata satıyor

Artık bu alanda yer almak istemiyorum

  • wordfreq, derlem dilbilimi ve doğal dil işleme araçları için faydalı oldu
  • Ancak bugün doğal dil işleme alanı üretken yapay zeka tarafından istila edilmiş durumda
  • OpenAI ve Google'ın kontrol ettiği kapalı verilere dayanmayan NLP araştırması bulmak zor
  • Metin toplama araçları artık çoğunlukla üretken yapay zeka eğitimi için kullanılıyor ve bu da telif hakkı ihlali sorunları doğuruyor
  • Üretken yapay zeka ile karıştırılabilecek işlerde yer almak istemiyorum

GN⁺ özeti

  • wordfreq, 2021'e kadarki dil verilerine dayanan bir projeydi
  • Üretken yapay zekanın ortaya çıkmasıyla verinin güvenilirliği düştü; Twitter ve Reddit gibi başlıca veri kaynaklarının ücretli hale gelmesi de güncellemelerin durmasına yol açtı
  • Doğal dil işleme alanı üretken yapay zeka tarafından istila edilirken yazar, artık bu alanda yer almak istemediğini belirtiyor
  • Benzer işleve sahip projeler arasında Google Ngram Viewer gibi alternatif araçlar öneriliyor

1 yorum

 
GN⁺ 2024-09-19
Hacker News görüşü
  • Google’ın SEO kuralları nedeniyle web kirlenmiş durumda. Kısa paragraflar, anahtar kelime tekrarı ve okunabilirlikten çok indekslenebilirliğe odaklanan yazım biçimi sorun yaratıyor
    • ML/LLM ikinci kirlilik kaynağı. İlki, kurumsal botlar için yazı yazılmasıydı
  • 2023’te LowBackgroundSteel.ai’yi kirlenmemiş veri setlerini toplamak için bir yer olarak kurdu
    • Wordfreq’i eklemeyi planlıyor. Tumblr’da materyal göndermeleri için çağrıda bulunuyor
  • NLP topluluğuna yönelik hayal kırıklığını anlayabiliyor, ancak herkes böyle değil
    • Web’in kirlenmesi yeni bir şey değil. PageRank’i manipüle etmeye çalışan spam çiftlikleri gibi örnekler de vardı
    • Web’in her nesli, kendi döneminin sorunlarını aşmak için yeni tekniklere ihtiyaç duyuyor
    • George Orwell’in 1984’te öngördüğü otomatik üretilmiş içerik tüketimi gerçeğe dönüştü. Ancak bu teknoloji iyi yönde de kullanılabilir
  • Web’in öldüğünü düşünüyor. AI yüzünden faydalı bilgi bulmak daha uzun sürüyor
    • Belirli bir kablosuz kulaklığı bulmak 10 dakikadan fazla sürdü. Siteler çöp içerikle dolu
    • Eski bir dizüstü bilgisayarla grafik açısından ağır modern web sitelerinde gezinmek zor
    • Web’den, web tarayıcılarından, web tasarımından, SEO’dan, aramadan, reklamcılıktan; her şeyden nefret ediyor. Web’i kullanmadan alışveriş yapmanın yollarını arıyor
  • Google Trends bağlantısını paylaşarak, "delve" arama sonuçlarının artmadığına dair ilginç bir noktaya değiniyor
  • 2021’den sonra insan dil kullanımına dair güvenilir bilgi kalmadığını düşünüyor
    • Metin zaten eşik noktayı aştı, ancak video için kritik dönem şu an
    • Özellikle küçük çocuklar için neyin gerçek olduğunu ayırt etmek zor. Teknoloji zaten mevcut, ancak video içeriklerinin çoğu henüz etkilenmiş değil
  • Web’in LLM tarafından üretilmiş çöplerle dolu olduğu görüşüne katılıyor
    • Çoğu durumda SEO için değersiz içerik üretiliyor
  • AGI ucuzlayıp erişilebilir hale geldiğinde işlerin çoğu AI tarafından yapılacak
    • AI devrimi, AI’nin köklerine en yakın alanlarda başlamalı
  • 2020 öncesi basılı kitaplar değerli varlıklara dönüşebilir
    • İnternet çöp içerikle dolacak ve modern basılı kitaplar da şüpheyle karşılanacak
    • AI’nin yazdığı kitaplarda yazar olarak insanlar ambalajlanacak
  • AI yüzünden işini kaybeden yazarlar, AI hyperscaler’ları tarafından istihdam edilmeli
    • Ancak eserlerinde AI tarafından üretilmiş tek bir cümle bile olmamalı