1 puan yazan GN⁺ 2023-09-27 | 1 yorum | WhatsApp'ta paylaş
  • Google Ngram Viewer n-gram'lerinin doğruluğuna dair bir yazı
  • Yazar, Ngram'ın gösterdiği yaygın İngilizce kelime sıklıklarının 20. yüzyıldaki gerçek kullanımı doğru biçimde yansıtmadığını belirtiyor
  • Yazar ve Talia Felix, araştırmalarında Google Books'u kullandı ancak bunun çok sayıda gizli hata içeren, yanlış bir araya getirilmiş bir veritabanı olduğunu fark etti
  • Ngram formülündeki, Google Books'tan miras alınan hatalardan biri; birçok İngilizce kelimenin 20. yüzyıl boyunca kullanımının azalıp 1980'lerde yeniden canlanmış gibi görünmesine yol açıyor
  • Bu hata, Google Books külliyatının büyük ölçüde akademik metinlerden oluşmasından kaynaklanıyor; modern bilimsel ve akademik dergiler sınırlı sayıdaki kelimeyi tekrar tekrar kullanma eğiliminde
  • Akademik yazımda belirli kelimelerin aşırı kullanımı, diğer kelimelerin sıklığını yanlış biçimde düşürerek neredeyse tüm kelimelerin Ngram'ında 20. yüzyıl ortasında bir "düşüş" yaratıyor
  • Diğer bir hata ise Google Books'un farklı yazım varyantları ile çoğul biçimler arasındaki aynılığı tanımaması
  • Yazar, Google Books'taki birçok dosyanın yanlış tarihlendirildiğini ve bunun verinin doğruluğunu daha da zedelediğini söylüyor
  • Bu tür doğruluk sorunlarına rağmen, internette fotoğraflar kazanıp kelimeler kaybettiği için Ngram'ler hâlâ kullanılıyor
  • Yazar, okurlara Ngram'leri kelime kullanımının doğru bir temsili olarak değil, süslü ve tuhaf bir araç olarak görmelerini öneriyor
  • Yazar, dünya Ngram gerçekliğini tercih etse bile okurların bundan daha akıllı olabileceği sonucuna varıyor

1 yorum

 
GN⁺ 2023-09-27
Hacker News görüşü
  • "Kesinlik arzulayan yalanı arzular" başlıklı makale, proje takvimlerinde kesinlik isteği üzerine bir tartışma başlattı.
  • Makale, modern algoritmalarda ngrams kullanımını eleştiriyor ve bunların güvenilmez, bilgisiz bir tekniğin ürünü olduğunu öne sürüyor.
  • ngrams eleştirisi, özünde bir ngram tahmincisi olan üretken yapay zeka tarafından giderek daha fazla domine edilen bir çağda bir uyarı olarak görülüyor.
  • Bazı yorumlar, yazarların ngram istatistikleri hakkındaki iddialarının geçerliliğini sorguluyor; kanıt eksikliğine ve yanlış yönlendiren grafik yorumlarına işaret ediyor.
  • Veri analizinin temel sorunu vurgulanıyor; analizin ancak veri kadar iyi olduğu ve veri kalitesini değerlendirmenin zor olduğu belirtiliyor.
  • Bazı yorumlar, makalenin başlığını ve bilimsel yayınlardaki clickbait eğilimini eleştiriyor.
  • Google Ngram kullanımı tartışılıyor; bazıları sorunun bunun yanlış olması değil, istatistiklerinin bağlamından kopuk olması olduğunu savunuyor.
  • Makale, grafiğin dikey ekseninde 0'a yer verilmemesini eleştiriyor; bunun küçük dalgalanmaların büyükmüş gibi görünmesine yol açabileceğini söylüyor.
  • İçkin veri kaybı nedeniyle geçmişin temsili bir görüntüsünü oluşturmanın imkansız olduğuna dair bir tartışma yürütülüyor.