- Google Ngram Viewer n-gram'lerinin doğruluğuna dair bir yazı
- Yazar, Ngram'ın gösterdiği yaygın İngilizce kelime sıklıklarının 20. yüzyıldaki gerçek kullanımı doğru biçimde yansıtmadığını belirtiyor
- Yazar ve Talia Felix, araştırmalarında Google Books'u kullandı ancak bunun çok sayıda gizli hata içeren, yanlış bir araya getirilmiş bir veritabanı olduğunu fark etti
- Ngram formülündeki, Google Books'tan miras alınan hatalardan biri; birçok İngilizce kelimenin 20. yüzyıl boyunca kullanımının azalıp 1980'lerde yeniden canlanmış gibi görünmesine yol açıyor
- Bu hata, Google Books külliyatının büyük ölçüde akademik metinlerden oluşmasından kaynaklanıyor; modern bilimsel ve akademik dergiler sınırlı sayıdaki kelimeyi tekrar tekrar kullanma eğiliminde
- Akademik yazımda belirli kelimelerin aşırı kullanımı, diğer kelimelerin sıklığını yanlış biçimde düşürerek neredeyse tüm kelimelerin Ngram'ında 20. yüzyıl ortasında bir "düşüş" yaratıyor
- Diğer bir hata ise Google Books'un farklı yazım varyantları ile çoğul biçimler arasındaki aynılığı tanımaması
- Yazar, Google Books'taki birçok dosyanın yanlış tarihlendirildiğini ve bunun verinin doğruluğunu daha da zedelediğini söylüyor
- Bu tür doğruluk sorunlarına rağmen, internette fotoğraflar kazanıp kelimeler kaybettiği için Ngram'ler hâlâ kullanılıyor
- Yazar, okurlara Ngram'leri kelime kullanımının doğru bir temsili olarak değil, süslü ve tuhaf bir araç olarak görmelerini öneriyor
- Yazar, dünya Ngram gerçekliğini tercih etse bile okurların bundan daha akıllı olabileceği sonucuna varıyor
1 yorum
Hacker News görüşü
ngramskullanımını eleştiriyor ve bunların güvenilmez, bilgisiz bir tekniğin ürünü olduğunu öne sürüyor.ngramseleştirisi, özünde birngramtahmincisi olan üretken yapay zeka tarafından giderek daha fazla domine edilen bir çağda bir uyarı olarak görülüyor.ngramistatistikleri hakkındaki iddialarının geçerliliğini sorguluyor; kanıt eksikliğine ve yanlış yönlendiren grafik yorumlarına işaret ediyor.