1 puan yazan GN⁺ 2023-07-18 | 1 yorum | WhatsApp'ta paylaş
  • Twitter'da dikkat çeken son makale: "Yazarsız" metin sınıflandırması: sıkıştırıcı kullanan parametresiz bir sınıflandırma yöntemi
  • Makalenin yazarını sonuçları yeniden üretmek için kaynak kodu incelerken, kNN kodunda hatalar veya beklenmedik tercihler bulundu.
  • Koddaki hata nedeniyle bu yöntemin doğruluk değerleri beklenenden daha yüksek görünüyor.
  • Makalenin Table 5 bölümünde gzip yöntemi, diğer sinir ağı tabanlı yöntemlerden daha iyi performans gösteriyor.
  • Yazar sayıları yeniden hesapladı ve düzeltilmiş sonuçların deneyin çıkarımlarını büyük ölçüde değiştirdiğini fark etti.
  • Makalede k=2 olan bir kNN sınıflandırıcısı kullanılmış; bu, kNN sınıflandırması için alışılmadık bir tercih.
  • Kaynak kodda, bildirilen doğruluk oranlarını etkileyen beklenmedik bir öncelik belirleme stratejisi bulunuyor.
  • Yazar, sonuçları farklı öncelik belirleme stratejileriyle karşılaştırmak için kendi implementasyonunu sunuyor.
  • Yeniden hesaplanan sonuçlar, özgün kod ile yazarın implementasyonunun benzer sonuçlar verdiğini gösteriyor.
  • Filipinler veri setindeki yüksek doğruluk ve "table5" ile "code" sonuçları arasındaki küçük fark hakkında hâlâ sorular var.

1 yorum

 
GN⁺ 2023-07-18
Hacker News görüşü
  • "gzip beats BERT" makalesindeki hata, makine öğreniminde titiz metodolojik hatalara işaret ediyor.
  • Sıkıştırma algoritmalarını makine öğrenimine uygulamak "bedava yemek" değildir ve özel bir sihir yaratmayabilir.
  • Blog yazısının yazarı, makaleyle ilgili bir GitHub issue açtı.
  • İyi bilim, iyi yazılım mühendisliği gerektirir ve deneylerde hatalar yaygındır.
  • Bu konuyla ilgili blog yazısı, soruna ışık tuttuğu için memnuniyetle karşılanıyor.
  • Makalede sınıflandırıcı olarak kNN seçimi soru işaretleri doğuruyor ve alternatif algoritmalar öneriliyor.
  • Makalenin sonuçları, sıkıştırma algoritmalarının LLM'leri nasıl yenebileceği konusunda soru işaretleri yarattı.
  • Makale hakkında büyük iddialarda bulunan kişiler, bu iddiaları yeniden gözden geçirmek zorunda kalabilir.
  • Blog yazısı, Twitter'da ek tartışma ve analizleri tetikledi.
  • Makalenin sonuçlarında rastgele ortaya çıkan eşitliklerin hesaba katılmış olabileceği ihtimali gündeme getirildi.