- Twitter'da dikkat çeken son makale: "Yazarsız" metin sınıflandırması: sıkıştırıcı kullanan parametresiz bir sınıflandırma yöntemi
- Makalenin yazarını sonuçları yeniden üretmek için kaynak kodu incelerken, kNN kodunda hatalar veya beklenmedik tercihler bulundu.
- Koddaki hata nedeniyle bu yöntemin doğruluk değerleri beklenenden daha yüksek görünüyor.
- Makalenin Table 5 bölümünde gzip yöntemi, diğer sinir ağı tabanlı yöntemlerden daha iyi performans gösteriyor.
- Yazar sayıları yeniden hesapladı ve düzeltilmiş sonuçların deneyin çıkarımlarını büyük ölçüde değiştirdiğini fark etti.
- Makalede k=2 olan bir kNN sınıflandırıcısı kullanılmış; bu, kNN sınıflandırması için alışılmadık bir tercih.
- Kaynak kodda, bildirilen doğruluk oranlarını etkileyen beklenmedik bir öncelik belirleme stratejisi bulunuyor.
- Yazar, sonuçları farklı öncelik belirleme stratejileriyle karşılaştırmak için kendi implementasyonunu sunuyor.
- Yeniden hesaplanan sonuçlar, özgün kod ile yazarın implementasyonunun benzer sonuçlar verdiğini gösteriyor.
- Filipinler veri setindeki yüksek doğruluk ve "table5" ile "code" sonuçları arasındaki küçük fark hakkında hâlâ sorular var.
1 yorum
Hacker News görüşü