- GZIP kullanarak MNIST veri kümesinde 10 satırdan az kodla %78 doğruluğa ulaşmayı anlatan bir yazı
- Yazar, bu gönderinin yeniliğinin son teknoloji sonuçlara ulaşmak değil, sıkıştırmanın benzersiz ve modelsiz bir sınıflandırma aracı olarak kullanılma potansiyelini göstermek olduğunu vurguluyor
- Paylaşılan kod, benzerlik ölçütü olarak GZIP ve NCD'yi (Normalized Compression Distance) kullanıyor; sınıflandırma için ise k-NN (k-Nearest Neighbors) kullanılıyor
- GZIP, tekil veri noktalarının karmaşıklığını veya bilgi içeriğini ölçen bir araç olarak kullanılırken, NCD iki veri noktasının ne kadar benzer olduğunu gösteren normalize edilmiş bir ölçü sunuyor
- Algoritma, tüm eğitim örnekleriyle NCD hesaplıyor, bunları sıralıyor ve en küçük k mesafeyi seçiyor. Bu k=5 en yakın komşu içindeki çoğunluk sınıfı, test örneğinin etiketi olarak tahmin ediliyor
- Yazar, bu yaklaşımın hesaplama açısından pahalı olduğunu ve doğruluk ölçümü için test görüntülerinin yalnızca bir kısmının kullanıldığını kabul ediyor
- Yazar, algoritmanın daha iyi anlaşılması için daha az gizlenmiş bir sürümünü de sunuyor
- Yazar, 2019'da Andreas Kirsch'in benzer bir yaklaşım izlediğini ve bunun yaklaşık %35 doğruluk elde ettiğini belirtiyor
- Yazar, veri sıkıştırmada metin üretimi üzerine bir yazı okuyup parametresiz metin sınıflandırmasıyla ilgili bir makale inceledikten sonra sıkıştırmayı bir görüntü sınıflandırma mekanizması olarak kullanmaya yönelmiş
- Yazar daha önce edge computer vision için görüntü sıkıştırması üzerinde çalışmış ve bu tekniği MNIST veri kümesine uygulamakla ilgilenmiş
1 yorum
Hacker News görüşü