1 puan yazan GN⁺ 2023-09-21 | 1 yorum | WhatsApp'ta paylaş
  • GZIP kullanarak MNIST veri kümesinde 10 satırdan az kodla %78 doğruluğa ulaşmayı anlatan bir yazı
  • Yazar, bu gönderinin yeniliğinin son teknoloji sonuçlara ulaşmak değil, sıkıştırmanın benzersiz ve modelsiz bir sınıflandırma aracı olarak kullanılma potansiyelini göstermek olduğunu vurguluyor
  • Paylaşılan kod, benzerlik ölçütü olarak GZIP ve NCD'yi (Normalized Compression Distance) kullanıyor; sınıflandırma için ise k-NN (k-Nearest Neighbors) kullanılıyor
  • GZIP, tekil veri noktalarının karmaşıklığını veya bilgi içeriğini ölçen bir araç olarak kullanılırken, NCD iki veri noktasının ne kadar benzer olduğunu gösteren normalize edilmiş bir ölçü sunuyor
  • Algoritma, tüm eğitim örnekleriyle NCD hesaplıyor, bunları sıralıyor ve en küçük k mesafeyi seçiyor. Bu k=5 en yakın komşu içindeki çoğunluk sınıfı, test örneğinin etiketi olarak tahmin ediliyor
  • Yazar, bu yaklaşımın hesaplama açısından pahalı olduğunu ve doğruluk ölçümü için test görüntülerinin yalnızca bir kısmının kullanıldığını kabul ediyor
  • Yazar, algoritmanın daha iyi anlaşılması için daha az gizlenmiş bir sürümünü de sunuyor
  • Yazar, 2019'da Andreas Kirsch'in benzer bir yaklaşım izlediğini ve bunun yaklaşık %35 doğruluk elde ettiğini belirtiyor
  • Yazar, veri sıkıştırmada metin üretimi üzerine bir yazı okuyup parametresiz metin sınıflandırmasıyla ilgili bir makale inceledikten sonra sıkıştırmayı bir görüntü sınıflandırma mekanizması olarak kullanmaya yönelmiş
  • Yazar daha önce edge computer vision için görüntü sıkıştırması üzerinde çalışmış ve bu tekniği MNIST veri kümesine uygulamakla ilgilenmiş

1 yorum

 
GN⁺ 2023-09-21
Hacker News görüşü
  • GZIP kullanarak MNIST veri kümesinde 10 satırdan az kodla %78 doğruluk elde edilmesine dair bir yazı
  • Yorum yapanlar, koddaki uzaklık fonksiyonunu daha basit ölçülerle değiştirmeyi denedi; bunun doğruluğu artırdığı ve hesaplama gereksinimini azalttığı görüldü
    • Öklid mesafesi, görüntüler ikilileştirildikten sonra yaklaşık 0,5 saniyede %93 doğruluk elde etti
    • Jaccard mesafesi, görüntüler ikilileştirildikten sonra yaklaşık 0,7 saniyede %94 doğruluk elde etti
    • Dice uyumsuzluğu, görüntüler ikilileştirildikten sonra yaklaşık 0,8 saniyede %94 doğruluk elde etti
  • Karşılaştırma için diğer tekniklerde Linear SVC %92 doğruluk, SVC rbf %96,4 doğruluk, SVC poly %94,5 doğruluk, lojistik regresyon %89 doğruluk ve Naive Bayes %81 doğruluk gösterdi
  • Yorum yapanlar, kod zarif ve kısa olsa da MNIST için %78 doğruluğun düşük kabul edildiğini ve Tensorflow ile yazılmış basit bir modelin kolayca %90 doğruluğa ulaştığını öne sürüyor
  • MNIST üzerindeki en iyi modeller %99,87 doğrulukla sıralanıyor
  • Bazı yorum yapanlar, normalize sıkıştırma uzaklığını (NCD) Öklid mesafesiyle değiştirmenin test doğruluğunu %15 artırabileceğini ve ciddi miktarda hesaplama tasarrufu sağlayabileceğini öne sürüyor
  • Bazı yorum yapanlar, üzerinde yüksek doğruluk elde etmenin görece kolaylaşması nedeniyle MNIST veri kümesinin artık emekliye ayrılması gerektiğini öne sürüyor
  • Yüksek düzeyde sıkıştırılmış veride örüntü bulmanın, daha iyi sıkıştırma için potansiyel taşıyıp taşımadığı tartışılıyor
  • Bazı yorum yapanlar, genel amaçlı sıkıştırıcılar ve alternatif dil modelleri için bilgi uzaklığı ölçüleriyle ilgileniyor
  • Bir yorumcu, aday diziler arasındaki ayrık evrişimle birlikte normalize sıkıştırma uzaklığını (gzip) birleştiren bir dikkat mekanizmasının kullanılmasından söz ediyor