İngilizce Kısa Mesajların Kayıpsız Sıkıştırılması
(textsynth.org)Fabrice Bellard'ın adı son zamanlarda sıkça duyuluyor; bu kişinin önceki projesi ise sinir ağları kullanan bir kayıpsız sıkıştırma algoritmasıydı (bkz. https://bellard.org/nncp/). Tam da bugünlerde GPT-2 (https://openai.com/blog/better-language-models/) yayımlanmışken, sinir ağını bununla değiştirip sıkıştırma algoritmasını çalıştırırsak ne olur? İşte bu sayfa böyle bir fikirden doğmuş. Kısa İngilizce metinleri yaklaşık %15'e, yani karakter başına yalnızca 1,2 bit kullanacak kadar sıkıştırıyor; bu da İngilizce harf başına tahmin edilen bilgi entropisine (0,6~1,3 bit) yaklaşan bir seviye. URL'den de görülebileceği gibi, bunun SMS üzerinden gönderilmesi amaçlanmış gibi görünüyor.
- Sinir ağlarını kullanan sıkıştırma algoritmaları bununla başlamış değil. PAQ başta olmak üzere en üst düzey sıkıştırma algoritmalarının tümü istatistiksel yöntemler kullanıyor ve sinir ağları da az rastlanır değil. Hatta bunların temelini oluşturan context mixing (https://en.wikipedia.org/wiki/Context_mixing) doğrudan sinir ağı uygulamalarına dayanıyor ve Bellard'ın kullandığı LSTM için de zaten örnekler var (https://github.com/byronknoll/lstm-compress). Bellard'ın katkısı daha çok performans optimizasyonuna yakın.
1 yorum
Unicode CJK ve Hangul alanını kullanıyorlar demek ki...
2 baytlık birleşik/tam karakter döneminde genişletilmiş ASCII karakterlerinin Korece/Çince karakterler gibi göründüğü kâbus aklıma gelince... (yaşlılık ifşası)