Garu: Tarayıcıda çalışan 1.7MB'lık Korece biçimbirim çözümleyici (F1 %95,3, WASM)
(github.com/ongjin)Sunucusuz olarak tarayıcıda çalışan bir Korece biçimbirim çözümleyici geliştirdim.
Mevcut biçimbirim çözümleyiciler (Kiwi ~40MB, MeCab-ko ~50MB) sunucu ortamı varsayılarak tasarlandığı için, istemci tarafında biçimbirim analizi gerektiğinde bir seçenek yoktu.
Garu, kod kitabı + Viterbi tabanlı sinir ağı olmayan bir mimariyle, yalnızca 1.7MB model ve 93KB'lık WASM motoruyla doğrudan tarayıcıda çalışır.
- Model boyutu: 1.7MB (gzip ~950KB, ağ üzerinden aktarım yaklaşık 1MB)
- Doğruluk: F1 %95,3 (NIKL herkesin derlemi baz alınarak)
- Karşılaştırma: Kiwi %87,9 / MeCab-ko ~%85
- Sinir ağı yok: 0 eğitim parametresi, saf lookup + Viterbi decoding
npm install garu-koile hem sunucuda hem tarayıcıda kullanılabilir
BiLSTM bilgi damıtımı, jaso düzeyinde dizi etiketleme gibi iki başarısız denemenin ardından, kod kitabı + Viterbi şeklindeki sinir ağı olmayan mimariye ulaştım. %76,1'den %95,3'e uzanan optimizasyon sürecini (NIKL altın verisiyle doğrudan eğitim, akıllı eojeol önbelleği, bağlam tabanlı son işleme kuralları vb.) teknik makalede derledim.
GitHub: https://github.com/ongjin/garu
Teknik makale: https://github.com/ongjin/garu/blob/main/docs/paper.md
npm: https://www.npmjs.com/package/garu-ko
1 yorum
Show GN'ye taşındı.
Bilginiz olsun, moderatörün sınıflandırmasını ayarladığı yazıların ana ekranda görünürlüğü sınırlı olabilir; bu yüzden göndermeden önce kategoriyi bir kez daha kontrol etmenizi rica ederiz.