Stanza - Açık kaynaklı Python NLP kütüphanesi
(stanfordnlp.github.io)-
Korece dahil 66 dili destekleyen, dilden bağımsız bir doğal dil işleme araç takımı
-
PyTorch tabanlı
-
Metin analizi için eksiksiz bir sinir ağı pipeline'ı
-
Tokenization, çok sözcüklü token (MWT) genişletme, lemmatization
-
POS ve morfolojik etiketleme, bağımlılık çözümlemesi, adlandırılmış varlık tanıma
-
Stanford NLP Group tarafından geliştirilip yayımlandı
-
Daha önce yayımlanan CoreNLP Java ile entegre olabilen bir arayüz de içeriyor
2 yorum
NER (adlandırılmış varlık tanıma) ne yazık ki desteklediği dil sayısı az gibi görünüyor.
Korece dahil değil; Arapça, Çince, Almanca, İngilizce, Fransızca, Hollandaca ve İspanyolca olmak üzere 8 dili desteklediği söyleniyor.
Korece model iki tane.
Görünüşe göre Universal Dependencies (UD) https://universaldependencies.org/ altında kayıtlı olanlar arasından token sayısı fazla olan Kaist ve GSD alınmış.
UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html
UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html