Stanza - Açık kaynaklı Python NLP kütüphanesi

xguru · 2020-03-25T16:05:16+09:00

Korece dahil 66 dili destekleyen, dilden bağımsız bir doğal dil işleme araç takımı PyTorch tabanlı Metin analizi için eksiksiz bir sinir ağı pipeline'ı Tokenization, çok sözcüklü token (MWT) genişletme, lemmatization POS ve morfolojik etiketleme, bağımlılık çözümlemesi, adlandırılmış varlık tanıma Stanford NLP Group tarafından geliştirilip yayımlandı Daha önce yayımlanan CoreNLP Java ile entegre olabilen bir arayüz de içeriyor

(stanfordnlp.github.io)

7 puan yazan xguru 2020-03-25 | 2 yorum | WhatsApp'ta paylaş

Korece dahil 66 dili destekleyen, dilden bağımsız bir doğal dil işleme araç takımı
PyTorch tabanlı
Metin analizi için eksiksiz bir sinir ağı pipeline'ı
Tokenization, çok sözcüklü token (MWT) genişletme, lemmatization
POS ve morfolojik etiketleme, bağımlılık çözümlemesi, adlandırılmış varlık tanıma
Stanford NLP Group tarafından geliştirilip yayımlandı
Daha önce yayımlanan CoreNLP Java ile entegre olabilen bir arayüz de içeriyor

2 yorum

sftblw 2020-03-25

NER (adlandırılmış varlık tanıma) ne yazık ki desteklediği dil sayısı az gibi görünüyor.

Korece dahil değil; Arapça, Çince, Almanca, İngilizce, Fransızca, Hollandaca ve İspanyolca olmak üzere 8 dili desteklediği söyleniyor.

xguru 2020-03-25

Korece model iki tane.

Görünüşe göre Universal Dependencies (UD) https://universaldependencies.org/ altında kayıtlı olanlar arasından token sayısı fazla olan Kaist ve GSD alınmış.

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html

Stanza - Açık kaynaklı Python NLP kütüphanesi

İlgili okumalar

2 yorum