7 puan yazan xguru 2020-03-25 | 2 yorum | WhatsApp'ta paylaş
  • Korece dahil 66 dili destekleyen, dilden bağımsız bir doğal dil işleme araç takımı

  • PyTorch tabanlı

  • Metin analizi için eksiksiz bir sinir ağı pipeline'ı

  • Tokenization, çok sözcüklü token (MWT) genişletme, lemmatization

  • POS ve morfolojik etiketleme, bağımlılık çözümlemesi, adlandırılmış varlık tanıma

  • Stanford NLP Group tarafından geliştirilip yayımlandı

  • Daha önce yayımlanan CoreNLP Java ile entegre olabilen bir arayüz de içeriyor

2 yorum

 
sftblw 2020-03-25

NER (adlandırılmış varlık tanıma) ne yazık ki desteklediği dil sayısı az gibi görünüyor.

Korece dahil değil; Arapça, Çince, Almanca, İngilizce, Fransızca, Hollandaca ve İspanyolca olmak üzere 8 dili desteklediği söyleniyor.

 
xguru 2020-03-25

Korece model iki tane.

Görünüşe göre Universal Dependencies (UD) https://universaldependencies.org/ altında kayıtlı olanlar arasından token sayısı fazla olan Kaist ve GSD alınmış.

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html