- Temel kurulum boyutu 21MB; alternatif kütüphanelere kıyasla 80-171MB daha küçük
- Diğer popüler kütüphanelerden 33 kat daha hızlı token parçalama
- Token, kelime, cümle, semantik, SDPM gibi çeşitli parçalama stratejilerini destekler
transformers, tokenizers, tiktoken gibi başlıca tokenizer'larla tamamen uyumlu
- Temel işlevler için harici bağımlılık yok
Teknik optimizasyonlar
- Daha hızlı tokenizasyon için multithreading destekli
tiktoken kullanır
- Agresif önbellekleme ve ön hesaplama uygular
- Verimli semantik parçalama için Running Mean Pooling kullanır
- Yalnızca ihtiyaç duyulanların kurulabildiği modüler bir bağımlılık sistemi
Henüz yorum yok.