- OpenAI'nin TikToken'ı ile %100 uyumlu yüksek performanslı bir tokenizer olup, büyük ölçekli metin işlemede 2 kattan fazla throughput ve kod tokenizasyonunda 4 kat daha hızlı hız sunar
- PCRE2 tabanlı yüksek hızlı düzenli ifade ayrıştırma motoru sayesinde token desen eşleme hızı en üst düzeye çıkarılır
- Basitleştirilmiş BPE algoritması ile çok sayıda özel token işlenirken performans düşüşü en aza indirilir
- Gerçek benchmark'larda kod tokenizasyonu 4 kattan fazla daha hızlıdır ve mevcut TikToken kullanan kodlar doğrudan değiştirilmeden yerine kullanılabilir
- Python 3.8+ destekler, PyPI üzerinden
pip install tokendagger ile kolayca kurulabilir ve PCRE2 bağımlılığı vardır
1 yorum
Hacker News görüşleri
vLLMde büyük ölçüde Python ile yazılmıştır). C++ ile yeniden yazmak neredeyse her zaman CUDA kernel'larını daha verimli biçimde yeniden yazmak anlamına gelirmatmulkaynaklı olduğunu varsayıyordum, ama yorumlara bakınca tokenizer'ın da anlamlı bir etkisi var gibi görünüyor