GPT Tokenizer'ı Anlamak
(simonwillison.net)- GPT/LLaMA/PaLM gibi LLM modelleri token tabanlı çalışır
- Metni alıp token'lara (tamsayılar) dönüştürür ve ardından hangi token'ın geleceğini tahmin eder
- OpenAI Tokenizer'ı yayımladı, ancak yazar kendi sürümünü Observable notebook olarak paylaştı (GPT-2 tabanlı, eğitim amaçlı)
- metin-to-token, token-to-metin ve tüm token tablosunda arama desteği sunuyor
-
The dog eats the apples
El perro come las manzanas
片仮名 - Yukarıdaki cümlelerin token'lara dönüştürülmüş sonucuyla açıklama yapılıyor
Thevethefarklı token'lardır- Birçok kelime, başında boşluk bulunan token'lara sahiptir (tüm cümleyi kodlamada çok daha verimlidir)
- İngilizce dışındaki kelimelerde verimsiz tokenleştirme gerçekleşir
Henüz yorum yok.