- Tokenizer, büyük dil modellerinin (LLM) vazgeçilmez ve yaygın kullanılan bir bileşenidir; dizgeler ile token’lar (metin parçaları) arasında dönüşüm yapar
- Tokenizer, LLM hattının tamamen ayrı bir aşamasıdır:
- kendine ait bir eğitim veri kümesi ve eğitim algoritmasına (Byte Pair Encoding) sahiptir
- eğitimden sonra iki temel işlevi yerine getirir:
encode() ile dizgeyi token’lara dönüştürme,
- ve
decode() ile token’ları yeniden dizgeye dönüştürme
- Bu derste, OpenAI’nin GPT serisinde kullanılan tokenizer’ı sıfırdan inşa ediyor
- Bu süreçte, LLM’lerin birçok garip davranışının ve sorununun aslında tokenizasyondan kaynaklandığını göreceksiniz
- Bu sorunları inceleyip, tokenizasyonun neden sorunun kaynağı olduğunu ve neden birilerinin bu adımı tamamen ortadan kaldırmanın yolunu bulması gerektiğini tartışıyor
2 yorum
Hacker News görüşleri
Andrej Karpathy’nin GPT nano oluşturma üzerine videosu, modern büyük dil modellerini (Large Language Models, LLM) geliştirmek için gereken tüm adımları mükemmel şekilde açıklayan bir eğitim niteliğinde.
Andrej Karpathy çok hızlı konuşuyor; oynatma hızını kontrol etme ihtiyacı doğuyor. Sanki 1.25x hızında konuşuyormuş gibi geliyor.
Ücretli olsa bile, bunun gibi yüksek kaliteli içerik bulmak zor.
“Evrenin yumurtası olduğunda, bu tek bir token’dır” ifadesi hakkında, Nostromo gemisinin mürettebatının buna katılıp katılmayacağı belirsiz. (Bu bölüm, 'Alien' filmindeki uzay gemisi Nostromo’ya yapılan bir şaka göndermesi olup, yorumun bağlamını tam anlamak için filme dair arka plan bilgisi gerekiyor.)
Yukarıdaki özet, her yorumu tarafsız biçimde ve isim cümlesi yapısıyla özetleyerek, başlangıç seviyesindeki yazılım mühendislerinin de anlayabilmesi için kısa arka plan bilgileri eklenmiş şekilde hazırlanmıştır.
Prompt muhtemelen "her yorumu tarafsız ve isim cümlesiyle biten bir cümle olarak özetle, arka plan bilgisini kısa ekle ve başlangıç seviyesindeki bir yazılım mühendisin de anlayabileceği şekilde yaz" idi.