- GPT tabanlı büyük dil modeli nano-gpt'nin çalışma sürecini kısaca tanıtıyor
- Bu model, 6 karakterlik bir diziyi alıp onu alfabetik sıraya göre sıralamayı hedefliyor
- Her karakter bir token olarak kabul ediliyor ve tüm token'ların kendine özgü bir token indeksi bulunuyor
- Her token indeksi, 48 boyutlu bir embedding vektörüne dönüştürülüp bir dizi transformer katmanından geçiriliyor
- Model, sıradaki token'ı tahmin ediyor ve sonuç, girdi dizisini yinelemeli olarak geliştirmek için tekrar kullanılabiliyor
GPT dil modeline giriş
- Bu belge, GPT büyük dil modelinin çalışma sürecini görsel olarak açıklayan bir kaynak
- Burada nano-gpt adlı çok küçük bir model (yaklaşık 85.000 parametre) kullanılıyor
- Modelin amacı, 6 karakterden oluşan bir diziyi alıp bunu alfabetik sıraya göre düzenlemek (ör. "ABBBCC")
Token'lar ve sözlük
- Her karakter bir token olarak tanımlanıyor ve modelin tanıdığı tüm token kümesine vocabulary (sözlük) deniyor
- Tabloda her token'a benzersiz bir numara (token indeksi) atanıyor
- Bu token indekslerinden oluşan sayı dizisi, modelin girdisi olarak kullanılıyor
Girdi dönüşümü ve embedding
- 3D görselleştirmede yeşil hücreler işlenen sayıları, mavi hücreler ise modelin ağırlıklarını (weight) gösteriyor
- Her girdi sayısı, 48 boyutlu bir embedding vektörüne dönüştürülüyor
- Bu embedding'ler model mimarisi içindeki çeşitli transformer katmanlarından art arda geçiriliyor
Çıktı ve tahmin süreci
- Modelin çıktısı, ilgili dizide tahmin edilen bir sonraki token'ın olasılığı olarak ifade ediliyor
-
- girdi konumunda, bir sonraki token'ın 'A', 'B', 'C' olma olasılık dağılımı tahmin ediliyor
- Örnekte model, 'A' olasılığının en yüksek olduğunu tahmin ediyor
- Bu tahmin sonucu yeniden girdiye eklenerek süreç tekrarlanıyor ve tüm dizi oluşturuluyor
1 yorum
Hacker News görüşleri
LLM Visualization - Aralık 2023, 131 yorum
https://poloclub.github.io/transformer-explainer/
Ayrıca "The Illustrated Transformer" adlı ünlü görselleştirme kaynağı da tavsiye ediliyor
https://jalammar.github.io/illustrated-transformer/
Sebastian Raschka, PhD'nin mimari hakkında yazdığı bir gönderi de var
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
Hacker News'teki şu yorumda çeşitli kaynakları tek seferde görebilirsiniz
https://news.ycombinator.com/item?id=35712334
https://alphacode.deepmind.com/
(mobildeyseniz play'e basıp sonuna kadar zoom out yaptıktan sonra aşağı kaydırın)