- GPT-2, nano-gpt, GPT-3 gibi büyük dil modellerinin çalışma mantığını görsel olarak açıklayan bir rehber
- İçindekiler: giriş ve ön bilgi, embedding, layer normalization, self-attention, projection, MLP, transformer, Softmax, çıktı
Genel giriş bölümünün özeti
nano-gpt örneğinde 85.000 parametre bulunuyor
- Amaç, verilen altı karakterlik bir dizgeyi alfabetik sıraya göre sıralamak
- Örneğin
C B A B B C dizgesi girdi olarak alınıp ABBBCC şeklinde sıralanabilir.
- Dizgedeki her karaktere
token denir ve modelin söz varlığı çeşitli token'lardan oluşur
- Her token'a sayısal bir indeks atanır ve bu, modele girdi olarak verilir
- Her sayı 48 öğeli bir vektöre dönüştürülür; buna
embedding denir
- Embedding'ler
transformer adı verilen bir dizi katmandan geçer
- Sonunda model, verilen dizide bir sonraki token için olasılığı tahmin eder
- Tahmin edilen token, modelin üst kısmına yeniden girdi olarak verilir ve tüm süreç tekrarlanır
1 yorum
Hacker News görüşleri
LLM’leri temelden anlamak için çok faydalı bir araç
model.pydosyasına bakmanız tavsiye ediliyor.Algoritmik karmaşıklığın 3D uzayda net biçimde ifade edilmesi şaşırtıcı bulunuyor
Bu görselleştirme gerçekten etkileyici
Aylardır aranan görselleştirme yöntemi buymuş
Başlığı rahatlıkla “sihri matris çarpımı ve nokta çarpımına ayırmak” olabilirmiş
3D model eğitim açısından olağanüstü
LLM’lerin nasıl bu kadar iyi çalıştığı daha da şaşırtıcı geliyor
self attentiongücüne dair açıklama çoğu zaman eksik kalıyorself attentionkatmanları bağlama göre girdiler arasındaki bağlantıları uyarlanabilir biçimde ağırlıklandırıyor.Yazar, Twitter flood’unda bu çalışmaya dair ek bağlam paylaşıyor
Kendi modeliniz için düşük boyutlu bir sürüm istiyorsanız Netron kütüphanesi öneriliyor
Bu, basit bir 3D modelden ibaret değil; oldukça derinlikli bir çalışma
Bu görselleştirme gerçekten etkileyici
Hacker News’i sevme nedenlerinden biri de bu