LLM Görselleştirmesi (Visualization)

(bbycroft.net)

47 puan yazan GN⁺ 2023-12-04 | 1 yorum | WhatsApp'ta paylaş

GPT-2, nano-gpt, GPT-3 gibi büyük dil modellerinin çalışma mantığını görsel olarak açıklayan bir rehber
İçindekiler: giriş ve ön bilgi, embedding, layer normalization, self-attention, projection, MLP, transformer, Softmax, çıktı

Genel giriş bölümünün özeti

nano-gpt örneğinde 85.000 parametre bulunuyor
Amaç, verilen altı karakterlik bir dizgeyi alfabetik sıraya göre sıralamak
Örneğin C B A B B C dizgesi girdi olarak alınıp ABBBCC şeklinde sıralanabilir.
Dizgedeki her karaktere token denir ve modelin söz varlığı çeşitli token'lardan oluşur
Her token'a sayısal bir indeks atanır ve bu, modele girdi olarak verilir
Her sayı 48 öğeli bir vektöre dönüştürülür; buna embedding denir
Embedding'ler transformer adı verilen bir dizi katmandan geçer
Sonunda model, verilen dizide bir sonraki token için olasılığı tahmin eder
Tahmin edilen token, modelin üst kısmına yeniden girdi olarak verilir ve tüm süreç tekrarlanır

1 yorum

GN⁺ 2023-12-04

Hacker News görüşleri

LLM’leri temelden anlamak için çok faydalı bir araç
- LLM’lerin gerçekte nasıl çalıştığını derinlemesine kavramak için harika bir araç olarak değerlendiriliyor.
- İlk dizide neden 48 öğe olduğunu anlamıyorsanız, minGPT’nin model.py dosyasına bakmanız tavsiye ediliyor.
- Bu tür yapısal kararların bağlama çok hakim olmayan kişiler için kafa karıştırıcı olabileceği, bu yüzden yazıda buna değinmenin iyi olacağı belirtiliyor.
Algoritmik karmaşıklığın 3D uzayda net biçimde ifade edilmesi şaşırtıcı bulunuyor
- Algoritmanın karmaşıklığının 3D olarak açıkça gösterilmesine hayranlık ifade ediliyor.
- Bunun doğruluğunu tam olarak değerlendirecek kadar bilgi sahibi olmayı istemeye dair kişisel bir temenni dile getiriliyor.
Bu görselleştirme gerçekten etkileyici
- Uzun zamandır derinlemesine incelemek isteniyordu ve 3D modelin eğitim aracı olarak şaşırtıcı derecede iyi olduğu belirtiliyor.
Aylardır aranan görselleştirme yöntemi buymuş
- Uzun süredir aranan görselleştirme yaklaşımını bulmuş olmaktan büyük memnuniyet duyuluyor.
- Bu tür materyallerin ücretsiz sunulmasına teşekkür ediliyor.
Başlığı rahatlıkla “sihri matris çarpımı ve nokta çarpımına ayırmak” olabilirmiş
- Asıl daha şaşırtıcı olanın LLM’lerin bu kadar iyi çalışması olduğu söyleniyor.
3D model eğitim açısından olağanüstü
- 3D modelin öğretici bir araç olarak son derece etkileyici olduğu belirtiliyor.
- Derinlemesine öğrenme için mükemmel bir kaynak olarak değerlendiriliyor.
LLM’lerin nasıl bu kadar iyi çalıştığı daha da şaşırtıcı geliyor
- LLM’lerin çalışma prensibini temel düzeyde analiz eden içeriğe olumlu bir değerlendirme yapılıyor.
- LLM’lerin bu kadar iyi çalışmasına duyulan şaşkınlık daha da vurgulanıyor.
self attention gücüne dair açıklama çoğu zaman eksik kalıyor
- Geleneksel sinir ağlarından farklı olarak, self attention katmanları bağlama göre girdiler arasındaki bağlantıları uyarlanabilir biçimde ağırlıklandırıyor.
- Bu sayede transformer’lar, geleneksel ağların birçok katmanda yapması gereken işleri tek bir katmanda gerçekleştirebiliyor.
Yazar, Twitter flood’unda bu çalışmaya dair ek bağlam paylaşıyor
- Yazarın bu çalışmanın arka planına dair ek bilgileri Twitter flood’u üzerinden paylaştığı belirtiliyor.
Kendi modeliniz için düşük boyutlu bir sürüm istiyorsanız Netron kütüphanesi öneriliyor
- Model mimarisi görselleştirmesi için Netron kütüphanesine olumlu bir değerlendirme yapılıyor ve tavsiye ediliyor.
Bu, basit bir 3D modelden ibaret değil; oldukça derinlikli bir çalışma
- İlk bakışta basit bir 3D model gibi görünse de, animasyonla birlikte sunulan derin içerik takdir ediliyor.
Bu görselleştirme gerçekten etkileyici
- Transformer’ı anlamaya çalışırken buna rastlanmış olsaydı işin çok daha kolay olacağı söyleniyor.
Hacker News’i sevme nedenlerinden biri de bu
- Böylesine kaliteli kaynakların Hacker News’te paylaşılmasına olumlu tepki veriliyor.

LLM Görselleştirmesi (Visualization)

Genel giriş bölümünün özeti

İlgili okumalar

1 yorum

Hacker News görüşleri