LLM görselleştirmesi

(bbycroft.net)

43 puan yazan GN⁺ 2025-09-05 | 1 yorum | WhatsApp'ta paylaş

GPT tabanlı büyük dil modeli nano-gpt'nin çalışma sürecini kısaca tanıtıyor
Bu model, 6 karakterlik bir diziyi alıp onu alfabetik sıraya göre sıralamayı hedefliyor
Her karakter bir token olarak kabul ediliyor ve tüm token'ların kendine özgü bir token indeksi bulunuyor
Her token indeksi, 48 boyutlu bir embedding vektörüne dönüştürülüp bir dizi transformer katmanından geçiriliyor
Model, sıradaki token'ı tahmin ediyor ve sonuç, girdi dizisini yinelemeli olarak geliştirmek için tekrar kullanılabiliyor

GPT dil modeline giriş

Bu belge, GPT büyük dil modelinin çalışma sürecini görsel olarak açıklayan bir kaynak
Burada nano-gpt adlı çok küçük bir model (yaklaşık 85.000 parametre) kullanılıyor
Modelin amacı, 6 karakterden oluşan bir diziyi alıp bunu alfabetik sıraya göre düzenlemek (ör. "ABBBCC")

Token'lar ve sözlük

Her karakter bir token olarak tanımlanıyor ve modelin tanıdığı tüm token kümesine vocabulary (sözlük) deniyor
Tabloda her token'a benzersiz bir numara (token indeksi) atanıyor
Bu token indekslerinden oluşan sayı dizisi, modelin girdisi olarak kullanılıyor

Girdi dönüşümü ve embedding

3D görselleştirmede yeşil hücreler işlenen sayıları, mavi hücreler ise modelin ağırlıklarını (weight) gösteriyor
Her girdi sayısı, 48 boyutlu bir embedding vektörüne dönüştürülüyor
Bu embedding'ler model mimarisi içindeki çeşitli transformer katmanlarından art arda geçiriliyor

Çıktı ve tahmin süreci

Modelin çıktısı, ilgili dizide tahmin edilen bir sonraki token'ın olasılığı olarak ifade ediliyor
1. girdi konumunda, bir sonraki token'ın 'A', 'B', 'C' olma olasılık dağılımı tahmin ediliyor
Örnekte model, 'A' olasılığının en yüksek olduğunu tahmin ediyor
Bu tahmin sonucu yeniden girdiye eklenerek süreç tekrarlanıyor ve tüm dizi oluşturuluyor

1 yorum

GN⁺ 2025-09-05

Hacker News görüşleri

Gerçekten karmaşık ama bir o kadar da hayranlık uyandırıcı; süreci görselleştirme biçimi gerçekten harika
Bununla ilgili materyaller var; başka şeyleri de merak ederseniz onlara da bakabilirsiniz
LLM Visualization - Aralık 2023, 131 yorum
Georgia Tech araştırmacılarının hazırladığı başka bir transformer görselleştirme kaynağı da var
https://poloclub.github.io/transformer-explainer/
Ayrıca "The Illustrated Transformer" adlı ünlü görselleştirme kaynağı da tavsiye ediliyor
https://jalammar.github.io/illustrated-transformer/
Sebastian Raschka, PhD'nin mimari hakkında yazdığı bir gönderi de var
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
Hacker News'teki şu yorumda çeşitli kaynakları tek seferde görebilirsiniz
https://news.ycombinator.com/item?id=35712334
Görselleştirme gerçekten ilgi çekici; tüm süreci görsel olarak görebiliyoruz ama modelin iç karar verme ölçütlerini hâlâ tam olarak anlayamıyor olmamız ironik. Yaklaşık 1 yıl önce baktığımda bu konuda hâlâ bir ilerleme yoktu
Bu görselleştirme içeriği o kadar iyi ki, 5 yaşındaki oğlumun gittiği bilgisayar kulübünde çocuklara göstermeyi planlıyorum
- O yöntemle çocukları uyutmak için birebir olur herhalde
Gerçekten muhteşem ve hayranlık uyandıran bir sanat eseri gibi; bunu hazırladığınız için teşekkürler
Eskiden beri şu görselleştirme kaynağını da çok seviyordum
https://alphacode.deepmind.com/
(mobildeyseniz play'e basıp sonuna kadar zoom out yaptıktan sonra aşağı kaydırın)
LLM görselleştirmelerinin böyle bir eğitim aracına dönüşmesi gerçekten harika olurdu; örneğin üretim sürecinde attention'ın nasıl hareket ettiğini ya da prompt'un çıktıyı nasıl etkilediğini gösterebilir. Bu tür interaktif görselleştirmeler, arka planda gerçekten neler olup bittiğini anlamaya ciddi şekilde yardımcı olabilir
Bence gerçekten çok etkileyici; zaman bulduğumda derinlemesine incelemek istiyorum. Gözlem araçlarıyla birleştirildiğinde bunun, bilim insanlarının "kara kutu" olarak bilinen model içini kurcalamasını sağlayabileceğini düşünüyorum
Artık anladım; bu gerçekten olağanüstü bir kaynak. Harcanan zaman ve emek için teşekkürler

LLM görselleştirmesi

GPT dil modeline giriş

Token'lar ve sözlük

Girdi dönüşümü ve embedding

Çıktı ve tahmin süreci

İlgili okumalar

1 yorum

Hacker News görüşleri