43 puan yazan GN⁺ 2025-09-05 | 1 yorum | WhatsApp'ta paylaş
  • GPT tabanlı büyük dil modeli nano-gpt'nin çalışma sürecini kısaca tanıtıyor
  • Bu model, 6 karakterlik bir diziyi alıp onu alfabetik sıraya göre sıralamayı hedefliyor
  • Her karakter bir token olarak kabul ediliyor ve tüm token'ların kendine özgü bir token indeksi bulunuyor
  • Her token indeksi, 48 boyutlu bir embedding vektörüne dönüştürülüp bir dizi transformer katmanından geçiriliyor
  • Model, sıradaki token'ı tahmin ediyor ve sonuç, girdi dizisini yinelemeli olarak geliştirmek için tekrar kullanılabiliyor

GPT dil modeline giriş

  • Bu belge, GPT büyük dil modelinin çalışma sürecini görsel olarak açıklayan bir kaynak
  • Burada nano-gpt adlı çok küçük bir model (yaklaşık 85.000 parametre) kullanılıyor
  • Modelin amacı, 6 karakterden oluşan bir diziyi alıp bunu alfabetik sıraya göre düzenlemek (ör. "ABBBCC")

Token'lar ve sözlük

  • Her karakter bir token olarak tanımlanıyor ve modelin tanıdığı tüm token kümesine vocabulary (sözlük) deniyor
  • Tabloda her token'a benzersiz bir numara (token indeksi) atanıyor
  • Bu token indekslerinden oluşan sayı dizisi, modelin girdisi olarak kullanılıyor

Girdi dönüşümü ve embedding

  • 3D görselleştirmede yeşil hücreler işlenen sayıları, mavi hücreler ise modelin ağırlıklarını (weight) gösteriyor
  • Her girdi sayısı, 48 boyutlu bir embedding vektörüne dönüştürülüyor
  • Bu embedding'ler model mimarisi içindeki çeşitli transformer katmanlarından art arda geçiriliyor

Çıktı ve tahmin süreci

  • Modelin çıktısı, ilgili dizide tahmin edilen bir sonraki token'ın olasılığı olarak ifade ediliyor
    1. girdi konumunda, bir sonraki token'ın 'A', 'B', 'C' olma olasılık dağılımı tahmin ediliyor
  • Örnekte model, 'A' olasılığının en yüksek olduğunu tahmin ediyor
  • Bu tahmin sonucu yeniden girdiye eklenerek süreç tekrarlanıyor ve tüm dizi oluşturuluyor

1 yorum

 
GN⁺ 2025-09-05
Hacker News görüşleri
  • Gerçekten karmaşık ama bir o kadar da hayranlık uyandırıcı; süreci görselleştirme biçimi gerçekten harika
  • Bununla ilgili materyaller var; başka şeyleri de merak ederseniz onlara da bakabilirsiniz
    LLM Visualization - Aralık 2023, 131 yorum
  • Georgia Tech araştırmacılarının hazırladığı başka bir transformer görselleştirme kaynağı da var
    https://poloclub.github.io/transformer-explainer/
    Ayrıca "The Illustrated Transformer" adlı ünlü görselleştirme kaynağı da tavsiye ediliyor
    https://jalammar.github.io/illustrated-transformer/
    Sebastian Raschka, PhD'nin mimari hakkında yazdığı bir gönderi de var
    https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
    Hacker News'teki şu yorumda çeşitli kaynakları tek seferde görebilirsiniz
    https://news.ycombinator.com/item?id=35712334
  • Görselleştirme gerçekten ilgi çekici; tüm süreci görsel olarak görebiliyoruz ama modelin iç karar verme ölçütlerini hâlâ tam olarak anlayamıyor olmamız ironik. Yaklaşık 1 yıl önce baktığımda bu konuda hâlâ bir ilerleme yoktu
  • Bu görselleştirme içeriği o kadar iyi ki, 5 yaşındaki oğlumun gittiği bilgisayar kulübünde çocuklara göstermeyi planlıyorum
    • O yöntemle çocukları uyutmak için birebir olur herhalde
  • Gerçekten muhteşem ve hayranlık uyandıran bir sanat eseri gibi; bunu hazırladığınız için teşekkürler
  • Eskiden beri şu görselleştirme kaynağını da çok seviyordum
    https://alphacode.deepmind.com/
    (mobildeyseniz play'e basıp sonuna kadar zoom out yaptıktan sonra aşağı kaydırın)
  • LLM görselleştirmelerinin böyle bir eğitim aracına dönüşmesi gerçekten harika olurdu; örneğin üretim sürecinde attention'ın nasıl hareket ettiğini ya da prompt'un çıktıyı nasıl etkilediğini gösterebilir. Bu tür interaktif görselleştirmeler, arka planda gerçekten neler olup bittiğini anlamaya ciddi şekilde yardımcı olabilir
  • Bence gerçekten çok etkileyici; zaman bulduğumda derinlemesine incelemek istiyorum. Gözlem araçlarıyla birleştirildiğinde bunun, bilim insanlarının "kara kutu" olarak bilinen model içini kurcalamasını sağlayabileceğini düşünüyorum
  • Artık anladım; bu gerçekten olağanüstü bir kaynak. Harcanan zaman ve emek için teşekkürler