47 puan yazan GN⁺ 2023-12-04 | 1 yorum | WhatsApp'ta paylaş
  • GPT-2, nano-gpt, GPT-3 gibi büyük dil modellerinin çalışma mantığını görsel olarak açıklayan bir rehber
  • İçindekiler: giriş ve ön bilgi, embedding, layer normalization, self-attention, projection, MLP, transformer, Softmax, çıktı

Genel giriş bölümünün özeti

  • nano-gpt örneğinde 85.000 parametre bulunuyor
  • Amaç, verilen altı karakterlik bir dizgeyi alfabetik sıraya göre sıralamak
  • Örneğin C B A B B C dizgesi girdi olarak alınıp ABBBCC şeklinde sıralanabilir.
  • Dizgedeki her karaktere token denir ve modelin söz varlığı çeşitli token'lardan oluşur
  • Her token'a sayısal bir indeks atanır ve bu, modele girdi olarak verilir
  • Her sayı 48 öğeli bir vektöre dönüştürülür; buna embedding denir
  • Embedding'ler transformer adı verilen bir dizi katmandan geçer
  • Sonunda model, verilen dizide bir sonraki token için olasılığı tahmin eder
  • Tahmin edilen token, modelin üst kısmına yeniden girdi olarak verilir ve tüm süreç tekrarlanır

1 yorum

 
GN⁺ 2023-12-04
Hacker News görüşleri
  • LLM’leri temelden anlamak için çok faydalı bir araç

    • LLM’lerin gerçekte nasıl çalıştığını derinlemesine kavramak için harika bir araç olarak değerlendiriliyor.
    • İlk dizide neden 48 öğe olduğunu anlamıyorsanız, minGPT’nin model.py dosyasına bakmanız tavsiye ediliyor.
    • Bu tür yapısal kararların bağlama çok hakim olmayan kişiler için kafa karıştırıcı olabileceği, bu yüzden yazıda buna değinmenin iyi olacağı belirtiliyor.
  • Algoritmik karmaşıklığın 3D uzayda net biçimde ifade edilmesi şaşırtıcı bulunuyor

    • Algoritmanın karmaşıklığının 3D olarak açıkça gösterilmesine hayranlık ifade ediliyor.
    • Bunun doğruluğunu tam olarak değerlendirecek kadar bilgi sahibi olmayı istemeye dair kişisel bir temenni dile getiriliyor.
  • Bu görselleştirme gerçekten etkileyici

    • Uzun zamandır derinlemesine incelemek isteniyordu ve 3D modelin eğitim aracı olarak şaşırtıcı derecede iyi olduğu belirtiliyor.
  • Aylardır aranan görselleştirme yöntemi buymuş

    • Uzun süredir aranan görselleştirme yaklaşımını bulmuş olmaktan büyük memnuniyet duyuluyor.
    • Bu tür materyallerin ücretsiz sunulmasına teşekkür ediliyor.
  • Başlığı rahatlıkla “sihri matris çarpımı ve nokta çarpımına ayırmak” olabilirmiş

    • Asıl daha şaşırtıcı olanın LLM’lerin bu kadar iyi çalışması olduğu söyleniyor.
  • 3D model eğitim açısından olağanüstü

    • 3D modelin öğretici bir araç olarak son derece etkileyici olduğu belirtiliyor.
    • Derinlemesine öğrenme için mükemmel bir kaynak olarak değerlendiriliyor.
  • LLM’lerin nasıl bu kadar iyi çalıştığı daha da şaşırtıcı geliyor

    • LLM’lerin çalışma prensibini temel düzeyde analiz eden içeriğe olumlu bir değerlendirme yapılıyor.
    • LLM’lerin bu kadar iyi çalışmasına duyulan şaşkınlık daha da vurgulanıyor.
  • self attention gücüne dair açıklama çoğu zaman eksik kalıyor

    • Geleneksel sinir ağlarından farklı olarak, self attention katmanları bağlama göre girdiler arasındaki bağlantıları uyarlanabilir biçimde ağırlıklandırıyor.
    • Bu sayede transformer’lar, geleneksel ağların birçok katmanda yapması gereken işleri tek bir katmanda gerçekleştirebiliyor.
  • Yazar, Twitter flood’unda bu çalışmaya dair ek bağlam paylaşıyor

    • Yazarın bu çalışmanın arka planına dair ek bilgileri Twitter flood’u üzerinden paylaştığı belirtiliyor.
  • Kendi modeliniz için düşük boyutlu bir sürüm istiyorsanız Netron kütüphanesi öneriliyor

    • Model mimarisi görselleştirmesi için Netron kütüphanesine olumlu bir değerlendirme yapılıyor ve tavsiye ediliyor.
  • Bu, basit bir 3D modelden ibaret değil; oldukça derinlikli bir çalışma

    • İlk bakışta basit bir 3D model gibi görünse de, animasyonla birlikte sunulan derin içerik takdir ediliyor.
  • Bu görselleştirme gerçekten etkileyici

    • Transformer’ı anlamaya çalışırken buna rastlanmış olsaydı işin çok daha kolay olacağı söyleniyor.
  • Hacker News’i sevme nedenlerinden biri de bu

    • Böylesine kaliteli kaynakların Hacker News’te paylaşılmasına olumlu tepki veriliyor.