50 puan yazan GN⁺ 2026-03-16 | 2 yorum | WhatsApp'ta paylaş
  • En yeni büyük dil modeli (LLM) yapılarının şemalarını ve temel teknik özelliklerini tek bakışta derleyen çevrimiçi bir galeri; 2024~2026 arasında yayımlanan başlıca modelleri kapsıyor
  • Her model, parametre ölçeği, decoder türü, attention yöntemi ve ana tasarım noktalarını özetleyen tablo biçiminde sunuluyor
  • İçerik, Sebastian Raschka'nın karşılaştırmalı analiz yazıları ‘The Big LLM Architecture Comparison’ ve ‘A Dream of Spring for Open-Weight LLMs’ içinden alınmış
  • Kullanıcılar model adına tıklayarak ilgili ayrıntılı açıklamaya gidebilir veya görsele tıklayarak yüksek çözünürlüklü mimari diyagramı (182 megapiksel) büyütebilir
  • Open-weight LLM araştırmacıları ve geliştiricileri için bir referans mimari veritabanı olarak, en güncel MoE·Hybrid·Dense yapıların evrimini tek yerde görmeyi sağlıyor

Genel Bakış

  • Bu sayfa, LLM mimari şemaları ve bilgi kartlarını toplayan bir galeri; Raschka'nın iki önemli karşılaştırma yazısından yalnızca şemalar derlenerek düzenlenmiş
    • Özgün kaynaklar: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
  • Her model girdisi model adı, parametre sayısı, yayımlanma tarihi, decoder türü, attention yöntemi, temel tasarım özellikleri ve ilgili kavram bağlantılarından oluşuyor
  • Yanlış bilgi veya bağlantı hatası bulunursa GitHub issue tracker üzerinden bildirilebiliyor
  • Yoğun talep nedeniyle Zazzle üzerinden 14570×12490 çözünürlükte poster (56MB PNG) sürümü de sunuluyor

Başlıca model örnekleri

Llama 3 8B

  • 8 milyar parametreli, Dense decoder tabanlı bir model; OLMo 2'nin normalizasyon ve attention tercihlerini karşılaştırmak için bir referans yığın olarak kullanılıyor
  • GQA + RoPE attention kullanıyor, Pre-norm yapısını koruyor
  • 18 Nisan 2024'te yayımlandı

OLMo 2 7B

  • 7 milyar parametreli bir Dense model, MHA + QK-Norm attention kullanıyor
  • Inside-residual post-norm yapısıyla eğitim kararlılığını artırıyor
  • 25 Kasım 2024'te yayımlandı

DeepSeek V3

  • Toplam 671 milyar parametrenin 37 milyarının etkin olduğu Sparse MoE model
  • MLA attention ile shared expert yapısını birleştiriyor
  • Büyük açık MoE model dalgasını başlatan temsili şablon

DeepSeek R1

  • DeepSeek V3 tabanlı, reasoning odaklı sürüm; aynı mimariyi koruyor
  • 20 Ocak 2025'te yayımlandı, MLA tabanlı Sparse MoE yapısına sahip

Gemma 3 27B

  • 27 milyar parametreli Dense model, GQA + QK-Norm ile 5:1 sliding-window/global attention kullanıyor
  • Çok dilli kelime dağarcığı genişletmesi ve yerel attention güçlendirmesi ile öne çıkıyor
  • 11 Mart 2025'te yayımlandı

MoE ve Hybrid mimari genişlemesi

Llama 4 Maverick

  • Meta'nın Sparse MoE modeli; DeepSeek V3 yapısını temel alırken geleneksel GQA attention benimsiyor
  • Toplam 400 milyar parametrenin 17 milyarı etkin
  • Dense ve MoE bloklarını dönüşümlü yerleştiriyor, uzman sayısını azaltıp ölçeği büyütüyor

Qwen3 235B-A22B

  • DeepSeek V3'e benzer Sparse MoE yapısında shared expert kaldırılmış
  • Toplam 235 milyar parametrenin 22 milyarı etkin, GQA + QK-Norm kullanıyor
  • 28 Nisan 2025'te yayımlandı

Kimi K2

  • 1 trilyon parametre ölçeğinde Sparse MoE model; DeepSeek V3'ün genişletilmiş hâli
  • MLA attention kullanıyor, uzman sayısını artırıp MLA head sayısını azaltıyor
  • 10 Temmuz 2025'te yayımlandı

GLM-4.5 355B

  • Ajan odaklı Sparse MoE model; DeepSeek'in Dense-prefix MoE yapısını benimsiyor
  • Toplam 355 milyar parametrenin 32 milyarı etkin, GQA + QK-Norm kullanıyor
  • 28 Temmuz 2025'te yayımlandı

GPT-OSS 20B / 120B

  • OpenAI'ın open-weight MoE serisi, GQA tabanlı sliding-window/global cross-attention kullanıyor
  • 20B model sığ ve geniş bir yapıya sahip, 120B model aynı tasarımı ölçeklendiriyor
  • 4 Ağustos 2025'te yayımlandı

Hybrid ve yeni nesil yapılar

Qwen3 Next 80B-A3B

  • Gated DeltaNet + Gated Attention karışık attention kullanan Sparse Hybrid model
  • Toplam 80 milyar parametrenin 3 milyarı etkin, 262k context desteği sunuyor
  • 9 Eylül 2025'te yayımlandı

Kimi Linear 48B-A3B

  • Linear Attention + MLA birleşimli hibrit yapı
  • NoPE uygulanması ve kanal bazlı gating ile uzun bağlam verimliliğini artırıyor
  • 30 Ekim 2025'te yayımlandı

Nemotron 3 Nano / Super

  • NVIDIA'nın Transformer-State-Space Hybrid modeli
  • Nano (30B) Mamba-2 + MoE, Super (120B) ise ek olarak LatentMoE + MTP içeriyor
  • Sırasıyla 4 Aralık 2025 ve 11 Mart 2026'da yayımlandı

Ling 2.5 1T

  • 1 trilyon parametreli Sparse Hybrid model, Lightning Attention + MLA birleşimi kullanıyor
  • 63 milyar etkin parametre, 7:1 oranında linear/MLA attention yapısı
  • 15 Şubat 2026'da yayımlandı

En yeni open-weight modeller

Qwen3.5 397B

  • Qwen3 Next'in hibrit attention yaklaşımını devralan amiral gemisi model
  • Toplam 397 milyar parametrenin 17 milyarı etkin, 512 uzman yapısına sahip
  • 16 Şubat 2026'da yayımlandı

Sarvam 30B / 105B

  • Hint dilleri desteğine odaklanan Sparse MoE model
  • 30B modeli GQA + QK-Norm, 105B modeli ise MLA + NoPE + RoPE kullanıyor
  • 3 Mart 2026'da yayımlandı

İlgili yazılar

  • The Big LLM Architecture Comparison: Dense, MoE, MLA, Hybrid decoder yapıları arasındaki tasarım farklarını açıklıyor
  • A Dream of Spring for Open-Weight LLMs: 2026 başında yayımlanan MiniMax, Qwen, Ling, Sarvam gibi open-weight modellere ek analiz sunuyor

2 yorum

 
orange 2026-03-17

Eğlenceliymiş

 
GN⁺ 2026-03-16
Hacker News görüşleri
  • Yıllar süren deneylerin ardından açık ağırlıklı modellerin sonunda benzer bir biçimde yakınsamasını ilginç buluyorum
    MoE routing, state-space model, linear attention gibi çeşitli denemeler oldu ama bugün gelinen noktada RMSNorm, rotary position embedding, SwiGLU ve grouped-query attention ile birleştirilmiş dense decoder-only transformer yapısı baskın hale geldi
    Artık asıl farklılaşma noktası eğitim reçetesi ve veri pipeline'ına kaymış durumda
    DeepSeek-R1'in gerçek yeniliği mimaride değil, akıl yürütme zinciri için reinforcement learning tarafındaydı; Llama 3 de mimari olarak neredeyse aynı kalsa da veri ve son işleme süreci tamamen yenilendi
    Bu, çip tasarımında ISA'dan çok üretim süreci ve mikro mimarinin önem kazanmasına benziyor

  • Sebastian'ın yazıları her zaman okumaya değer
    Build an LLM From Scratch kitabını kuvvetle tavsiye ederim. Transformer mekanizmasını ancak bu kitap sayesinde gerçekten anlayabildim
    LLM Architecture Gallery, modeller arasındaki farkları ilginç biçimde gösteriyor ama GPT-2'den bu yana geçen 7 yılda temel düzeyde yenilik neredeyse hiç olmadı
    Bugünün açık ağırlıklı modelleri de uzaktan bakınca hâlâ GPT-2'ye benzer bir attention + feed-forward katmanlarının tekrar eden yapısı taşıyor
    Son dönemdeki sıçramalı ilerleme, ölçekleme ve yeni eğitim teknikleri (RLVR vb.) sayesinde oldu; bu da Bitter Lesson'ın bir başka örneği gibi görünüyor

  • Gerçekten harika bir görselleştirme. Bana daha önce gördüğüm Neural Network Zoo'yu hatırlattı
    O proje gibi bu çalışma da mimari çeşitliliği bir bakışta çok iyi gösteriyor

  • Harika iş
    Acaba bir sıralama ölçütü var mı diye merak ettim. Evrimsel akışı ya da yeniliklerin soy hattını aile ağacı biçiminde görebilsek daha da iyi olurdu
    Ayrıca model boyutlarındaki değişim ölçekli bir görselleştirmeyle verilse ilerleme hızını daha sezgisel hissetmek mümkün olabilir

    • DeepSeek ailesinin evrimini gösteren bir kaynak olarak şu yazıya bakılabilir
  • Gerçekten çok iyi. Paylaştığın için teşekkürler
    Yakınlaştırılabilir sürüme buradan bakabilirsiniz

  • Bir istatistikçi olarak, “sinir ağları fonksiyon yaklaştırır” fikrinden gerçek makine öğrenimi modeli mühendisliğine uzanan modüler bir kavrayış biçimini hep istemiştim
    Bu materyal sanki o boşluğu dolduruyor

  • Bu diyagramı hangi araçla çizdiklerini merak ediyorum

  • İlginç bir derleme
    Pratikte prompt kalıplarını karşılaştırınca mimari farklar beklenmedik şekillerde ortaya çıkabiliyor
    Örneğin uzun context window, sadece daha fazla metni işlemekle kalmıyor; girdi yapısının kendisini de farklı tasarlamayı gerektiriyor

  • Yapısal olarak en basit ama yine de rekabetçi olan modelin hangisi olduğunu merak ediyorum

    • Rekabet gücü mimariden çok ölçek, veri ve fine-tuning verisinden geliyor
      Son birkaç yılda mimari yenilik neredeyse yoktu; değişikliklerin çoğu eğitim verimliliğini artırmaya yönelikti
    • “Rekabetçi” tanımını gevşek tutarsak, Markov chain bile doğrudan uygulanabilir
      Transformer modeller, çok sayıda öncül araştırmanın birikimi üzerine kademeli olarak gelişti
  • Tıklayınca LLM'nin gökdelen, baraj ya da köprü tasarlamasıyla ilgili bir şey çıkacağını sanmıştım
    Hatta patlamış mısırı bile hazırlamıştım; biraz hayal kırıklığı oldu