LLM Mimari Galerisi

(sebastianraschka.com)

50 puan yazan GN⁺ 2026-03-16 | 2 yorum | WhatsApp'ta paylaş

En yeni büyük dil modeli (LLM) yapılarının şemalarını ve temel teknik özelliklerini tek bakışta derleyen çevrimiçi bir galeri; 2024~2026 arasında yayımlanan başlıca modelleri kapsıyor
Her model, parametre ölçeği, decoder türü, attention yöntemi ve ana tasarım noktalarını özetleyen tablo biçiminde sunuluyor
İçerik, Sebastian Raschka'nın karşılaştırmalı analiz yazıları ‘The Big LLM Architecture Comparison’ ve ‘A Dream of Spring for Open-Weight LLMs’ içinden alınmış
Kullanıcılar model adına tıklayarak ilgili ayrıntılı açıklamaya gidebilir veya görsele tıklayarak yüksek çözünürlüklü mimari diyagramı (182 megapiksel) büyütebilir
Open-weight LLM araştırmacıları ve geliştiricileri için bir referans mimari veritabanı olarak, en güncel MoE·Hybrid·Dense yapıların evrimini tek yerde görmeyi sağlıyor

Genel Bakış

Bu sayfa, LLM mimari şemaları ve bilgi kartlarını toplayan bir galeri; Raschka'nın iki önemli karşılaştırma yazısından yalnızca şemalar derlenerek düzenlenmiş
- Özgün kaynaklar: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
Her model girdisi model adı, parametre sayısı, yayımlanma tarihi, decoder türü, attention yöntemi, temel tasarım özellikleri ve ilgili kavram bağlantılarından oluşuyor
Yanlış bilgi veya bağlantı hatası bulunursa GitHub issue tracker üzerinden bildirilebiliyor
Yoğun talep nedeniyle Zazzle üzerinden 14570×12490 çözünürlükte poster (56MB PNG) sürümü de sunuluyor

Başlıca model örnekleri

Llama 3 8B

8 milyar parametreli, Dense decoder tabanlı bir model; OLMo 2'nin normalizasyon ve attention tercihlerini karşılaştırmak için bir referans yığın olarak kullanılıyor
GQA + RoPE attention kullanıyor, Pre-norm yapısını koruyor
18 Nisan 2024'te yayımlandı

OLMo 2 7B

7 milyar parametreli bir Dense model, MHA + QK-Norm attention kullanıyor
Inside-residual post-norm yapısıyla eğitim kararlılığını artırıyor
25 Kasım 2024'te yayımlandı

DeepSeek V3

Toplam 671 milyar parametrenin 37 milyarının etkin olduğu Sparse MoE model
MLA attention ile shared expert yapısını birleştiriyor
Büyük açık MoE model dalgasını başlatan temsili şablon

DeepSeek R1

DeepSeek V3 tabanlı, reasoning odaklı sürüm; aynı mimariyi koruyor
20 Ocak 2025'te yayımlandı, MLA tabanlı Sparse MoE yapısına sahip

Gemma 3 27B

27 milyar parametreli Dense model, GQA + QK-Norm ile 5:1 sliding-window/global attention kullanıyor
Çok dilli kelime dağarcığı genişletmesi ve yerel attention güçlendirmesi ile öne çıkıyor
11 Mart 2025'te yayımlandı

MoE ve Hybrid mimari genişlemesi

Llama 4 Maverick

Meta'nın Sparse MoE modeli; DeepSeek V3 yapısını temel alırken geleneksel GQA attention benimsiyor
Toplam 400 milyar parametrenin 17 milyarı etkin
Dense ve MoE bloklarını dönüşümlü yerleştiriyor, uzman sayısını azaltıp ölçeği büyütüyor

Qwen3 235B-A22B

DeepSeek V3'e benzer Sparse MoE yapısında shared expert kaldırılmış
Toplam 235 milyar parametrenin 22 milyarı etkin, GQA + QK-Norm kullanıyor
28 Nisan 2025'te yayımlandı

Kimi K2

1 trilyon parametre ölçeğinde Sparse MoE model; DeepSeek V3'ün genişletilmiş hâli
MLA attention kullanıyor, uzman sayısını artırıp MLA head sayısını azaltıyor
10 Temmuz 2025'te yayımlandı

GLM-4.5 355B

Ajan odaklı Sparse MoE model; DeepSeek'in Dense-prefix MoE yapısını benimsiyor
Toplam 355 milyar parametrenin 32 milyarı etkin, GQA + QK-Norm kullanıyor
28 Temmuz 2025'te yayımlandı

GPT-OSS 20B / 120B

OpenAI'ın open-weight MoE serisi, GQA tabanlı sliding-window/global cross-attention kullanıyor
20B model sığ ve geniş bir yapıya sahip, 120B model aynı tasarımı ölçeklendiriyor
4 Ağustos 2025'te yayımlandı

Hybrid ve yeni nesil yapılar

Qwen3 Next 80B-A3B

Gated DeltaNet + Gated Attention karışık attention kullanan Sparse Hybrid model
Toplam 80 milyar parametrenin 3 milyarı etkin, 262k context desteği sunuyor
9 Eylül 2025'te yayımlandı

Kimi Linear 48B-A3B

Linear Attention + MLA birleşimli hibrit yapı
NoPE uygulanması ve kanal bazlı gating ile uzun bağlam verimliliğini artırıyor
30 Ekim 2025'te yayımlandı

Nemotron 3 Nano / Super

NVIDIA'nın Transformer-State-Space Hybrid modeli
Nano (30B) Mamba-2 + MoE, Super (120B) ise ek olarak LatentMoE + MTP içeriyor
Sırasıyla 4 Aralık 2025 ve 11 Mart 2026'da yayımlandı

Ling 2.5 1T

1 trilyon parametreli Sparse Hybrid model, Lightning Attention + MLA birleşimi kullanıyor
63 milyar etkin parametre, 7:1 oranında linear/MLA attention yapısı
15 Şubat 2026'da yayımlandı

En yeni open-weight modeller

Qwen3.5 397B

Qwen3 Next'in hibrit attention yaklaşımını devralan amiral gemisi model
Toplam 397 milyar parametrenin 17 milyarı etkin, 512 uzman yapısına sahip
16 Şubat 2026'da yayımlandı

Sarvam 30B / 105B

Hint dilleri desteğine odaklanan Sparse MoE model
30B modeli GQA + QK-Norm, 105B modeli ise MLA + NoPE + RoPE kullanıyor
3 Mart 2026'da yayımlandı

İlgili yazılar

The Big LLM Architecture Comparison: Dense, MoE, MLA, Hybrid decoder yapıları arasındaki tasarım farklarını açıklıyor
A Dream of Spring for Open-Weight LLMs: 2026 başında yayımlanan MiniMax, Qwen, Ling, Sarvam gibi open-weight modellere ek analiz sunuyor

2 yorum

orange 2026-03-17

Eğlenceliymiş

GN⁺ 2026-03-16

Hacker News görüşleri

Yıllar süren deneylerin ardından açık ağırlıklı modellerin sonunda benzer bir biçimde yakınsamasını ilginç buluyorum
MoE routing, state-space model, linear attention gibi çeşitli denemeler oldu ama bugün gelinen noktada RMSNorm, rotary position embedding, SwiGLU ve grouped-query attention ile birleştirilmiş dense decoder-only transformer yapısı baskın hale geldi
Artık asıl farklılaşma noktası eğitim reçetesi ve veri pipeline'ına kaymış durumda
DeepSeek-R1'in gerçek yeniliği mimaride değil, akıl yürütme zinciri için reinforcement learning tarafındaydı; Llama 3 de mimari olarak neredeyse aynı kalsa da veri ve son işleme süreci tamamen yenilendi
Bu, çip tasarımında ISA'dan çok üretim süreci ve mikro mimarinin önem kazanmasına benziyor
Sebastian'ın yazıları her zaman okumaya değer
Build an LLM From Scratch kitabını kuvvetle tavsiye ederim. Transformer mekanizmasını ancak bu kitap sayesinde gerçekten anlayabildim
LLM Architecture Gallery, modeller arasındaki farkları ilginç biçimde gösteriyor ama GPT-2'den bu yana geçen 7 yılda temel düzeyde yenilik neredeyse hiç olmadı
Bugünün açık ağırlıklı modelleri de uzaktan bakınca hâlâ GPT-2'ye benzer bir attention + feed-forward katmanlarının tekrar eden yapısı taşıyor
Son dönemdeki sıçramalı ilerleme, ölçekleme ve yeni eğitim teknikleri (RLVR vb.) sayesinde oldu; bu da Bitter Lesson'ın bir başka örneği gibi görünüyor
Gerçekten harika bir görselleştirme. Bana daha önce gördüğüm Neural Network Zoo'yu hatırlattı
O proje gibi bu çalışma da mimari çeşitliliği bir bakışta çok iyi gösteriyor
Harika iş
Acaba bir sıralama ölçütü var mı diye merak ettim. Evrimsel akışı ya da yeniliklerin soy hattını aile ağacı biçiminde görebilsek daha da iyi olurdu
Ayrıca model boyutlarındaki değişim ölçekli bir görselleştirmeyle verilse ilerleme hızını daha sezgisel hissetmek mümkün olabilir
- DeepSeek ailesinin evrimini gösteren bir kaynak olarak şu yazıya bakılabilir
Gerçekten çok iyi. Paylaştığın için teşekkürler
Yakınlaştırılabilir sürüme buradan bakabilirsiniz
Bir istatistikçi olarak, “sinir ağları fonksiyon yaklaştırır” fikrinden gerçek makine öğrenimi modeli mühendisliğine uzanan modüler bir kavrayış biçimini hep istemiştim
Bu materyal sanki o boşluğu dolduruyor
Bu diyagramı hangi araçla çizdiklerini merak ediyorum
İlginç bir derleme
Pratikte prompt kalıplarını karşılaştırınca mimari farklar beklenmedik şekillerde ortaya çıkabiliyor
Örneğin uzun context window, sadece daha fazla metni işlemekle kalmıyor; girdi yapısının kendisini de farklı tasarlamayı gerektiriyor
Yapısal olarak en basit ama yine de rekabetçi olan modelin hangisi olduğunu merak ediyorum
- Rekabet gücü mimariden çok ölçek, veri ve fine-tuning verisinden geliyor
  Son birkaç yılda mimari yenilik neredeyse yoktu; değişikliklerin çoğu eğitim verimliliğini artırmaya yönelikti
- “Rekabetçi” tanımını gevşek tutarsak, Markov chain bile doğrudan uygulanabilir
  Transformer modeller, çok sayıda öncül araştırmanın birikimi üzerine kademeli olarak gelişti
Tıklayınca LLM'nin gökdelen, baraj ya da köprü tasarlamasıyla ilgili bir şey çıkacağını sanmıştım
Hatta patlamış mısırı bile hazırlamıştım; biraz hayal kırıklığı oldu

LLM Mimari Galerisi

Genel Bakış

Başlıca model örnekleri

Llama 3 8B

OLMo 2 7B

DeepSeek V3

DeepSeek R1

Gemma 3 27B

MoE ve Hybrid mimari genişlemesi

Llama 4 Maverick

Qwen3 235B-A22B

Kimi K2

GLM-4.5 355B

GPT-OSS 20B / 120B

Hybrid ve yeni nesil yapılar

Qwen3 Next 80B-A3B

Kimi Linear 48B-A3B

Nemotron 3 Nano / Super

Ling 2.5 1T

En yeni open-weight modeller

Qwen3.5 397B

Sarvam 30B / 105B

İlgili yazılar

İlgili okumalar

2 yorum

Hacker News görüşleri