- En yeni büyük dil modeli (LLM) yapılarının şemalarını ve temel teknik özelliklerini tek bakışta derleyen çevrimiçi bir galeri; 2024~2026 arasında yayımlanan başlıca modelleri kapsıyor
- Her model, parametre ölçeği, decoder türü, attention yöntemi ve ana tasarım noktalarını özetleyen tablo biçiminde sunuluyor
- İçerik, Sebastian Raschka'nın karşılaştırmalı analiz yazıları ‘The Big LLM Architecture Comparison’ ve ‘A Dream of Spring for Open-Weight LLMs’ içinden alınmış
- Kullanıcılar model adına tıklayarak ilgili ayrıntılı açıklamaya gidebilir veya görsele tıklayarak yüksek çözünürlüklü mimari diyagramı (182 megapiksel) büyütebilir
- Open-weight LLM araştırmacıları ve geliştiricileri için bir referans mimari veritabanı olarak, en güncel MoE·Hybrid·Dense yapıların evrimini tek yerde görmeyi sağlıyor
Genel Bakış
- Bu sayfa, LLM mimari şemaları ve bilgi kartlarını toplayan bir galeri; Raschka'nın iki önemli karşılaştırma yazısından yalnızca şemalar derlenerek düzenlenmiş
- Özgün kaynaklar: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
- Her model girdisi model adı, parametre sayısı, yayımlanma tarihi, decoder türü, attention yöntemi, temel tasarım özellikleri ve ilgili kavram bağlantılarından oluşuyor
- Yanlış bilgi veya bağlantı hatası bulunursa GitHub issue tracker üzerinden bildirilebiliyor
- Yoğun talep nedeniyle Zazzle üzerinden 14570×12490 çözünürlükte poster (56MB PNG) sürümü de sunuluyor
Başlıca model örnekleri
Llama 3 8B
- 8 milyar parametreli, Dense decoder tabanlı bir model; OLMo 2'nin normalizasyon ve attention tercihlerini karşılaştırmak için bir referans yığın olarak kullanılıyor
- GQA + RoPE attention kullanıyor, Pre-norm yapısını koruyor
- 18 Nisan 2024'te yayımlandı
OLMo 2 7B
- 7 milyar parametreli bir Dense model, MHA + QK-Norm attention kullanıyor
- Inside-residual post-norm yapısıyla eğitim kararlılığını artırıyor
- 25 Kasım 2024'te yayımlandı
DeepSeek V3
- Toplam 671 milyar parametrenin 37 milyarının etkin olduğu Sparse MoE model
- MLA attention ile shared expert yapısını birleştiriyor
- Büyük açık MoE model dalgasını başlatan temsili şablon
DeepSeek R1
- DeepSeek V3 tabanlı, reasoning odaklı sürüm; aynı mimariyi koruyor
- 20 Ocak 2025'te yayımlandı, MLA tabanlı Sparse MoE yapısına sahip
Gemma 3 27B
- 27 milyar parametreli Dense model, GQA + QK-Norm ile 5:1 sliding-window/global attention kullanıyor
- Çok dilli kelime dağarcığı genişletmesi ve yerel attention güçlendirmesi ile öne çıkıyor
- 11 Mart 2025'te yayımlandı
MoE ve Hybrid mimari genişlemesi
Llama 4 Maverick
- Meta'nın Sparse MoE modeli; DeepSeek V3 yapısını temel alırken geleneksel GQA attention benimsiyor
- Toplam 400 milyar parametrenin 17 milyarı etkin
- Dense ve MoE bloklarını dönüşümlü yerleştiriyor, uzman sayısını azaltıp ölçeği büyütüyor
Qwen3 235B-A22B
- DeepSeek V3'e benzer Sparse MoE yapısında shared expert kaldırılmış
- Toplam 235 milyar parametrenin 22 milyarı etkin, GQA + QK-Norm kullanıyor
- 28 Nisan 2025'te yayımlandı
Kimi K2
- 1 trilyon parametre ölçeğinde Sparse MoE model; DeepSeek V3'ün genişletilmiş hâli
- MLA attention kullanıyor, uzman sayısını artırıp MLA head sayısını azaltıyor
- 10 Temmuz 2025'te yayımlandı
GLM-4.5 355B
- Ajan odaklı Sparse MoE model; DeepSeek'in Dense-prefix MoE yapısını benimsiyor
- Toplam 355 milyar parametrenin 32 milyarı etkin, GQA + QK-Norm kullanıyor
- 28 Temmuz 2025'te yayımlandı
GPT-OSS 20B / 120B
- OpenAI'ın open-weight MoE serisi, GQA tabanlı sliding-window/global cross-attention kullanıyor
- 20B model sığ ve geniş bir yapıya sahip, 120B model aynı tasarımı ölçeklendiriyor
- 4 Ağustos 2025'te yayımlandı
Hybrid ve yeni nesil yapılar
Qwen3 Next 80B-A3B
- Gated DeltaNet + Gated Attention karışık attention kullanan Sparse Hybrid model
- Toplam 80 milyar parametrenin 3 milyarı etkin, 262k context desteği sunuyor
- 9 Eylül 2025'te yayımlandı
Kimi Linear 48B-A3B
- Linear Attention + MLA birleşimli hibrit yapı
- NoPE uygulanması ve kanal bazlı gating ile uzun bağlam verimliliğini artırıyor
- 30 Ekim 2025'te yayımlandı
Nemotron 3 Nano / Super
- NVIDIA'nın Transformer-State-Space Hybrid modeli
- Nano (30B) Mamba-2 + MoE, Super (120B) ise ek olarak LatentMoE + MTP içeriyor
- Sırasıyla 4 Aralık 2025 ve 11 Mart 2026'da yayımlandı
Ling 2.5 1T
- 1 trilyon parametreli Sparse Hybrid model, Lightning Attention + MLA birleşimi kullanıyor
- 63 milyar etkin parametre, 7:1 oranında linear/MLA attention yapısı
- 15 Şubat 2026'da yayımlandı
En yeni open-weight modeller
Qwen3.5 397B
- Qwen3 Next'in hibrit attention yaklaşımını devralan amiral gemisi model
- Toplam 397 milyar parametrenin 17 milyarı etkin, 512 uzman yapısına sahip
- 16 Şubat 2026'da yayımlandı
Sarvam 30B / 105B
- Hint dilleri desteğine odaklanan Sparse MoE model
- 30B modeli GQA + QK-Norm, 105B modeli ise MLA + NoPE + RoPE kullanıyor
- 3 Mart 2026'da yayımlandı
İlgili yazılar
- The Big LLM Architecture Comparison: Dense, MoE, MLA, Hybrid decoder yapıları arasındaki tasarım farklarını açıklıyor
- A Dream of Spring for Open-Weight LLMs: 2026 başında yayımlanan MiniMax, Qwen, Ling, Sarvam gibi open-weight modellere ek analiz sunuyor
2 yorum
Eğlenceliymiş
Hacker News görüşleri
Yıllar süren deneylerin ardından açık ağırlıklı modellerin sonunda benzer bir biçimde yakınsamasını ilginç buluyorum
MoE routing, state-space model, linear attention gibi çeşitli denemeler oldu ama bugün gelinen noktada RMSNorm, rotary position embedding, SwiGLU ve grouped-query attention ile birleştirilmiş dense decoder-only transformer yapısı baskın hale geldi
Artık asıl farklılaşma noktası eğitim reçetesi ve veri pipeline'ına kaymış durumda
DeepSeek-R1'in gerçek yeniliği mimaride değil, akıl yürütme zinciri için reinforcement learning tarafındaydı; Llama 3 de mimari olarak neredeyse aynı kalsa da veri ve son işleme süreci tamamen yenilendi
Bu, çip tasarımında ISA'dan çok üretim süreci ve mikro mimarinin önem kazanmasına benziyor
Sebastian'ın yazıları her zaman okumaya değer
Build an LLM From Scratch kitabını kuvvetle tavsiye ederim. Transformer mekanizmasını ancak bu kitap sayesinde gerçekten anlayabildim
LLM Architecture Gallery, modeller arasındaki farkları ilginç biçimde gösteriyor ama GPT-2'den bu yana geçen 7 yılda temel düzeyde yenilik neredeyse hiç olmadı
Bugünün açık ağırlıklı modelleri de uzaktan bakınca hâlâ GPT-2'ye benzer bir attention + feed-forward katmanlarının tekrar eden yapısı taşıyor
Son dönemdeki sıçramalı ilerleme, ölçekleme ve yeni eğitim teknikleri (RLVR vb.) sayesinde oldu; bu da Bitter Lesson'ın bir başka örneği gibi görünüyor
Gerçekten harika bir görselleştirme. Bana daha önce gördüğüm Neural Network Zoo'yu hatırlattı
O proje gibi bu çalışma da mimari çeşitliliği bir bakışta çok iyi gösteriyor
Harika iş
Acaba bir sıralama ölçütü var mı diye merak ettim. Evrimsel akışı ya da yeniliklerin soy hattını aile ağacı biçiminde görebilsek daha da iyi olurdu
Ayrıca model boyutlarındaki değişim ölçekli bir görselleştirmeyle verilse ilerleme hızını daha sezgisel hissetmek mümkün olabilir
Gerçekten çok iyi. Paylaştığın için teşekkürler
Yakınlaştırılabilir sürüme buradan bakabilirsiniz
Bir istatistikçi olarak, “sinir ağları fonksiyon yaklaştırır” fikrinden gerçek makine öğrenimi modeli mühendisliğine uzanan modüler bir kavrayış biçimini hep istemiştim
Bu materyal sanki o boşluğu dolduruyor
Bu diyagramı hangi araçla çizdiklerini merak ediyorum
İlginç bir derleme
Pratikte prompt kalıplarını karşılaştırınca mimari farklar beklenmedik şekillerde ortaya çıkabiliyor
Örneğin uzun context window, sadece daha fazla metni işlemekle kalmıyor; girdi yapısının kendisini de farklı tasarlamayı gerektiriyor
Yapısal olarak en basit ama yine de rekabetçi olan modelin hangisi olduğunu merak ediyorum
Son birkaç yılda mimari yenilik neredeyse yoktu; değişikliklerin çoğu eğitim verimliliğini artırmaya yönelikti
Transformer modeller, çok sayıda öncül araştırmanın birikimi üzerine kademeli olarak gelişti
Tıklayınca LLM'nin gökdelen, baraj ya da köprü tasarlamasıyla ilgili bir şey çıkacağını sanmıştım
Hatta patlamış mısırı bile hazırlamıştım; biraz hayal kırıklığı oldu