- Son 7 yıldaki LLM mimarileri, GPT-2'den (2019) DeepSeek-V3 ve Llama 4'e (2024-2025) kadar yapısal olarak büyük değişimler olmadan evrim geçirerek şaşırtıcı ölçüde benzerliğini korudu
- DeepSeek V3/R1, Llama 4 gibi en yeni modeller, Mixture-of-Experts (MoE), MLA, Sliding Window Attention gibi yeni optimizasyon yöntemlerini benimseyerek bellek verimliliğini ve çıkarım performansını artırdı
- OLMo 2, Gemma 3 gibi bazı açık kaynak modeller, şeffaf veri paylaşımı ve özgün normalization layer yerleşimiyle araştırma ve geliştirme için iyi tasarım örnekleri olarak öne çıkıyor
- Qwen3, SmolLM3, Kimi 2 gibi farklı boyut ve yapılardaki modellerin ortaya çıkmasıyla, MoE ve Dense mimarileri arasında artı-eksi yönlere ve kullanım amacına göre daha geniş bir seçim alanı oluştu
- Yakın dönem LLM'lerin ortak trendi, daha büyük ve daha gelişmiş hale gelirken aynı zamanda verimli yapısal iyileştirmeler ve farklı donanım ortamlarına uyum sağlamak oldu
Giriş
- 2017'deki GPT prototipinden sonra GPT-2'den (2019) DeepSeek-V3 ve Llama 4'e (2024-2025) kadar bakıldığında, LLM mimarileri büyük çerçevede benzer kalıyor (temel transformer yapısı büyük ölçüde değişmedi)
- Positional embedding, mutlak yapıdan RoPE gibi yöntemlere geçti; Multi-Head Attention ise bellek/hesaplama verimliliği yüksek GQA'ya (grouped-query attention) yöneliyor, ancak temel yapı korunuyor
- Performans karşılaştırmaları veri seti ve eğitim yöntemine göre değiştiği için doğrudan mimari karşılaştırma yapmak zor
- Bu yazı, yakın dönem açık LLM'lerdeki mimari yapı değişimlerini odaklı biçimde inceliyor
1. DeepSeek V3/R1
- DeepSeek R1 (Ocak 2025), DeepSeek V3 mimarisi (Aralık 2024) temel alınarak geliştirildi; gelişmiş akıl yürütme yeteneği ve çok büyük parametre sayısı (671 milyar) ile dikkat çekiyor
- Temel mimari: Multi-Head Latent Attention (MLA), Mixture-of-Experts (MoE)
- MLA: Key/Value'yu düşük boyuta sıkıştırarak KV cache belleğini azaltıyor, GQA'ya kıyasla daha iyi performans veriyor
- MoE: FeedForward modülünü birden fazla expert'e dağıtan, her token için yalnızca bazı expert'lerin etkinleştiği seyrek bir yapı
- DeepSeek V3: 256 expert, toplam 671B parametre, çıkarım sırasında yalnızca 9 expert (37B parametre) kullanılıyor
- Her zaman etkin olan shared expert ile genel desenlerin öğrenimi daha verimli hale geliyor
- Özellikler: Büyük ölçekli (671B) olmasına rağmen çıkarım verimliliği yüksek; MLA ile GQA'ya karşı performans avantajı sunuyor, MoE ile de büyük eğitim kapasitesi sağlıyor
2. OLMo 2
- Allen Institute for AI tarafından geliştirilen tamamen açık bir model
- Güçlü yanı performanstan çok şeffaf tasarım ve kod paylaşımı
- Mimari öne çıkanlar: RMSNorm konumu (Post-Norm uygulaması), QK-Norm
- Klasik GPT ailesi Pre-Norm kullanırken, OLMo 2'de normalization Attention/FeedForward sonrasında uygulanıyor (Post-Norm tarzı)
- QK-Norm: Attention içindeki query/key üzerine ek RMSNorm uygulayarak eğitim kararlılığını iyileştiriyor
- Geleneksel Multi-Head Attention (MHA) yapısını koruyor
- Llama 3'e benziyor, ancak normalization stratejisiyle ayrışıyor
3. Gemma 3
- Google'ın önde gelen açık LLM'lerinden biri; çok dilli desteğe yönelik büyük bir Vocabulary ve 27B boyutlu modele odaklanmasıyla öne çıkıyor
- Sliding Window Attention (yerel pencere) ile KV cache belleğini ciddi ölçüde azaltıyor
- Gemma 2: Global/Local oranı 1:1, 4k pencere; Gemma 3: oran 5:1, pencere 1024'e düşürülmüş
- Performansa (perplexity) neredeyse hiç etkisi yok
- Normalization: GQA modülünün çevresinde hem Pre-Norm hem de Post-Norm RMSNorm uygulanıyor
- Gemma 3n: Küçük cihazlara yönelik; Per-Layer Embedding (yalnızca katman bazlı parametrelerin GPU'da tutulması) ve MatFormer (kısmi model bölerek kullanım) ile hafifletilmiş
4. Mistral Small 3.1
- Mistral Small 3.1 24B, Gemma 3 27B'den daha hızlı ve benchmark'larda üst sıralarda
- Özel tokenizer, daha küçük KV cache ve azaltılmış katman sayısı ile çıkarım gecikmesini en aza indiriyor
- Sliding window attention yerine, optimize edilmiş GQA + FlashAttention kullanarak çıkarım hızı ve kod verimliliğine odaklanıyor
5. Llama 4
- MoE mimarisini güçlü biçimde benimseyerek hem çıkarım verimliliğini hem de model kapasitesini artırıyor; yapısal olarak DeepSeek-V3'e benziyor
- GQA kullanıyor, ancak MoE expert sayısı ve hidden size farklı
- DeepSeek-V3: 9 expert (2.048), Llama 4: 2 expert (8.192), etkin parametre 17B (DeepSeek 37B)
- MoE blokları ile Dense bloklarını dönüşümlü yerleştiren klasik bir MoE tasarımı
- Yakın dönem LLM'lerde MoE'nin yaygınlaştığını gösteriyor
6. Qwen3
- Farklı boyutlarda Dense (0.6B~32B) ve MoE (30B-A3B, 235B-A22B) sürümleri sunuyor
- Küçük model (0.6B), eğitim/çıkarım verimliliği ve token throughput açısından çok güçlü. Ultra hafif LLM'ler içinde dikkat çekici performans sunarken, bellek verimliliği ve eğitim kolaylığında da öne çıkıyor
- Dense: Daha fazla katman, daha az bellek kullanımı, ancak daha yavaş hız (Llama 3 1B ile kıyaslandığında)
- MoE: Qwen3 235B-A22B, 22B active param kullanıyor; shared expert kullanılmıyor (önceki Qwen2.5-MoE'de shared expert vardı), bu da verimliliği artırıyor
- Qwen3 235B-A22B ile DeepSeek-V3 genel yapı açısından çok benzer
- Hem Dense hem MoE sunarak çeşitli kullanım amaçlarına yanıt veriyor
7. SmolLM3
- 3B parametre sınıfında küçük bir model; Qwen3 1.7/4B, Llama 3 3B, Gemma 3 4B ile rekabet ediyor
- Mimari standart olsa da NoPE (No Positional Embedding) kullanıyor
- RoPE gibi positional encoding yöntemleri olmadan yalnızca causal mask kullanılıyor
- Uzun dizilerde uzunluk genellemesini (Length Generalization) iyileştiriyor
- Deneysel bir yapı ve yalnızca bazı katmanlarda uygulanıyor
8. Kimi 2
- 1 trilyon parametreli büyük bir açık model ve açık modeller arasında en büyük ölçeklerden biri
- DeepSeek-V3 yapısını temel alıyor; MoE katman sayısını artırıyor ve MLA içindeki head sayısını ayarlıyor
- Eğitimde AdamW yerine Muon optimizer kullanarak verimliliği yükseltiyor ve loss decay açısından daha iyi sonuç veriyor
- DeepSeek-V3'e kıyasla daha fazla MoE expert ve daha az MLA head kullanıyor
- Kimi 1.5 deneyiminden hareketle, Kimi 2 ile open weight yayımlanmış ve üst düzey performans elde edilmiş
Sonuç ve trendler
- Yakın dönem LLM'ler temel yapıyı korurken, mimarinin büyümesi, MoE ve çeşitli verimlilik odaklı yapıların benimsenmesi ile öne çıkıyor
- Açık modellerde şeffaf veri, tasarım ve kod paylaşımı; araştırma ve endüstriyel kullanım değerini artırıyor
- Dense ve MoE, MLA·GQA·Sliding Window Attention, farklı normalization stratejileri gibi unsurlarda her modelin optimizasyon odağı farklılaşıyor
- Donanım ortamı, kullanım amacı ve eğitim/çıkarım verimliliğine göre mimari seçeneklerin çeşitlendiği bir dönemdeyiz
2 yorum
Bence Korece konusunda qwen iyi iş çıkarıyor.
Hacker News görüşleri
Claude'un sonuç bağlantısı
ama bunun gerçekten işe yarar olup olmadığından emin değilim