Büyük LLM'lerin mimari karşılaştırması

(magazine.sebastianraschka.com)

26 puan yazan GN⁺ 2025-07-21 | 2 yorum | WhatsApp'ta paylaş

Son 7 yıldaki LLM mimarileri, GPT-2'den (2019) DeepSeek-V3 ve Llama 4'e (2024-2025) kadar yapısal olarak büyük değişimler olmadan evrim geçirerek şaşırtıcı ölçüde benzerliğini korudu
DeepSeek V3/R1, Llama 4 gibi en yeni modeller, Mixture-of-Experts (MoE), MLA, Sliding Window Attention gibi yeni optimizasyon yöntemlerini benimseyerek bellek verimliliğini ve çıkarım performansını artırdı
OLMo 2, Gemma 3 gibi bazı açık kaynak modeller, şeffaf veri paylaşımı ve özgün normalization layer yerleşimiyle araştırma ve geliştirme için iyi tasarım örnekleri olarak öne çıkıyor
Qwen3, SmolLM3, Kimi 2 gibi farklı boyut ve yapılardaki modellerin ortaya çıkmasıyla, MoE ve Dense mimarileri arasında artı-eksi yönlere ve kullanım amacına göre daha geniş bir seçim alanı oluştu
Yakın dönem LLM'lerin ortak trendi, daha büyük ve daha gelişmiş hale gelirken aynı zamanda verimli yapısal iyileştirmeler ve farklı donanım ortamlarına uyum sağlamak oldu

Giriş

2017'deki GPT prototipinden sonra GPT-2'den (2019) DeepSeek-V3 ve Llama 4'e (2024-2025) kadar bakıldığında, LLM mimarileri büyük çerçevede benzer kalıyor (temel transformer yapısı büyük ölçüde değişmedi)
Positional embedding, mutlak yapıdan RoPE gibi yöntemlere geçti; Multi-Head Attention ise bellek/hesaplama verimliliği yüksek GQA'ya (grouped-query attention) yöneliyor, ancak temel yapı korunuyor
Performans karşılaştırmaları veri seti ve eğitim yöntemine göre değiştiği için doğrudan mimari karşılaştırma yapmak zor
Bu yazı, yakın dönem açık LLM'lerdeki mimari yapı değişimlerini odaklı biçimde inceliyor

1. DeepSeek V3/R1

DeepSeek R1 (Ocak 2025), DeepSeek V3 mimarisi (Aralık 2024) temel alınarak geliştirildi; gelişmiş akıl yürütme yeteneği ve çok büyük parametre sayısı (671 milyar) ile dikkat çekiyor
Temel mimari: Multi-Head Latent Attention (MLA), Mixture-of-Experts (MoE)
MLA: Key/Value'yu düşük boyuta sıkıştırarak KV cache belleğini azaltıyor, GQA'ya kıyasla daha iyi performans veriyor
MoE: FeedForward modülünü birden fazla expert'e dağıtan, her token için yalnızca bazı expert'lerin etkinleştiği seyrek bir yapı
- DeepSeek V3: 256 expert, toplam 671B parametre, çıkarım sırasında yalnızca 9 expert (37B parametre) kullanılıyor
- Her zaman etkin olan shared expert ile genel desenlerin öğrenimi daha verimli hale geliyor
Özellikler: Büyük ölçekli (671B) olmasına rağmen çıkarım verimliliği yüksek; MLA ile GQA'ya karşı performans avantajı sunuyor, MoE ile de büyük eğitim kapasitesi sağlıyor

2. OLMo 2

Allen Institute for AI tarafından geliştirilen tamamen açık bir model
Güçlü yanı performanstan çok şeffaf tasarım ve kod paylaşımı
Mimari öne çıkanlar: RMSNorm konumu (Post-Norm uygulaması), QK-Norm
- Klasik GPT ailesi Pre-Norm kullanırken, OLMo 2'de normalization Attention/FeedForward sonrasında uygulanıyor (Post-Norm tarzı)
- QK-Norm: Attention içindeki query/key üzerine ek RMSNorm uygulayarak eğitim kararlılığını iyileştiriyor
Geleneksel Multi-Head Attention (MHA) yapısını koruyor
Llama 3'e benziyor, ancak normalization stratejisiyle ayrışıyor

3. Gemma 3

Google'ın önde gelen açık LLM'lerinden biri; çok dilli desteğe yönelik büyük bir Vocabulary ve 27B boyutlu modele odaklanmasıyla öne çıkıyor
Sliding Window Attention (yerel pencere) ile KV cache belleğini ciddi ölçüde azaltıyor
- Gemma 2: Global/Local oranı 1:1, 4k pencere; Gemma 3: oran 5:1, pencere 1024'e düşürülmüş
- Performansa (perplexity) neredeyse hiç etkisi yok
Normalization: GQA modülünün çevresinde hem Pre-Norm hem de Post-Norm RMSNorm uygulanıyor
Gemma 3n: Küçük cihazlara yönelik; Per-Layer Embedding (yalnızca katman bazlı parametrelerin GPU'da tutulması) ve MatFormer (kısmi model bölerek kullanım) ile hafifletilmiş

4. Mistral Small 3.1

Mistral Small 3.1 24B, Gemma 3 27B'den daha hızlı ve benchmark'larda üst sıralarda
Özel tokenizer, daha küçük KV cache ve azaltılmış katman sayısı ile çıkarım gecikmesini en aza indiriyor
Sliding window attention yerine, optimize edilmiş GQA + FlashAttention kullanarak çıkarım hızı ve kod verimliliğine odaklanıyor

5. Llama 4

MoE mimarisini güçlü biçimde benimseyerek hem çıkarım verimliliğini hem de model kapasitesini artırıyor; yapısal olarak DeepSeek-V3'e benziyor
GQA kullanıyor, ancak MoE expert sayısı ve hidden size farklı
- DeepSeek-V3: 9 expert (2.048), Llama 4: 2 expert (8.192), etkin parametre 17B (DeepSeek 37B)
MoE blokları ile Dense bloklarını dönüşümlü yerleştiren klasik bir MoE tasarımı
Yakın dönem LLM'lerde MoE'nin yaygınlaştığını gösteriyor

6. Qwen3

Farklı boyutlarda Dense (0.6B~32B) ve MoE (30B-A3B, 235B-A22B) sürümleri sunuyor
Küçük model (0.6B), eğitim/çıkarım verimliliği ve token throughput açısından çok güçlü. Ultra hafif LLM'ler içinde dikkat çekici performans sunarken, bellek verimliliği ve eğitim kolaylığında da öne çıkıyor
Dense: Daha fazla katman, daha az bellek kullanımı, ancak daha yavaş hız (Llama 3 1B ile kıyaslandığında)
MoE: Qwen3 235B-A22B, 22B active param kullanıyor; shared expert kullanılmıyor (önceki Qwen2.5-MoE'de shared expert vardı), bu da verimliliği artırıyor
Qwen3 235B-A22B ile DeepSeek-V3 genel yapı açısından çok benzer
Hem Dense hem MoE sunarak çeşitli kullanım amaçlarına yanıt veriyor

7. SmolLM3

3B parametre sınıfında küçük bir model; Qwen3 1.7/4B, Llama 3 3B, Gemma 3 4B ile rekabet ediyor
Mimari standart olsa da NoPE (No Positional Embedding) kullanıyor
- RoPE gibi positional encoding yöntemleri olmadan yalnızca causal mask kullanılıyor
- Uzun dizilerde uzunluk genellemesini (Length Generalization) iyileştiriyor
- Deneysel bir yapı ve yalnızca bazı katmanlarda uygulanıyor

8. Kimi 2

1 trilyon parametreli büyük bir açık model ve açık modeller arasında en büyük ölçeklerden biri
DeepSeek-V3 yapısını temel alıyor; MoE katman sayısını artırıyor ve MLA içindeki head sayısını ayarlıyor
Eğitimde AdamW yerine Muon optimizer kullanarak verimliliği yükseltiyor ve loss decay açısından daha iyi sonuç veriyor
DeepSeek-V3'e kıyasla daha fazla MoE expert ve daha az MLA head kullanıyor
Kimi 1.5 deneyiminden hareketle, Kimi 2 ile open weight yayımlanmış ve üst düzey performans elde edilmiş

Sonuç ve trendler

Yakın dönem LLM'ler temel yapıyı korurken, mimarinin büyümesi, MoE ve çeşitli verimlilik odaklı yapıların benimsenmesi ile öne çıkıyor
Açık modellerde şeffaf veri, tasarım ve kod paylaşımı; araştırma ve endüstriyel kullanım değerini artırıyor
Dense ve MoE, MLA·GQA·Sliding Window Attention, farklı normalization stratejileri gibi unsurlarda her modelin optimizasyon odağı farklılaşıyor
Donanım ortamı, kullanım amacı ve eğitim/çıkarım verimliliğine göre mimari seçeneklerin çeşitlendiği bir dönemdeyiz

2 yorum

tensun 2025-07-22

Bence Korece konusunda qwen iyi iş çıkarıyor.

GN⁺ 2025-07-21

Hacker News görüşleri

Bu yazı, LLM mimarileri hakkında öğrenmek için hem soyutlama düzeyi hem de ayrıntı açıklamaları açısından mükemmel; bu sayede orijinal makaleleri okumaktan çok daha kolay biçimde çok şey öğrenebildim
Başlangıç seviyesi ile uzmanlık arasında olan kişiler için bu yazıdaki diyagramlar çok etkileyici; güncel modellerin tek bakışta düzenlenmiş hali gerçekten çok faydalı
İlgili olarak, DeepSeek'in transformer mimarisini nasıl geliştirdiğini anlatan yazı ile Meta'nın süperzeka üzerine analiz makalesinin bazı bölümlerine de bakmaya değer
Benim gibi güncel gelişmeleri takip edemeyenler için böyle özet yazılar gerçekten hoş bir catchup oluyor
İleride o5, o3 Pro, o4 veya 4.5, Gemini 2.5 Pro, Grok 4, Claude Opus 4 gibi kapalı kaynaklı frontier modellere dair söylentileri de içeren bir 2. bölüm gelmesini isterim
Farklı LLM mimarileri arasındaki farkları ayrıntılı biçimde toparladığın için teşekkürler; bu sayede anlaması kolay ve eğitici olmuş
Açıkçası GPT-2 (2019) dönemine kıyasla bugünkü ilerleme hızı inanması zor seviyede; artık LLM performansını düzgün biçimde karşılaştırmak bile zor, çünkü her iki haftada bir yeni bir model benchmark'ları yeniliyor. DeepSeek'ten bahsedilmesine sevindim; V3'te tanıtılan mimari yenilikler hesaplama verimliliğini ciddi biçimde artırdı ve onu o dönemde diğer modellerden ayıran belirleyici nokta buydu
Çeşitli yeni mimariler doğruluk veya hız tarafında çok sayıda yenilik getirmiş olsa da, doğru bilgi üretimini garanti etme yönündeki temel sorun hâlâ çözülmüş değil. Retrieval Augmented Generation (RAG) ve ajanlar gibi çeşitli yaklaşımlar bunu iyileştiriyor, ama gelecekteki mimarilerin sonunda bu yöntemlerin yerini alıp almayacağını merak ediyorum
- Temelde transformer'lar metin tahmini amacıyla eğitiliyor ve bu yaklaşımın mantıksal gömme açısından sınırları var. Halüsinasyonları daha da azaltmak için tamamen farklı bir eğitim hedefi gerektiğini düşünüyorum
- Model, hangi durumda genelleme yapmasının uygun olduğunu ve hangi durumda daha fazla bilgiye ihtiyaç duyduğunu ayırt edemiyor. Örneğin, neden bir metodun var olup diğer benzer bir fonksiyonun olmadığını kolayca ayırt edemiyor. Çocukken anneme iyi bir cooker demiştim; insanlarla makineler için farklı kelimeler kullanıldığını bilmiyordum. Benzer kelimeler arasındaki bu tür genellemenin modele de uygulandığını düşünüyorum
- DeepSeek-V2 ve Llama 3.1 gibi yakın dönem mimariler, sadece tasarımsal iyileştirmelerle bile olgusallıkta oldukça iyi sonuçlar gösteriyor. Özellikle attention mekanizması ve halüsinasyon baskılamaya odaklı eğitim hedefleri bunun arka planında yer alıyor
- RAG (arama tabanlı yanıt), yapısal olarak basit ve uygulaması kolay, ama neden hâlâ temel LLM'lerin içine yerleşik olarak eklenmediğini hep merak etmişimdir. Bunun modelin içine tam entegre edilememesi, RAG veya varyasyonlarının temel sınırlamalarına işaret ediyor gibi geliyor. Gerçekten etkili bir yöntem olsaydı, dışarıdan eklenen bir unsur değil, mimarinin temel işlevi olarak gelirdi diye düşünüyorum
Claude'a orijinal metni okuyup yeni bir mimari önermesini söyledim
Claude'un sonuç bağlantısı
ama bunun gerçekten işe yarar olup olmadığından emin değilim

Büyük LLM'lerin mimari karşılaştırması

Giriş

1. DeepSeek V3/R1

2. OLMo 2

3. Gemma 3

4. Mistral Small 3.1

5. Llama 4

6. Qwen3

7. SmolLM3

8. Kimi 2

Sonuç ve trendler

İlgili okumalar

2 yorum

Hacker News görüşleri