26 puan yazan GN⁺ 2025-07-21 | 2 yorum | WhatsApp'ta paylaş
  • Son 7 yıldaki LLM mimarileri, GPT-2'den (2019) DeepSeek-V3 ve Llama 4'e (2024-2025) kadar yapısal olarak büyük değişimler olmadan evrim geçirerek şaşırtıcı ölçüde benzerliğini korudu
  • DeepSeek V3/R1, Llama 4 gibi en yeni modeller, Mixture-of-Experts (MoE), MLA, Sliding Window Attention gibi yeni optimizasyon yöntemlerini benimseyerek bellek verimliliğini ve çıkarım performansını artırdı
  • OLMo 2, Gemma 3 gibi bazı açık kaynak modeller, şeffaf veri paylaşımı ve özgün normalization layer yerleşimiyle araştırma ve geliştirme için iyi tasarım örnekleri olarak öne çıkıyor
  • Qwen3, SmolLM3, Kimi 2 gibi farklı boyut ve yapılardaki modellerin ortaya çıkmasıyla, MoE ve Dense mimarileri arasında artı-eksi yönlere ve kullanım amacına göre daha geniş bir seçim alanı oluştu
  • Yakın dönem LLM'lerin ortak trendi, daha büyük ve daha gelişmiş hale gelirken aynı zamanda verimli yapısal iyileştirmeler ve farklı donanım ortamlarına uyum sağlamak oldu

Giriş

  • 2017'deki GPT prototipinden sonra GPT-2'den (2019) DeepSeek-V3 ve Llama 4'e (2024-2025) kadar bakıldığında, LLM mimarileri büyük çerçevede benzer kalıyor (temel transformer yapısı büyük ölçüde değişmedi)
  • Positional embedding, mutlak yapıdan RoPE gibi yöntemlere geçti; Multi-Head Attention ise bellek/hesaplama verimliliği yüksek GQA'ya (grouped-query attention) yöneliyor, ancak temel yapı korunuyor
  • Performans karşılaştırmaları veri seti ve eğitim yöntemine göre değiştiği için doğrudan mimari karşılaştırma yapmak zor
  • Bu yazı, yakın dönem açık LLM'lerdeki mimari yapı değişimlerini odaklı biçimde inceliyor

1. DeepSeek V3/R1

  • DeepSeek R1 (Ocak 2025), DeepSeek V3 mimarisi (Aralık 2024) temel alınarak geliştirildi; gelişmiş akıl yürütme yeteneği ve çok büyük parametre sayısı (671 milyar) ile dikkat çekiyor
  • Temel mimari: Multi-Head Latent Attention (MLA), Mixture-of-Experts (MoE)
  • MLA: Key/Value'yu düşük boyuta sıkıştırarak KV cache belleğini azaltıyor, GQA'ya kıyasla daha iyi performans veriyor
  • MoE: FeedForward modülünü birden fazla expert'e dağıtan, her token için yalnızca bazı expert'lerin etkinleştiği seyrek bir yapı
    • DeepSeek V3: 256 expert, toplam 671B parametre, çıkarım sırasında yalnızca 9 expert (37B parametre) kullanılıyor
    • Her zaman etkin olan shared expert ile genel desenlerin öğrenimi daha verimli hale geliyor
  • Özellikler: Büyük ölçekli (671B) olmasına rağmen çıkarım verimliliği yüksek; MLA ile GQA'ya karşı performans avantajı sunuyor, MoE ile de büyük eğitim kapasitesi sağlıyor

2. OLMo 2

  • Allen Institute for AI tarafından geliştirilen tamamen açık bir model
  • Güçlü yanı performanstan çok şeffaf tasarım ve kod paylaşımı
  • Mimari öne çıkanlar: RMSNorm konumu (Post-Norm uygulaması), QK-Norm
    • Klasik GPT ailesi Pre-Norm kullanırken, OLMo 2'de normalization Attention/FeedForward sonrasında uygulanıyor (Post-Norm tarzı)
    • QK-Norm: Attention içindeki query/key üzerine ek RMSNorm uygulayarak eğitim kararlılığını iyileştiriyor
  • Geleneksel Multi-Head Attention (MHA) yapısını koruyor
  • Llama 3'e benziyor, ancak normalization stratejisiyle ayrışıyor

3. Gemma 3

  • Google'ın önde gelen açık LLM'lerinden biri; çok dilli desteğe yönelik büyük bir Vocabulary ve 27B boyutlu modele odaklanmasıyla öne çıkıyor
  • Sliding Window Attention (yerel pencere) ile KV cache belleğini ciddi ölçüde azaltıyor
    • Gemma 2: Global/Local oranı 1:1, 4k pencere; Gemma 3: oran 5:1, pencere 1024'e düşürülmüş
    • Performansa (perplexity) neredeyse hiç etkisi yok
  • Normalization: GQA modülünün çevresinde hem Pre-Norm hem de Post-Norm RMSNorm uygulanıyor
  • Gemma 3n: Küçük cihazlara yönelik; Per-Layer Embedding (yalnızca katman bazlı parametrelerin GPU'da tutulması) ve MatFormer (kısmi model bölerek kullanım) ile hafifletilmiş

4. Mistral Small 3.1

  • Mistral Small 3.1 24B, Gemma 3 27B'den daha hızlı ve benchmark'larda üst sıralarda
  • Özel tokenizer, daha küçük KV cache ve azaltılmış katman sayısı ile çıkarım gecikmesini en aza indiriyor
  • Sliding window attention yerine, optimize edilmiş GQA + FlashAttention kullanarak çıkarım hızı ve kod verimliliğine odaklanıyor

5. Llama 4

  • MoE mimarisini güçlü biçimde benimseyerek hem çıkarım verimliliğini hem de model kapasitesini artırıyor; yapısal olarak DeepSeek-V3'e benziyor
  • GQA kullanıyor, ancak MoE expert sayısı ve hidden size farklı
    • DeepSeek-V3: 9 expert (2.048), Llama 4: 2 expert (8.192), etkin parametre 17B (DeepSeek 37B)
  • MoE blokları ile Dense bloklarını dönüşümlü yerleştiren klasik bir MoE tasarımı
  • Yakın dönem LLM'lerde MoE'nin yaygınlaştığını gösteriyor

6. Qwen3

  • Farklı boyutlarda Dense (0.6B~32B) ve MoE (30B-A3B, 235B-A22B) sürümleri sunuyor
  • Küçük model (0.6B), eğitim/çıkarım verimliliği ve token throughput açısından çok güçlü. Ultra hafif LLM'ler içinde dikkat çekici performans sunarken, bellek verimliliği ve eğitim kolaylığında da öne çıkıyor
  • Dense: Daha fazla katman, daha az bellek kullanımı, ancak daha yavaş hız (Llama 3 1B ile kıyaslandığında)
  • MoE: Qwen3 235B-A22B, 22B active param kullanıyor; shared expert kullanılmıyor (önceki Qwen2.5-MoE'de shared expert vardı), bu da verimliliği artırıyor
  • Qwen3 235B-A22B ile DeepSeek-V3 genel yapı açısından çok benzer
  • Hem Dense hem MoE sunarak çeşitli kullanım amaçlarına yanıt veriyor

7. SmolLM3

  • 3B parametre sınıfında küçük bir model; Qwen3 1.7/4B, Llama 3 3B, Gemma 3 4B ile rekabet ediyor
  • Mimari standart olsa da NoPE (No Positional Embedding) kullanıyor
    • RoPE gibi positional encoding yöntemleri olmadan yalnızca causal mask kullanılıyor
    • Uzun dizilerde uzunluk genellemesini (Length Generalization) iyileştiriyor
    • Deneysel bir yapı ve yalnızca bazı katmanlarda uygulanıyor

8. Kimi 2

  • 1 trilyon parametreli büyük bir açık model ve açık modeller arasında en büyük ölçeklerden biri
  • DeepSeek-V3 yapısını temel alıyor; MoE katman sayısını artırıyor ve MLA içindeki head sayısını ayarlıyor
  • Eğitimde AdamW yerine Muon optimizer kullanarak verimliliği yükseltiyor ve loss decay açısından daha iyi sonuç veriyor
  • DeepSeek-V3'e kıyasla daha fazla MoE expert ve daha az MLA head kullanıyor
  • Kimi 1.5 deneyiminden hareketle, Kimi 2 ile open weight yayımlanmış ve üst düzey performans elde edilmiş

Sonuç ve trendler

  • Yakın dönem LLM'ler temel yapıyı korurken, mimarinin büyümesi, MoE ve çeşitli verimlilik odaklı yapıların benimsenmesi ile öne çıkıyor
  • Açık modellerde şeffaf veri, tasarım ve kod paylaşımı; araştırma ve endüstriyel kullanım değerini artırıyor
  • Dense ve MoE, MLA·GQA·Sliding Window Attention, farklı normalization stratejileri gibi unsurlarda her modelin optimizasyon odağı farklılaşıyor
  • Donanım ortamı, kullanım amacı ve eğitim/çıkarım verimliliğine göre mimari seçeneklerin çeşitlendiği bir dönemdeyiz

2 yorum

 
tensun 2025-07-22

Bence Korece konusunda qwen iyi iş çıkarıyor.

 
GN⁺ 2025-07-21
Hacker News görüşleri
  • Bu yazı, LLM mimarileri hakkında öğrenmek için hem soyutlama düzeyi hem de ayrıntı açıklamaları açısından mükemmel; bu sayede orijinal makaleleri okumaktan çok daha kolay biçimde çok şey öğrenebildim
  • Başlangıç seviyesi ile uzmanlık arasında olan kişiler için bu yazıdaki diyagramlar çok etkileyici; güncel modellerin tek bakışta düzenlenmiş hali gerçekten çok faydalı
  • İlgili olarak, DeepSeek'in transformer mimarisini nasıl geliştirdiğini anlatan yazı ile Meta'nın süperzeka üzerine analiz makalesinin bazı bölümlerine de bakmaya değer
  • Benim gibi güncel gelişmeleri takip edemeyenler için böyle özet yazılar gerçekten hoş bir catchup oluyor
  • İleride o5, o3 Pro, o4 veya 4.5, Gemini 2.5 Pro, Grok 4, Claude Opus 4 gibi kapalı kaynaklı frontier modellere dair söylentileri de içeren bir 2. bölüm gelmesini isterim
  • Farklı LLM mimarileri arasındaki farkları ayrıntılı biçimde toparladığın için teşekkürler; bu sayede anlaması kolay ve eğitici olmuş
  • Açıkçası GPT-2 (2019) dönemine kıyasla bugünkü ilerleme hızı inanması zor seviyede; artık LLM performansını düzgün biçimde karşılaştırmak bile zor, çünkü her iki haftada bir yeni bir model benchmark'ları yeniliyor. DeepSeek'ten bahsedilmesine sevindim; V3'te tanıtılan mimari yenilikler hesaplama verimliliğini ciddi biçimde artırdı ve onu o dönemde diğer modellerden ayıran belirleyici nokta buydu
  • Çeşitli yeni mimariler doğruluk veya hız tarafında çok sayıda yenilik getirmiş olsa da, doğru bilgi üretimini garanti etme yönündeki temel sorun hâlâ çözülmüş değil. Retrieval Augmented Generation (RAG) ve ajanlar gibi çeşitli yaklaşımlar bunu iyileştiriyor, ama gelecekteki mimarilerin sonunda bu yöntemlerin yerini alıp almayacağını merak ediyorum
    • Temelde transformer'lar metin tahmini amacıyla eğitiliyor ve bu yaklaşımın mantıksal gömme açısından sınırları var. Halüsinasyonları daha da azaltmak için tamamen farklı bir eğitim hedefi gerektiğini düşünüyorum
    • Model, hangi durumda genelleme yapmasının uygun olduğunu ve hangi durumda daha fazla bilgiye ihtiyaç duyduğunu ayırt edemiyor. Örneğin, neden bir metodun var olup diğer benzer bir fonksiyonun olmadığını kolayca ayırt edemiyor. Çocukken anneme iyi bir cooker demiştim; insanlarla makineler için farklı kelimeler kullanıldığını bilmiyordum. Benzer kelimeler arasındaki bu tür genellemenin modele de uygulandığını düşünüyorum
    • DeepSeek-V2 ve Llama 3.1 gibi yakın dönem mimariler, sadece tasarımsal iyileştirmelerle bile olgusallıkta oldukça iyi sonuçlar gösteriyor. Özellikle attention mekanizması ve halüsinasyon baskılamaya odaklı eğitim hedefleri bunun arka planında yer alıyor
    • RAG (arama tabanlı yanıt), yapısal olarak basit ve uygulaması kolay, ama neden hâlâ temel LLM'lerin içine yerleşik olarak eklenmediğini hep merak etmişimdir. Bunun modelin içine tam entegre edilememesi, RAG veya varyasyonlarının temel sınırlamalarına işaret ediyor gibi geliyor. Gerçekten etkili bir yöntem olsaydı, dışarıdan eklenen bir unsur değil, mimarinin temel işlevi olarak gelirdi diye düşünüyorum
  • Claude'a orijinal metni okuyup yeni bir mimari önermesini söyledim
    Claude'un sonuç bağlantısı
    ama bunun gerçekten işe yarar olup olmadığından emin değilim