LLM Mimarilerindeki Son Gelişmeler: KV Paylaşımı, mHC ve Sıkıştırılmış Attention
(magazine.sebastianraschka.com)- Son dönemde yayımlanan açık ağırlıklı LLM’ler uzun bağlam verimliliğine odaklanırken, KV önbellek boyutunu, bellek trafiğini ve attention maliyetini azaltmaya yönelik mimari hilelerin sayısı hızla artıyor
- Gemma 4, katmanlar arası KV paylaşımı (cross-layer attention) ve katman başına embedding’ler (PLE) ile hem KV önbelleğini hem de parametre verimliliğini aynı anda iyileştiriyor
- Laguna XS.2, katmanlara göre farklı sayıda sorgu başlığı atayan katman bazlı attention bütçelemesini kullanıma alıyor
- ZAYA1-8B, Compressed Convolutional Attention (CCA) ile sıkıştırılmış gizil uzayda doğrudan attention işlemi yaparak yalnızca KV önbelleğini değil attention FLOPs’unu da azaltıyor
- DeepSeek V4, mHC (Manifold-Constrained Hyper-Connections) ile residual yolu genişletiyor ve CSA/HCA ile dizi uzunluğunu sıkıştırarak 1M token bağlamda V3.2’ye kıyasla FLOPs ve KV önbelleğini büyük ölçüde azaltıyor
Genel Bakış: Uzun Bağlam Verimliliğine Odaklanan Yeni Mimariler
- Akıl yürütme (reasoning) modelleri ve ajan iş akışları daha fazla token’ı daha uzun süre tuttuğundan, KV önbellek boyutu, bellek trafiği ve attention maliyeti başlıca kısıtlara dönüşmüş durumda
- Nisan–Mayıs döneminde duyurulan başlıca açık ağırlıklı modellerde öne çıkan yeni tasarım noktaları
- Gemma 4: KV sharing ve per-layer embeddings
- Laguna XS.2: layer-wise attention budgeting
- ZAYA1-8B: compressed convolutional attention
- DeepSeek V4: mHC + compressed attention
- Bu yazı veri karışımı, eğitim takvimi, post-training, RL reçeteleri ve benchmark’ları ele almak yerine; transformer blokları, residual stream, KV önbelleği ve attention işlemleri içindeki değişimlere odaklanıyor
1. Gemma 4: Katmanlar Arası KV Paylaşımıyla Önbelleği Küçültmek
- Google’ın Nisan başında duyurduğu Gemma 4 ailesi 3 kategoriden oluşuyor
- Gemma 4 E2B/E4B: mobil ve gömülü cihazlar (IoT) için küçük modeller
- Gemma 4 26B MoE: verimli yerel çıkarım için optimize edilmiş MoE modeli
- Gemma 4 31B dense: en yüksek kalite ve post-training kolaylığı için dense model
-
KV paylaşımı (cross-layer attention) kullanıma alınıyor
- Sonraki katmanlar kendi K/V projeksiyonlarını hesaplamak yerine, aynı attention türündeki en yakın önceki paylaşılmayan katmanın KV tensörlerini yeniden kullanıyor
- Sliding window katmanları bir önceki sliding window katmanıyla, full-attention katmanları ise bir önceki full-attention katmanıyla KV paylaşıyor
- Sorgu projeksiyonları her katmanda ayrı hesaplandığı için katmana özgü attention örüntüsü korunuyor
- Gemma 4 E2B’de 35 transformer katmanının yalnızca ilk 15’i kendi KV’sini hesaplıyor, son 20 katman yeniden kullanım yapıyor
- Gemma 4 E4B’de 42 katmanın yalnızca 24’ü kendi KV’sini hesaplıyor, son 18 katman yeniden kullanıyor
-
Tasarruf etkisi
- KV’nin yaklaşık yarısı paylaşıldığı için KV önbellek boyutu yaklaşık yarıya iniyor
- 128K uzun bağlamda (bfloat16) E2B için 2.7 GB, E4B için yaklaşık 6 GB tasarruf sağlanıyor
-
Sınırlar
- KV paylaşımı bir tür yaklaşım olduğu için model kapasitesini azaltıyor
- cross-layer attention makalesine göre (test edilen küçük modellerde) etkisi minimum düzeyde
- Kavramın kendisi Brandon et al., "Reducing Transformer Key-Value Cache Size with Cross-Layer Attention" (NeurIPS 2024) çalışmasına dayanıyor ve Gemma 4 bunu geniş çapta bilinen bir mimaride ilk kez uygulayan örnek oluyor
2. Gemma 4 E2B/E4B’de Per-Layer Embeddings (PLE) ve "Effective" Boyut
- PLE, KV paylaşımından ayrı bir verimlilik tasarımı ve odağı parametre verimliliği
-
"E" effective anlamına geliyor
- Gemma 4 E2B: 2.3B effective parameters, embedding’lerle birlikte 5.1B
- Gemma 4 E4B: 4.5B effective parameters, embedding’lerle birlikte 8B
- Ana transformer yığınının hesaplaması küçük sayıya daha yakın; büyük sayı ise ek embedding tablo katmanlarını da içeriyor
-
PLE yapısı
- PLE vektörleri tekrar eden transformer bloklarının dışında hazırlanıyor
- Token ID’leri katman başına embedding lookup’tan geçiyor ve normal token embedding’leri de aynı PLE uzayına lineer projekte ediliyor
- Bu iki sonuç toplanıp ölçekleniyor ve reshape edilerek her katman için birer dilim içeren bir tensör üretiliyor
- Her katman
l, yalnızca kendi dilimini (ple_l) alıyor
-
Transformer blok içindeki çalışma biçimi
- Attention ve feedforward residual güncellemeleri normal şekilde yürütülüyor
- İkinci residual add sonrasında hidden state
z, katmana özgü PLE vektörünü kapılıyor (gating) - Gate uygulanmış PLE vektörü model hidden size’a yeniden projekte edilip normalize edildikten sonra ek bir residual güncelleme olarak ekleniyor
-
PLE’nin amacı
- Pahalı transformer blokları küçük "effective" boyuta yakın tutmak
- Ek kapasiteyi katman başına embedding tablolarında depolamak; bu lookup tabanlı olduğu için attention veya FFN ağırlıkları eklemekten çok daha ucuz
- Sadece dense modeli küçültmeye dayalı alternatiflerden farklı olarak, ana hesaplama bölümünün kapasitesinden ödün vermiyor
- PLE ilke olarak yalnızca küçük modellerle sınırlı değil; ancak büyük modellerde kapasite zaten yüksek ve MoE ile kapasite genişletilebiliyor
3. Laguna XS.2: Katman Bazlı Attention Bütçelemesi
- Laguna, kodlama uygulamalarına odaklanan Avrupa merkezli şirket Poolside’ın ilk açık ağırlıklı modeli
-
Temel yapı
- Toplam 40 katman var; bunların 30’u sliding window attention, 10’u global/full attention
- Sliding window katmanlarının pencere boyutu: 512 token
- Sliding window + global karışımı deseninin kendisi Gemma 4 gibi başka mimarilerde de kullanılıyor
-
Yeni olan nokta: katmanlara göre sorgu başlığı sayısını farklılaştırmak
- Hugging Face
config.jsoniçindekinum_attention_heads_per_layerayarıyla her katman için farklı sorgu başlığı sayısı tanımlanabiliyor; KV önbellek şekli ise uyumlu kalıyor - Sliding window katmanları: KV başlığı başına 8 sorgu başlığı
- Full attention katmanları: KV başlığı başına 6 sorgu başlığı
- KV başlıklarının sayısı 8’de sabit
- Hugging Face
-
Tasarım amacı
- Tüm katmanlara aynı attention bütçesini vermek yerine, attention kapasitesini daha yararlı yerlere yoğunlaştırmak
- full-attention katmanları tüm bağlamı gördüğü için pahalı; bu yüzden onlara daha az sorgu başlığı atanıyor
- Katmanlar arasında kapasite farklılaştırma fikri en azından Apple’ın 2024 tarihli OpenELM modeline kadar gidiyor; Laguna XS.2 ise bunu üretim düzeyindeki açık modeller arasında en dikkat çekici yeni örneklerden biri haline getiriyor
- Ek olarak Laguna, başlık başına attention-output gating de uyguluyor (Qwen3-Next vb. ile benzer)
4. ZAYA1-8B: Compressed Convolutional Attention (CCA)
- Zyphra tarafından geliştirilen açık ağırlıklı model; dikkat çekici yanı NVIDIA GPU veya Google TPU yerine AMD GPU üzerinde eğitilmiş olması
-
Yapı
config.jsonüzerinde dönüşümlü 80 katman girdisi bulunuyor; CCA/GQA attention ile MoE feedforward dönüşümlü geliyor (görsel olarak 40 attention+MoE çifti şeklinde ifade ediliyor)- 4:1 GQA düzeni ile birlikte CCA kullanılıyor
- MoE çok seyrek bir kurulumda; token başına yönlendirilen expert’lerden yalnızca 1’i etkinleşiyor
-
CCA’nın özü
- MLA’ye benzer şekilde attention bloğuna sıkıştırılmış gizil gösterim ekleniyor
- Fark şu: MLA bu gizil gösterimi çoğunlukla KV önbelleğini küçültmek için kullanıyor; gerçek attention ise yeniden attention-head uzayına projekte edilerek yapılıyor
- CCA’da Q, K ve V’nin tümü sıkıştırıldıktan sonra attention işlemi doğrudan sıkıştırılmış gizil uzayda yürütülüyor; ortaya çıkan attention vektörü sonra yeniden up-projection ile yükseltiliyor
- Sonuç olarak yalnızca KV önbelleği değil, prefill ve eğitim sırasındaki attention FLOPs’u da azalıyor
-
Convolutional Mixing
- "Convolutional" adı, sıkıştırılmış K ve Q gösterimlerine ek convolutional mixing eklenmesinden geliyor
- Sıkıştırma, Q, K ve V’yi daraltarak hesaplamayı ve önbelleği azaltıyor; ancak attention ifade gücünü de düşürebiliyor
- convolution, sıkıştırılmış Q ve K’ye yerel bağlamı düşük maliyetle eklemenin bir yolu
- V’ye uygulanmıyor; çünkü Q ve K attention skorlarını belirlerken, V bu skorlarla ortalaması alınan içeriği taşıyor
- Dizi karıştırmanın yanı sıra bir channel mixing bileşeni de bulunuyor
-
Performans
- CCA, ZAYA1-8B teknik raporundan önce yayımlanan ayrı bir makalede, "Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space" (Ekim 2025) içinde tanıtıldı
- CCA makalesindeki deneylere göre, aynı sıkıştırma ayarında MLA’den daha iyi sonuçlar bildiriliyor
5. DeepSeek V4: CSA/HCA, mHC ve Sıkıştırılmış Attention Önbelleği
-
DeepSeek V4, bu yıl hem en büyük yankıyı uyandıran hem de en büyük model ölçeğini gösteren sürüm oldu; DeepSeek V4-Pro, aktif parametre oranı açısından en seyrek MoE konumunda
-
Bu yazı, önceki mimariye kıyasla iki temel yeniliğe odaklanıyor
- mHC: daha geniş residual yol
- CSA/HCA: uzun bağlam attention’ını sıkıştırma ve seyrekleştirme
-
5.1 Manifold-Constrained Hyper-Connections (mHC)
- 31 Aralık 2025 tarihli DeepSeek ekibi makalesi "mHC: Manifold-Constrained Hyper-Connections" temel alınıyor; o sırada yalnızca 27B ölçekte denenmişti, ancak bu kez amiral gemisi modelde tam anlamıyla uygulanıyor
- Amaç, transformer blokları içindeki residual bağlantı tasarımını modernize etmek; yani attention/normalization/MoE tarafındaki değişikliklerden farklı bir yönde ilerlemek
-
Hyper-Connections (HC) arka planı
- Zhu et al. (2024) "Hyper-connections" çalışmasına dayanıyor
- Tek residual stream, birden fazla paralel residual stream ve öğrenilmiş eşlemelerle değiştiriliyor
- Attention ve MoE katmanlarının normal hidden size ile çalışabilmesi için Pre Mapping (paralel stream’ler → tek hidden vector) ve Post Mapping (katman çıktısı → paralel stream’lere dağıtım) ekleniyor
- Böylece residual yol daha ifade gücü yüksek hale gelirken attention ve MoE’nin kendisi genişletilmiyor
- 7B OLMo MoE deneylerinde token başına FLOPs 13.36G → 13.38G ile neredeyse değişmeden kalırken, baseline performansına yaklaşık yarı sayıda eğitim token’ıyla ulaşılıyor
-
HC → mHC değişiklikleri
- Normal HC’deki Res Mapping öğrenilebilir bir matris ve çok sayıda katman boyunca sinyal büyütme/küçültme davranışı öngörülemez hale gelebiliyor
- mHC, residual eşlemeyi doubly stochastic matrices manifold’una yansıtıyor — tüm girdiler negatif değil ve her satır ile sütunun toplamı 1
- Böylece residual karışım, stream’ler arasında istikrarlı bilgi yeniden dağıtımı gibi davranıyor
- Pre Mapping ve Post Mapping de negatif olmama ve sınırlı olma kısıtları altında; bu da genişletilmiş residual durumunu okuma/yazma sırasında iptali önlüyor
- Özellikle daha derin modellerde kritik olan ölçekleme kararlılığı sağlanıyor
-
Maliyet
- 27B model deneylerinde, DeepSeek ekibinin optimize edilmiş uygulamasıyla (fusion, recomputation, pipeline scheduling), n=4 residual stream kullanıldığında eğitim süresi ek yükü %6.7 oldu
-
5.2 CSA ve HCA ile sıkıştırılmış attention
- Çok uzun bağlamlarda yalnızca attention skoru hesaplamasının değil, dizi uzunluğuyla orantılı büyüyen KV önbelleğinin de çözülmesi amaçlanıyor
- DeepSeek V4, iki sıkıştırılmış attention yaklaşımını hibrit biçimde kullanıyor: Compressed Sparse Attention (CSA) ve Heavily Compressed Attention (HCA)
-
MLA’den farkı
- DeepSeek V2/V3’teki MLA, token başına KV gösterimini sıkıştırıyor ama her token için bir gizil KV girdisini koruyor
- CSA/HCA ise dizi boyutu boyunca sıkıştırma yapıyor; birden fazla token grubunu daha az sayıda sıkıştırılmış KV girdisine özetliyor → böylece önbelleğin kendisi kısalıyor
- Token düzeyindeki bilginin bir kısmından vazgeçme karşılığında uzun bağlam maliyeti büyük ölçüde düşüyor
-
CSA ve HCA karşılaştırması
- CSA: daha düşük sıkıştırma oranı (m=4) + DeepSeek Sparse Attention (DSA) tarzı top-k seçim
- HCA: daha yüksek sıkıştırma (m'=128, yani 128 token için 1 sıkıştırılmış KV girdisi) + kısalmış önbellek üzerinde dense attention
- Her iki yaklaşım da yakın geçmişteki sıkıştırılmamış token’lar için 128 token’lık sliding window dalını koruyor
- CSA ayrıntıyı daha fazla korurken seyrek seçim yapıyor; HCA ise giriş sayısını sert biçimde azaltıp dense attention’ı mümkün kılıyor → birbirini tamamladıkları için DeepSeek V4 bu iki katman türünü dönüşümlü yerleştiriyor
-
Verimlilik sonuçları (1M token bağlam, DeepSeek V3.2’ye kıyasla)
- DeepSeek V4-Pro: tek token çıkarım FLOPs’u %27, KV önbellek boyutu %10
- DeepSeek V4-Flash: FLOPs %10, KV önbellek boyutu %7
-
Değerlendirme açısından dikkat noktaları
- CSA/HCA’nın MLA’den genel olarak "daha iyi" olduğunu kesin biçimde söylemek zor; bu yaklaşım uzun bağlam için daha agresif ve daha karmaşık bir tasarım
- Makalede ablation study yok
- DeepSeek V4-Flash-Base pek çok base benchmark’ta V3.2-Base’i geçiyor ve 1M token retrieval testinde güçlü sonuç veriyor; ancak bu, daha iyi veri, Muon tabanlı optimizasyon, mHC, hassasiyet/depolama optimizasyonu ve eğitim/çıkarım sistemi değişikliklerini içeren genel reçetenin sonucu
6. Sonuç
- Bu yıl çıkan yeni açık ağırlıklı modellerde ortak desen, toplam parametre sayısını azaltmadan uzun bağlamlı çıkarım maliyetini düşürmek
- Gemma 4: cross-layer KV sharing ile KV önbelleğini küçültme, per-layer embeddings ile kapasite ekleme
- Laguna XS.2: katman bazında attention kapasitesini farklılaştırma
- ZAYA1-8B: attention’ı sıkıştırılmış gizil uzaya taşıma
- DeepSeek V4: kısıtlanmış residual stream karışımı + sıkıştırılmış uzun bağlam attention’ı
- Transformer blokları hâlâ değişiyor, ancak hedefi net olan değişikliklerle; temel omurga ise GPT tarzı decoder-only mimari olarak korunuyor
- Nitel modelleme performansını esas olarak veri kalitesi/miktarı ve eğitim reçetesi sürüklüyor
- Şu ana kadar transformer, SOTA mimarilerdeki statükoyu koruyor; diffusion modelleri gibi alternatifler olsa da
- Temel transformer blokları eskiden PyTorch ile 50–100 satırda uygulanabilirken, son attention varyasyonlarıyla birlikte kod karmaşıklığı yaklaşık 10 kat artmış durumda
- Karmaşıklığın artması, çalışma zamanı maliyetini azalttığı için bütünüyle olumsuz sayılmaz; ancak tek tek bileşenleri ve etkileşimlerini açık biçimde anlamak giderek zorlaşıyor
- Öğrenmek için önerilen yaklaşım: orijinal decoder tarzı LLM’den (GPT/GPT-2) başlayıp yeni bileşenleri tek tek ekleyerek ilerlemek
Henüz yorum yok.