LLM Mimarilerindeki Son Gelişmeler: KV Paylaşımı, mHC ve Sıkıştırılmış Attention

(magazine.sebastianraschka.com)

19 puan yazan GN⁺ 2026-05-23 | Henüz yorum yok. | WhatsApp'ta paylaş

Son dönemde yayımlanan açık ağırlıklı LLM’ler uzun bağlam verimliliğine odaklanırken, KV önbellek boyutunu, bellek trafiğini ve attention maliyetini azaltmaya yönelik mimari hilelerin sayısı hızla artıyor
Gemma 4, katmanlar arası KV paylaşımı (cross-layer attention) ve katman başına embedding’ler (PLE) ile hem KV önbelleğini hem de parametre verimliliğini aynı anda iyileştiriyor
Laguna XS.2, katmanlara göre farklı sayıda sorgu başlığı atayan katman bazlı attention bütçelemesini kullanıma alıyor
ZAYA1-8B, Compressed Convolutional Attention (CCA) ile sıkıştırılmış gizil uzayda doğrudan attention işlemi yaparak yalnızca KV önbelleğini değil attention FLOPs’unu da azaltıyor
DeepSeek V4, mHC (Manifold-Constrained Hyper-Connections) ile residual yolu genişletiyor ve CSA/HCA ile dizi uzunluğunu sıkıştırarak 1M token bağlamda V3.2’ye kıyasla FLOPs ve KV önbelleğini büyük ölçüde azaltıyor

Genel Bakış: Uzun Bağlam Verimliliğine Odaklanan Yeni Mimariler

Akıl yürütme (reasoning) modelleri ve ajan iş akışları daha fazla token’ı daha uzun süre tuttuğundan, KV önbellek boyutu, bellek trafiği ve attention maliyeti başlıca kısıtlara dönüşmüş durumda
Nisan–Mayıs döneminde duyurulan başlıca açık ağırlıklı modellerde öne çıkan yeni tasarım noktaları
- Gemma 4: KV sharing ve per-layer embeddings
- Laguna XS.2: layer-wise attention budgeting
- ZAYA1-8B: compressed convolutional attention
- DeepSeek V4: mHC + compressed attention
Bu yazı veri karışımı, eğitim takvimi, post-training, RL reçeteleri ve benchmark’ları ele almak yerine; transformer blokları, residual stream, KV önbelleği ve attention işlemleri içindeki değişimlere odaklanıyor

1. Gemma 4: Katmanlar Arası KV Paylaşımıyla Önbelleği Küçültmek

Google’ın Nisan başında duyurduğu Gemma 4 ailesi 3 kategoriden oluşuyor
- Gemma 4 E2B/E4B: mobil ve gömülü cihazlar (IoT) için küçük modeller
- Gemma 4 26B MoE: verimli yerel çıkarım için optimize edilmiş MoE modeli
- Gemma 4 31B dense: en yüksek kalite ve post-training kolaylığı için dense model
KV paylaşımı (cross-layer attention) kullanıma alınıyor
- Sonraki katmanlar kendi K/V projeksiyonlarını hesaplamak yerine, aynı attention türündeki en yakın önceki paylaşılmayan katmanın KV tensörlerini yeniden kullanıyor
- Sliding window katmanları bir önceki sliding window katmanıyla, full-attention katmanları ise bir önceki full-attention katmanıyla KV paylaşıyor
- Sorgu projeksiyonları her katmanda ayrı hesaplandığı için katmana özgü attention örüntüsü korunuyor
- Gemma 4 E2B’de 35 transformer katmanının yalnızca ilk 15’i kendi KV’sini hesaplıyor, son 20 katman yeniden kullanım yapıyor
- Gemma 4 E4B’de 42 katmanın yalnızca 24’ü kendi KV’sini hesaplıyor, son 18 katman yeniden kullanıyor
Tasarruf etkisi
- KV’nin yaklaşık yarısı paylaşıldığı için KV önbellek boyutu yaklaşık yarıya iniyor
- 128K uzun bağlamda (bfloat16) E2B için 2.7 GB, E4B için yaklaşık 6 GB tasarruf sağlanıyor
Sınırlar
- KV paylaşımı bir tür yaklaşım olduğu için model kapasitesini azaltıyor
- cross-layer attention makalesine göre (test edilen küçük modellerde) etkisi minimum düzeyde
Kavramın kendisi Brandon et al., "Reducing Transformer Key-Value Cache Size with Cross-Layer Attention" (NeurIPS 2024) çalışmasına dayanıyor ve Gemma 4 bunu geniş çapta bilinen bir mimaride ilk kez uygulayan örnek oluyor

2. Gemma 4 E2B/E4B’de Per-Layer Embeddings (PLE) ve "Effective" Boyut

PLE, KV paylaşımından ayrı bir verimlilik tasarımı ve odağı parametre verimliliği
"E" effective anlamına geliyor
- Gemma 4 E2B: 2.3B effective parameters, embedding’lerle birlikte 5.1B
- Gemma 4 E4B: 4.5B effective parameters, embedding’lerle birlikte 8B
- Ana transformer yığınının hesaplaması küçük sayıya daha yakın; büyük sayı ise ek embedding tablo katmanlarını da içeriyor
PLE yapısı
- PLE vektörleri tekrar eden transformer bloklarının dışında hazırlanıyor
- Token ID’leri katman başına embedding lookup’tan geçiyor ve normal token embedding’leri de aynı PLE uzayına lineer projekte ediliyor
- Bu iki sonuç toplanıp ölçekleniyor ve reshape edilerek her katman için birer dilim içeren bir tensör üretiliyor
- Her katman l, yalnızca kendi dilimini (ple_l) alıyor
Transformer blok içindeki çalışma biçimi
- Attention ve feedforward residual güncellemeleri normal şekilde yürütülüyor
- İkinci residual add sonrasında hidden state z, katmana özgü PLE vektörünü kapılıyor (gating)
- Gate uygulanmış PLE vektörü model hidden size’a yeniden projekte edilip normalize edildikten sonra ek bir residual güncelleme olarak ekleniyor
PLE’nin amacı
- Pahalı transformer blokları küçük "effective" boyuta yakın tutmak
- Ek kapasiteyi katman başına embedding tablolarında depolamak; bu lookup tabanlı olduğu için attention veya FFN ağırlıkları eklemekten çok daha ucuz
- Sadece dense modeli küçültmeye dayalı alternatiflerden farklı olarak, ana hesaplama bölümünün kapasitesinden ödün vermiyor
PLE ilke olarak yalnızca küçük modellerle sınırlı değil; ancak büyük modellerde kapasite zaten yüksek ve MoE ile kapasite genişletilebiliyor

3. Laguna XS.2: Katman Bazlı Attention Bütçelemesi

Laguna, kodlama uygulamalarına odaklanan Avrupa merkezli şirket Poolside’ın ilk açık ağırlıklı modeli
Temel yapı
- Toplam 40 katman var; bunların 30’u sliding window attention, 10’u global/full attention
- Sliding window katmanlarının pencere boyutu: 512 token
- Sliding window + global karışımı deseninin kendisi Gemma 4 gibi başka mimarilerde de kullanılıyor
Yeni olan nokta: katmanlara göre sorgu başlığı sayısını farklılaştırmak
- Hugging Face config.json içindeki num_attention_heads_per_layer ayarıyla her katman için farklı sorgu başlığı sayısı tanımlanabiliyor; KV önbellek şekli ise uyumlu kalıyor
- Sliding window katmanları: KV başlığı başına 8 sorgu başlığı
- Full attention katmanları: KV başlığı başına 6 sorgu başlığı
- KV başlıklarının sayısı 8’de sabit
Tasarım amacı
- Tüm katmanlara aynı attention bütçesini vermek yerine, attention kapasitesini daha yararlı yerlere yoğunlaştırmak
- full-attention katmanları tüm bağlamı gördüğü için pahalı; bu yüzden onlara daha az sorgu başlığı atanıyor
Katmanlar arasında kapasite farklılaştırma fikri en azından Apple’ın 2024 tarihli OpenELM modeline kadar gidiyor; Laguna XS.2 ise bunu üretim düzeyindeki açık modeller arasında en dikkat çekici yeni örneklerden biri haline getiriyor
Ek olarak Laguna, başlık başına attention-output gating de uyguluyor (Qwen3-Next vb. ile benzer)

4. ZAYA1-8B: Compressed Convolutional Attention (CCA)

Zyphra tarafından geliştirilen açık ağırlıklı model; dikkat çekici yanı NVIDIA GPU veya Google TPU yerine AMD GPU üzerinde eğitilmiş olması
Yapı
- config.json üzerinde dönüşümlü 80 katman girdisi bulunuyor; CCA/GQA attention ile MoE feedforward dönüşümlü geliyor (görsel olarak 40 attention+MoE çifti şeklinde ifade ediliyor)
- 4:1 GQA düzeni ile birlikte CCA kullanılıyor
- MoE çok seyrek bir kurulumda; token başına yönlendirilen expert’lerden yalnızca 1’i etkinleşiyor
CCA’nın özü
- MLA’ye benzer şekilde attention bloğuna sıkıştırılmış gizil gösterim ekleniyor
- Fark şu: MLA bu gizil gösterimi çoğunlukla KV önbelleğini küçültmek için kullanıyor; gerçek attention ise yeniden attention-head uzayına projekte edilerek yapılıyor
- CCA’da Q, K ve V’nin tümü sıkıştırıldıktan sonra attention işlemi doğrudan sıkıştırılmış gizil uzayda yürütülüyor; ortaya çıkan attention vektörü sonra yeniden up-projection ile yükseltiliyor
- Sonuç olarak yalnızca KV önbelleği değil, prefill ve eğitim sırasındaki attention FLOPs’u da azalıyor
Convolutional Mixing
- "Convolutional" adı, sıkıştırılmış K ve Q gösterimlerine ek convolutional mixing eklenmesinden geliyor
- Sıkıştırma, Q, K ve V’yi daraltarak hesaplamayı ve önbelleği azaltıyor; ancak attention ifade gücünü de düşürebiliyor
- convolution, sıkıştırılmış Q ve K’ye yerel bağlamı düşük maliyetle eklemenin bir yolu
- V’ye uygulanmıyor; çünkü Q ve K attention skorlarını belirlerken, V bu skorlarla ortalaması alınan içeriği taşıyor
- Dizi karıştırmanın yanı sıra bir channel mixing bileşeni de bulunuyor
Performans
- CCA, ZAYA1-8B teknik raporundan önce yayımlanan ayrı bir makalede, "Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space" (Ekim 2025) içinde tanıtıldı
- CCA makalesindeki deneylere göre, aynı sıkıştırma ayarında MLA’den daha iyi sonuçlar bildiriliyor

5. DeepSeek V4: CSA/HCA, mHC ve Sıkıştırılmış Attention Önbelleği

DeepSeek V4, bu yıl hem en büyük yankıyı uyandıran hem de en büyük model ölçeğini gösteren sürüm oldu; DeepSeek V4-Pro, aktif parametre oranı açısından en seyrek MoE konumunda
Bu yazı, önceki mimariye kıyasla iki temel yeniliğe odaklanıyor
- mHC: daha geniş residual yol
- CSA/HCA: uzun bağlam attention’ını sıkıştırma ve seyrekleştirme
5.1 Manifold-Constrained Hyper-Connections (mHC)
- 31 Aralık 2025 tarihli DeepSeek ekibi makalesi "mHC: Manifold-Constrained Hyper-Connections" temel alınıyor; o sırada yalnızca 27B ölçekte denenmişti, ancak bu kez amiral gemisi modelde tam anlamıyla uygulanıyor
- Amaç, transformer blokları içindeki residual bağlantı tasarımını modernize etmek; yani attention/normalization/MoE tarafındaki değişikliklerden farklı bir yönde ilerlemek
- Hyper-Connections (HC) arka planı
  - Zhu et al. (2024) "Hyper-connections" çalışmasına dayanıyor
  - Tek residual stream, birden fazla paralel residual stream ve öğrenilmiş eşlemelerle değiştiriliyor
  - Attention ve MoE katmanlarının normal hidden size ile çalışabilmesi için Pre Mapping (paralel stream’ler → tek hidden vector) ve Post Mapping (katman çıktısı → paralel stream’lere dağıtım) ekleniyor
  - Böylece residual yol daha ifade gücü yüksek hale gelirken attention ve MoE’nin kendisi genişletilmiyor
  - 7B OLMo MoE deneylerinde token başına FLOPs 13.36G → 13.38G ile neredeyse değişmeden kalırken, baseline performansına yaklaşık yarı sayıda eğitim token’ıyla ulaşılıyor
- HC → mHC değişiklikleri
  - Normal HC’deki Res Mapping öğrenilebilir bir matris ve çok sayıda katman boyunca sinyal büyütme/küçültme davranışı öngörülemez hale gelebiliyor
  - mHC, residual eşlemeyi doubly stochastic matrices manifold’una yansıtıyor — tüm girdiler negatif değil ve her satır ile sütunun toplamı 1
  - Böylece residual karışım, stream’ler arasında istikrarlı bilgi yeniden dağıtımı gibi davranıyor
  - Pre Mapping ve Post Mapping de negatif olmama ve sınırlı olma kısıtları altında; bu da genişletilmiş residual durumunu okuma/yazma sırasında iptali önlüyor
  - Özellikle daha derin modellerde kritik olan ölçekleme kararlılığı sağlanıyor
- Maliyet
  - 27B model deneylerinde, DeepSeek ekibinin optimize edilmiş uygulamasıyla (fusion, recomputation, pipeline scheduling), n=4 residual stream kullanıldığında eğitim süresi ek yükü %6.7 oldu
5.2 CSA ve HCA ile sıkıştırılmış attention
- Çok uzun bağlamlarda yalnızca attention skoru hesaplamasının değil, dizi uzunluğuyla orantılı büyüyen KV önbelleğinin de çözülmesi amaçlanıyor
- DeepSeek V4, iki sıkıştırılmış attention yaklaşımını hibrit biçimde kullanıyor: Compressed Sparse Attention (CSA) ve Heavily Compressed Attention (HCA)
- MLA’den farkı
  - DeepSeek V2/V3’teki MLA, token başına KV gösterimini sıkıştırıyor ama her token için bir gizil KV girdisini koruyor
  - CSA/HCA ise dizi boyutu boyunca sıkıştırma yapıyor; birden fazla token grubunu daha az sayıda sıkıştırılmış KV girdisine özetliyor → böylece önbelleğin kendisi kısalıyor
  - Token düzeyindeki bilginin bir kısmından vazgeçme karşılığında uzun bağlam maliyeti büyük ölçüde düşüyor
- CSA ve HCA karşılaştırması
  - CSA: daha düşük sıkıştırma oranı (m=4) + DeepSeek Sparse Attention (DSA) tarzı top-k seçim
  - HCA: daha yüksek sıkıştırma (m'=128, yani 128 token için 1 sıkıştırılmış KV girdisi) + kısalmış önbellek üzerinde dense attention
  - Her iki yaklaşım da yakın geçmişteki sıkıştırılmamış token’lar için 128 token’lık sliding window dalını koruyor
  - CSA ayrıntıyı daha fazla korurken seyrek seçim yapıyor; HCA ise giriş sayısını sert biçimde azaltıp dense attention’ı mümkün kılıyor → birbirini tamamladıkları için DeepSeek V4 bu iki katman türünü dönüşümlü yerleştiriyor
- Verimlilik sonuçları (1M token bağlam, DeepSeek V3.2’ye kıyasla)
  - DeepSeek V4-Pro: tek token çıkarım FLOPs’u %27, KV önbellek boyutu %10
  - DeepSeek V4-Flash: FLOPs %10, KV önbellek boyutu %7
- Değerlendirme açısından dikkat noktaları
  - CSA/HCA’nın MLA’den genel olarak "daha iyi" olduğunu kesin biçimde söylemek zor; bu yaklaşım uzun bağlam için daha agresif ve daha karmaşık bir tasarım
  - Makalede ablation study yok
  - DeepSeek V4-Flash-Base pek çok base benchmark’ta V3.2-Base’i geçiyor ve 1M token retrieval testinde güçlü sonuç veriyor; ancak bu, daha iyi veri, Muon tabanlı optimizasyon, mHC, hassasiyet/depolama optimizasyonu ve eğitim/çıkarım sistemi değişikliklerini içeren genel reçetenin sonucu

6. Sonuç

Bu yıl çıkan yeni açık ağırlıklı modellerde ortak desen, toplam parametre sayısını azaltmadan uzun bağlamlı çıkarım maliyetini düşürmek
- Gemma 4: cross-layer KV sharing ile KV önbelleğini küçültme, per-layer embeddings ile kapasite ekleme
- Laguna XS.2: katman bazında attention kapasitesini farklılaştırma
- ZAYA1-8B: attention’ı sıkıştırılmış gizil uzaya taşıma
- DeepSeek V4: kısıtlanmış residual stream karışımı + sıkıştırılmış uzun bağlam attention’ı
Transformer blokları hâlâ değişiyor, ancak hedefi net olan değişikliklerle; temel omurga ise GPT tarzı decoder-only mimari olarak korunuyor
Nitel modelleme performansını esas olarak veri kalitesi/miktarı ve eğitim reçetesi sürüklüyor
Şu ana kadar transformer, SOTA mimarilerdeki statükoyu koruyor; diffusion modelleri gibi alternatifler olsa da
Temel transformer blokları eskiden PyTorch ile 50–100 satırda uygulanabilirken, son attention varyasyonlarıyla birlikte kod karmaşıklığı yaklaşık 10 kat artmış durumda
Karmaşıklığın artması, çalışma zamanı maliyetini azalttığı için bütünüyle olumsuz sayılmaz; ancak tek tek bileşenleri ve etkileşimlerini açık biçimde anlamak giderek zorlaşıyor
Öğrenmek için önerilen yaklaşım: orijinal decoder tarzı LLM’den (GPT/GPT-2) başlayıp yeni bileşenleri tek tek ekleyerek ilerlemek

LLM Mimarilerindeki Son Gelişmeler: KV Paylaşımı, mHC ve Sıkıştırılmış Attention

Genel Bakış: Uzun Bağlam Verimliliğine Odaklanan Yeni Mimariler

1. Gemma 4: Katmanlar Arası KV Paylaşımıyla Önbelleği Küçültmek

KV paylaşımı (cross-layer attention) kullanıma alınıyor

Tasarruf etkisi

Sınırlar

2. Gemma 4 E2B/E4B’de Per-Layer Embeddings (PLE) ve "Effective" Boyut

"E" effective anlamına geliyor

PLE yapısı

Transformer blok içindeki çalışma biçimi

PLE’nin amacı

3. Laguna XS.2: Katman Bazlı Attention Bütçelemesi

Temel yapı

Yeni olan nokta: katmanlara göre sorgu başlığı sayısını farklılaştırmak

Tasarım amacı

4. ZAYA1-8B: Compressed Convolutional Attention (CCA)

Yapı

CCA’nın özü

Convolutional Mixing

Performans

5. DeepSeek V4: CSA/HCA, mHC ve Sıkıştırılmış Attention Önbelleği

5.1 Manifold-Constrained Hyper-Connections (mHC)

Hyper-Connections (HC) arka planı

HC → mHC değişiklikleri

Maliyet

5.2 CSA ve HCA ile sıkıştırılmış attention

MLA’den farkı

CSA ve HCA karşılaştırması

Verimlilik sonuçları (1M token bağlam, DeepSeek V3.2’ye kıyasla)

Değerlendirme açısından dikkat noktaları

6. Sonuç

İlgili okumalar

Henüz yorum yok.