6 puan yazan GN⁺ 5 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Son dönemde yayımlanan açık ağırlıklı LLM’ler uzun bağlam verimliliğine odaklanırken, KV önbellek boyutunu, bellek trafiğini ve attention maliyetini azaltmaya yönelik mimari hilelerin sayısı hızla artıyor
  • Gemma 4, katmanlar arası KV paylaşımı (cross-layer attention) ve katman başına embedding’ler (PLE) ile hem KV önbelleğini hem de parametre verimliliğini aynı anda iyileştiriyor
  • Laguna XS.2, katmanlara göre farklı sayıda sorgu başlığı atayan katman bazlı attention bütçelemesini kullanıma alıyor
  • ZAYA1-8B, Compressed Convolutional Attention (CCA) ile sıkıştırılmış gizil uzayda doğrudan attention işlemi yaparak yalnızca KV önbelleğini değil attention FLOPs’unu da azaltıyor
  • DeepSeek V4, mHC (Manifold-Constrained Hyper-Connections) ile residual yolu genişletiyor ve CSA/HCA ile dizi uzunluğunu sıkıştırarak 1M token bağlamda V3.2’ye kıyasla FLOPs ve KV önbelleğini büyük ölçüde azaltıyor

Genel Bakış: Uzun Bağlam Verimliliğine Odaklanan Yeni Mimariler

  • Akıl yürütme (reasoning) modelleri ve ajan iş akışları daha fazla token’ı daha uzun süre tuttuğundan, KV önbellek boyutu, bellek trafiği ve attention maliyeti başlıca kısıtlara dönüşmüş durumda
  • Nisan–Mayıs döneminde duyurulan başlıca açık ağırlıklı modellerde öne çıkan yeni tasarım noktaları
    • Gemma 4: KV sharing ve per-layer embeddings
    • Laguna XS.2: layer-wise attention budgeting
    • ZAYA1-8B: compressed convolutional attention
    • DeepSeek V4: mHC + compressed attention
  • Bu yazı veri karışımı, eğitim takvimi, post-training, RL reçeteleri ve benchmark’ları ele almak yerine; transformer blokları, residual stream, KV önbelleği ve attention işlemleri içindeki değişimlere odaklanıyor

1. Gemma 4: Katmanlar Arası KV Paylaşımıyla Önbelleği Küçültmek

  • Google’ın Nisan başında duyurduğu Gemma 4 ailesi 3 kategoriden oluşuyor
    • Gemma 4 E2B/E4B: mobil ve gömülü cihazlar (IoT) için küçük modeller
    • Gemma 4 26B MoE: verimli yerel çıkarım için optimize edilmiş MoE modeli
    • Gemma 4 31B dense: en yüksek kalite ve post-training kolaylığı için dense model
  • KV paylaşımı (cross-layer attention) kullanıma alınıyor

    • Sonraki katmanlar kendi K/V projeksiyonlarını hesaplamak yerine, aynı attention türündeki en yakın önceki paylaşılmayan katmanın KV tensörlerini yeniden kullanıyor
    • Sliding window katmanları bir önceki sliding window katmanıyla, full-attention katmanları ise bir önceki full-attention katmanıyla KV paylaşıyor
    • Sorgu projeksiyonları her katmanda ayrı hesaplandığı için katmana özgü attention örüntüsü korunuyor
    • Gemma 4 E2B’de 35 transformer katmanının yalnızca ilk 15’i kendi KV’sini hesaplıyor, son 20 katman yeniden kullanım yapıyor
    • Gemma 4 E4B’de 42 katmanın yalnızca 24’ü kendi KV’sini hesaplıyor, son 18 katman yeniden kullanıyor
  • Tasarruf etkisi

    • KV’nin yaklaşık yarısı paylaşıldığı için KV önbellek boyutu yaklaşık yarıya iniyor
    • 128K uzun bağlamda (bfloat16) E2B için 2.7 GB, E4B için yaklaşık 6 GB tasarruf sağlanıyor
  • Sınırlar

    • KV paylaşımı bir tür yaklaşım olduğu için model kapasitesini azaltıyor
    • cross-layer attention makalesine göre (test edilen küçük modellerde) etkisi minimum düzeyde
  • Kavramın kendisi Brandon et al., "Reducing Transformer Key-Value Cache Size with Cross-Layer Attention" (NeurIPS 2024) çalışmasına dayanıyor ve Gemma 4 bunu geniş çapta bilinen bir mimaride ilk kez uygulayan örnek oluyor

2. Gemma 4 E2B/E4B’de Per-Layer Embeddings (PLE) ve "Effective" Boyut

  • PLE, KV paylaşımından ayrı bir verimlilik tasarımı ve odağı parametre verimliliği
  • "E" effective anlamına geliyor

    • Gemma 4 E2B: 2.3B effective parameters, embedding’lerle birlikte 5.1B
    • Gemma 4 E4B: 4.5B effective parameters, embedding’lerle birlikte 8B
    • Ana transformer yığınının hesaplaması küçük sayıya daha yakın; büyük sayı ise ek embedding tablo katmanlarını da içeriyor
  • PLE yapısı

    • PLE vektörleri tekrar eden transformer bloklarının dışında hazırlanıyor
    • Token ID’leri katman başına embedding lookup’tan geçiyor ve normal token embedding’leri de aynı PLE uzayına lineer projekte ediliyor
    • Bu iki sonuç toplanıp ölçekleniyor ve reshape edilerek her katman için birer dilim içeren bir tensör üretiliyor
    • Her katman l, yalnızca kendi dilimini (ple_l) alıyor
  • Transformer blok içindeki çalışma biçimi

    • Attention ve feedforward residual güncellemeleri normal şekilde yürütülüyor
    • İkinci residual add sonrasında hidden state z, katmana özgü PLE vektörünü kapılıyor (gating)
    • Gate uygulanmış PLE vektörü model hidden size’a yeniden projekte edilip normalize edildikten sonra ek bir residual güncelleme olarak ekleniyor
  • PLE’nin amacı

    • Pahalı transformer blokları küçük "effective" boyuta yakın tutmak
    • Ek kapasiteyi katman başına embedding tablolarında depolamak; bu lookup tabanlı olduğu için attention veya FFN ağırlıkları eklemekten çok daha ucuz
    • Sadece dense modeli küçültmeye dayalı alternatiflerden farklı olarak, ana hesaplama bölümünün kapasitesinden ödün vermiyor
  • PLE ilke olarak yalnızca küçük modellerle sınırlı değil; ancak büyük modellerde kapasite zaten yüksek ve MoE ile kapasite genişletilebiliyor

3. Laguna XS.2: Katman Bazlı Attention Bütçelemesi

  • Laguna, kodlama uygulamalarına odaklanan Avrupa merkezli şirket Poolside’ın ilk açık ağırlıklı modeli
  • Temel yapı

    • Toplam 40 katman var; bunların 30’u sliding window attention, 10’u global/full attention
    • Sliding window katmanlarının pencere boyutu: 512 token
    • Sliding window + global karışımı deseninin kendisi Gemma 4 gibi başka mimarilerde de kullanılıyor
  • Yeni olan nokta: katmanlara göre sorgu başlığı sayısını farklılaştırmak

    • Hugging Face config.json içindeki num_attention_heads_per_layer ayarıyla her katman için farklı sorgu başlığı sayısı tanımlanabiliyor; KV önbellek şekli ise uyumlu kalıyor
    • Sliding window katmanları: KV başlığı başına 8 sorgu başlığı
    • Full attention katmanları: KV başlığı başına 6 sorgu başlığı
    • KV başlıklarının sayısı 8’de sabit
  • Tasarım amacı

    • Tüm katmanlara aynı attention bütçesini vermek yerine, attention kapasitesini daha yararlı yerlere yoğunlaştırmak
    • full-attention katmanları tüm bağlamı gördüğü için pahalı; bu yüzden onlara daha az sorgu başlığı atanıyor
  • Katmanlar arasında kapasite farklılaştırma fikri en azından Apple’ın 2024 tarihli OpenELM modeline kadar gidiyor; Laguna XS.2 ise bunu üretim düzeyindeki açık modeller arasında en dikkat çekici yeni örneklerden biri haline getiriyor
  • Ek olarak Laguna, başlık başına attention-output gating de uyguluyor (Qwen3-Next vb. ile benzer)

4. ZAYA1-8B: Compressed Convolutional Attention (CCA)

  • Zyphra tarafından geliştirilen açık ağırlıklı model; dikkat çekici yanı NVIDIA GPU veya Google TPU yerine AMD GPU üzerinde eğitilmiş olması
  • Yapı

    • config.json üzerinde dönüşümlü 80 katman girdisi bulunuyor; CCA/GQA attention ile MoE feedforward dönüşümlü geliyor (görsel olarak 40 attention+MoE çifti şeklinde ifade ediliyor)
    • 4:1 GQA düzeni ile birlikte CCA kullanılıyor
    • MoE çok seyrek bir kurulumda; token başına yönlendirilen expert’lerden yalnızca 1’i etkinleşiyor
  • CCA’nın özü

    • MLA’ye benzer şekilde attention bloğuna sıkıştırılmış gizil gösterim ekleniyor
    • Fark şu: MLA bu gizil gösterimi çoğunlukla KV önbelleğini küçültmek için kullanıyor; gerçek attention ise yeniden attention-head uzayına projekte edilerek yapılıyor
    • CCA’da Q, K ve V’nin tümü sıkıştırıldıktan sonra attention işlemi doğrudan sıkıştırılmış gizil uzayda yürütülüyor; ortaya çıkan attention vektörü sonra yeniden up-projection ile yükseltiliyor
    • Sonuç olarak yalnızca KV önbelleği değil, prefill ve eğitim sırasındaki attention FLOPs’u da azalıyor
  • Convolutional Mixing

    • "Convolutional" adı, sıkıştırılmış K ve Q gösterimlerine ek convolutional mixing eklenmesinden geliyor
    • Sıkıştırma, Q, K ve V’yi daraltarak hesaplamayı ve önbelleği azaltıyor; ancak attention ifade gücünü de düşürebiliyor
    • convolution, sıkıştırılmış Q ve K’ye yerel bağlamı düşük maliyetle eklemenin bir yolu
    • V’ye uygulanmıyor; çünkü Q ve K attention skorlarını belirlerken, V bu skorlarla ortalaması alınan içeriği taşıyor
    • Dizi karıştırmanın yanı sıra bir channel mixing bileşeni de bulunuyor
  • Performans

    • CCA, ZAYA1-8B teknik raporundan önce yayımlanan ayrı bir makalede, "Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space" (Ekim 2025) içinde tanıtıldı
    • CCA makalesindeki deneylere göre, aynı sıkıştırma ayarında MLA’den daha iyi sonuçlar bildiriliyor

5. DeepSeek V4: CSA/HCA, mHC ve Sıkıştırılmış Attention Önbelleği

  • DeepSeek V4, bu yıl hem en büyük yankıyı uyandıran hem de en büyük model ölçeğini gösteren sürüm oldu; DeepSeek V4-Pro, aktif parametre oranı açısından en seyrek MoE konumunda

  • Bu yazı, önceki mimariye kıyasla iki temel yeniliğe odaklanıyor

    • mHC: daha geniş residual yol
    • CSA/HCA: uzun bağlam attention’ını sıkıştırma ve seyrekleştirme
  • 5.1 Manifold-Constrained Hyper-Connections (mHC)

    • 31 Aralık 2025 tarihli DeepSeek ekibi makalesi "mHC: Manifold-Constrained Hyper-Connections" temel alınıyor; o sırada yalnızca 27B ölçekte denenmişti, ancak bu kez amiral gemisi modelde tam anlamıyla uygulanıyor
    • Amaç, transformer blokları içindeki residual bağlantı tasarımını modernize etmek; yani attention/normalization/MoE tarafındaki değişikliklerden farklı bir yönde ilerlemek
    • Hyper-Connections (HC) arka planı

      • Zhu et al. (2024) "Hyper-connections" çalışmasına dayanıyor
      • Tek residual stream, birden fazla paralel residual stream ve öğrenilmiş eşlemelerle değiştiriliyor
      • Attention ve MoE katmanlarının normal hidden size ile çalışabilmesi için Pre Mapping (paralel stream’ler → tek hidden vector) ve Post Mapping (katman çıktısı → paralel stream’lere dağıtım) ekleniyor
      • Böylece residual yol daha ifade gücü yüksek hale gelirken attention ve MoE’nin kendisi genişletilmiyor
      • 7B OLMo MoE deneylerinde token başına FLOPs 13.36G → 13.38G ile neredeyse değişmeden kalırken, baseline performansına yaklaşık yarı sayıda eğitim token’ıyla ulaşılıyor
    • HC → mHC değişiklikleri

      • Normal HC’deki Res Mapping öğrenilebilir bir matris ve çok sayıda katman boyunca sinyal büyütme/küçültme davranışı öngörülemez hale gelebiliyor
      • mHC, residual eşlemeyi doubly stochastic matrices manifold’una yansıtıyor — tüm girdiler negatif değil ve her satır ile sütunun toplamı 1
      • Böylece residual karışım, stream’ler arasında istikrarlı bilgi yeniden dağıtımı gibi davranıyor
      • Pre Mapping ve Post Mapping de negatif olmama ve sınırlı olma kısıtları altında; bu da genişletilmiş residual durumunu okuma/yazma sırasında iptali önlüyor
      • Özellikle daha derin modellerde kritik olan ölçekleme kararlılığı sağlanıyor
    • Maliyet

      • 27B model deneylerinde, DeepSeek ekibinin optimize edilmiş uygulamasıyla (fusion, recomputation, pipeline scheduling), n=4 residual stream kullanıldığında eğitim süresi ek yükü %6.7 oldu
  • 5.2 CSA ve HCA ile sıkıştırılmış attention

    • Çok uzun bağlamlarda yalnızca attention skoru hesaplamasının değil, dizi uzunluğuyla orantılı büyüyen KV önbelleğinin de çözülmesi amaçlanıyor
    • DeepSeek V4, iki sıkıştırılmış attention yaklaşımını hibrit biçimde kullanıyor: Compressed Sparse Attention (CSA) ve Heavily Compressed Attention (HCA)
    • MLA’den farkı

      • DeepSeek V2/V3’teki MLA, token başına KV gösterimini sıkıştırıyor ama her token için bir gizil KV girdisini koruyor
      • CSA/HCA ise dizi boyutu boyunca sıkıştırma yapıyor; birden fazla token grubunu daha az sayıda sıkıştırılmış KV girdisine özetliyor → böylece önbelleğin kendisi kısalıyor
      • Token düzeyindeki bilginin bir kısmından vazgeçme karşılığında uzun bağlam maliyeti büyük ölçüde düşüyor
    • CSA ve HCA karşılaştırması

      • CSA: daha düşük sıkıştırma oranı (m=4) + DeepSeek Sparse Attention (DSA) tarzı top-k seçim
      • HCA: daha yüksek sıkıştırma (m'=128, yani 128 token için 1 sıkıştırılmış KV girdisi) + kısalmış önbellek üzerinde dense attention
      • Her iki yaklaşım da yakın geçmişteki sıkıştırılmamış token’lar için 128 token’lık sliding window dalını koruyor
      • CSA ayrıntıyı daha fazla korurken seyrek seçim yapıyor; HCA ise giriş sayısını sert biçimde azaltıp dense attention’ı mümkün kılıyor → birbirini tamamladıkları için DeepSeek V4 bu iki katman türünü dönüşümlü yerleştiriyor
    • Verimlilik sonuçları (1M token bağlam, DeepSeek V3.2’ye kıyasla)

      • DeepSeek V4-Pro: tek token çıkarım FLOPs’u %27, KV önbellek boyutu %10
      • DeepSeek V4-Flash: FLOPs %10, KV önbellek boyutu %7
    • Değerlendirme açısından dikkat noktaları

      • CSA/HCA’nın MLA’den genel olarak "daha iyi" olduğunu kesin biçimde söylemek zor; bu yaklaşım uzun bağlam için daha agresif ve daha karmaşık bir tasarım
      • Makalede ablation study yok
      • DeepSeek V4-Flash-Base pek çok base benchmark’ta V3.2-Base’i geçiyor ve 1M token retrieval testinde güçlü sonuç veriyor; ancak bu, daha iyi veri, Muon tabanlı optimizasyon, mHC, hassasiyet/depolama optimizasyonu ve eğitim/çıkarım sistemi değişikliklerini içeren genel reçetenin sonucu

6. Sonuç

  • Bu yıl çıkan yeni açık ağırlıklı modellerde ortak desen, toplam parametre sayısını azaltmadan uzun bağlamlı çıkarım maliyetini düşürmek
    • Gemma 4: cross-layer KV sharing ile KV önbelleğini küçültme, per-layer embeddings ile kapasite ekleme
    • Laguna XS.2: katman bazında attention kapasitesini farklılaştırma
    • ZAYA1-8B: attention’ı sıkıştırılmış gizil uzaya taşıma
    • DeepSeek V4: kısıtlanmış residual stream karışımı + sıkıştırılmış uzun bağlam attention’ı
  • Transformer blokları hâlâ değişiyor, ancak hedefi net olan değişikliklerle; temel omurga ise GPT tarzı decoder-only mimari olarak korunuyor
  • Nitel modelleme performansını esas olarak veri kalitesi/miktarı ve eğitim reçetesi sürüklüyor
  • Şu ana kadar transformer, SOTA mimarilerdeki statükoyu koruyor; diffusion modelleri gibi alternatifler olsa da
  • Temel transformer blokları eskiden PyTorch ile 50–100 satırda uygulanabilirken, son attention varyasyonlarıyla birlikte kod karmaşıklığı yaklaşık 10 kat artmış durumda
  • Karmaşıklığın artması, çalışma zamanı maliyetini azalttığı için bütünüyle olumsuz sayılmaz; ancak tek tek bileşenleri ve etkileşimlerini açık biçimde anlamak giderek zorlaşıyor
  • Öğrenmek için önerilen yaklaşım: orijinal decoder tarzı LLM’den (GPT/GPT-2) başlayıp yeni bileşenleri tek tek ekleyerek ilerlemek

Henüz yorum yok.

Henüz yorum yok.