Mevcut KV sıkıştırma tekniklerine kıyasla %25’e kadar ek tasarruf, üstelik performans daha da iyi — CASK
(arxiv.org)CASK, LLM çıkarım sürecinde ortaya çıkan KV cache büyümesi sorununu çözmek için
mevcut token importance tabanlı budama yaklaşımı yerine,
yapısal (role-based) bir yaklaşım öneren bir makale.
Bu çalışma, yalnızca 5 gün içinde ortaya çıkarılmış olması ve danışman profesör olmadan yürütülen 2 bağımsız araştırmacının çalışması olması açısından da dikkat çekiyor.
📌 Problem tanımı
Uzun chain-of-thought çıkarımı sırasında KV cache hızla büyüyor ve bu da:
- bellek kullanımında ani artış
- çıkarım gecikmesinde artış
- uzun süreli reasoning performansında düşüş
Mevcut yaklaşım:
- token importance scoring tabanlı
- düşük puanlı token’ları eviction ile çıkarma
❌ Mevcut yaklaşımın sınırları
Makaledeki deney sonuçlarına göre:
- importance scoring ne kadar incelikli iyileştirilirse iyileştirilsin
→ gerçekte korunan token kümesindeki değişim sınırlı kalıyor
Yani,
- yalnızca eviction stratejisini iyileştirmekle
performans ve verimlilik artışında bir sınıra takılınıyor
🔥 Temel fikir
CASK, token’ları önem derecesine göre değil rollerine göre ayırıyor.
Core
- nihai çıktının üretilmesine doğrudan katkı sağlar
- reasoning’in temel durumunu oluşturur
- her zaman korunur
Scratch
- ara hesaplamalar ve keşif sürecinde oluşan durumlar
- yinelenen ve gereksiz bilgiler içerebilir
- sıkıştırma ve birleştirme hedefidir
⚙️ Çalışma şekli
Prefix Phase
- giriş (prompt) bölümü
- kısmi KV eviction uygulanır
Decode Phase
- çıkarımın ilerlediği bölüm
- yalnızca Scratch alanına seçici sıkıştırma uygulanır
👉 Mevcut yaklaşıma göre farkı:
- basit silme → seçici koruma + yapısal sıkıştırma
📊 Performans
Makaledeki sonuçlara göre:
-
mevcut KV sıkıştırma tekniklerine kıyasla
→ %25’e kadar ek bellek tasarrufu -
aynı KV cache bütçesinde
→ daha yüksek doğruluk korunuyor -
bazı aralıklarda
→ daha az KV cache ile daha yüksek performans elde ediliyor
Örnek:
- CASK (KV 384) > mevcut yaklaşım (KV 512)
👉 Bellek kullanımını azaltırken performansı da aynı anda artırıyor
📌 Teknik özellikler
- token-level pruning → structure-aware compression
- eviction odaklı yaklaşım → preserve + reuse stratejisi
- reasoning sürecinde bilgi yeniden kullanımını güçlendirir
📌 Anlamı
CASK, KV cache optimizasyonunu
- “ne kadarını atacağız?” yaklaşımından
- “neyi mutlaka korumalıyız?” yaklaşımına taşıyor
Bu da önemli bir bakış açısı değişimi sunuyor.
🚀 Özet
- KV cache’te %25’e kadar ek tasarruf
- aynı ya da daha yüksek çıkarım performansı
- yapı temelli KV yönetimi yaklaşımı sunuyor
2 yorum
Makale yazımında
aikullandıysanız bunu nasıl kullandığınızı merak ediyorum. Fikir aşamasından deneylere kadar her şeyin 5 günde ilerlediği kısmı etkileyici geldiği için sormak istedim.Düzenlenemediği için ek olarak bırakıyorum!
Makale bağlantısı
https://arxiv.org/abs/2604.10900
GitHub bağlantısı
https://github.com/Skyline-23/CASK