Mevcut KV sıkıştırma tekniklerine kıyasla %25’e kadar ek tasarruf, üstelik performans daha da iyi — CASK

(arxiv.org)

9 puan yazan skyline23 15 일 전 | 2 yorum | WhatsApp'ta paylaş

CASK, LLM çıkarım sürecinde ortaya çıkan KV cache büyümesi sorununu çözmek için
mevcut token importance tabanlı budama yaklaşımı yerine,
yapısal (role-based) bir yaklaşım öneren bir makale.

Bu çalışma, yalnızca 5 gün içinde ortaya çıkarılmış olması ve danışman profesör olmadan yürütülen 2 bağımsız araştırmacının çalışması olması açısından da dikkat çekiyor.

📌 Problem tanımı

Uzun chain-of-thought çıkarımı sırasında KV cache hızla büyüyor ve bu da:

bellek kullanımında ani artış
çıkarım gecikmesinde artış
uzun süreli reasoning performansında düşüş

Mevcut yaklaşım:

token importance scoring tabanlı
düşük puanlı token’ları eviction ile çıkarma

❌ Mevcut yaklaşımın sınırları

Makaledeki deney sonuçlarına göre:

importance scoring ne kadar incelikli iyileştirilirse iyileştirilsin
→ gerçekte korunan token kümesindeki değişim sınırlı kalıyor

Yani,

yalnızca eviction stratejisini iyileştirmekle
performans ve verimlilik artışında bir sınıra takılınıyor

🔥 Temel fikir

CASK, token’ları önem derecesine göre değil rollerine göre ayırıyor.

Core

nihai çıktının üretilmesine doğrudan katkı sağlar
reasoning’in temel durumunu oluşturur
her zaman korunur

Scratch

ara hesaplamalar ve keşif sürecinde oluşan durumlar
yinelenen ve gereksiz bilgiler içerebilir
sıkıştırma ve birleştirme hedefidir

⚙️ Çalışma şekli

Prefix Phase

giriş (prompt) bölümü
kısmi KV eviction uygulanır

Decode Phase

çıkarımın ilerlediği bölüm
yalnızca Scratch alanına seçici sıkıştırma uygulanır

👉 Mevcut yaklaşıma göre farkı:

basit silme → seçici koruma + yapısal sıkıştırma

📊 Performans

Makaledeki sonuçlara göre:

mevcut KV sıkıştırma tekniklerine kıyasla
→ %25’e kadar ek bellek tasarrufu
aynı KV cache bütçesinde
→ daha yüksek doğruluk korunuyor
bazı aralıklarda
→ daha az KV cache ile daha yüksek performans elde ediliyor

Örnek:

CASK (KV 384) > mevcut yaklaşım (KV 512)

👉 Bellek kullanımını azaltırken performansı da aynı anda artırıyor

📌 Teknik özellikler

token-level pruning → structure-aware compression
eviction odaklı yaklaşım → preserve + reuse stratejisi
reasoning sürecinde bilgi yeniden kullanımını güçlendirir

📌 Anlamı

CASK, KV cache optimizasyonunu

“ne kadarını atacağız?” yaklaşımından
“neyi mutlaka korumalıyız?” yaklaşımına taşıyor

Bu da önemli bir bakış açısı değişimi sunuyor.

🚀 Özet

KV cache’te %25’e kadar ek tasarruf
aynı ya da daha yüksek çıkarım performansı
yapı temelli KV yönetimi yaklaşımı sunuyor

2 yorum

wogns3623 14 일 전

Makale yazımında ai kullandıysanız bunu nasıl kullandığınızı merak ediyorum. Fikir aşamasından deneylere kadar her şeyin 5 günde ilerlediği kısmı etkileyici geldiği için sormak istedim.

skyline23 15 일 전

Düzenlenemediği için ek olarak bırakıyorum!

Makale bağlantısı
https://arxiv.org/abs/2604.10900
GitHub bağlantısı
https://github.com/Skyline-23/CASK