9 puan yazan skyline23 15 일 전 | 2 yorum | WhatsApp'ta paylaş

CASK, LLM çıkarım sürecinde ortaya çıkan KV cache büyümesi sorununu çözmek için
mevcut token importance tabanlı budama yaklaşımı yerine,
yapısal (role-based) bir yaklaşım öneren bir makale.

Bu çalışma, yalnızca 5 gün içinde ortaya çıkarılmış olması ve danışman profesör olmadan yürütülen 2 bağımsız araştırmacının çalışması olması açısından da dikkat çekiyor.


📌 Problem tanımı

Uzun chain-of-thought çıkarımı sırasında KV cache hızla büyüyor ve bu da:

  • bellek kullanımında ani artış
  • çıkarım gecikmesinde artış
  • uzun süreli reasoning performansında düşüş

Mevcut yaklaşım:

  • token importance scoring tabanlı
  • düşük puanlı token’ları eviction ile çıkarma

❌ Mevcut yaklaşımın sınırları

Makaledeki deney sonuçlarına göre:

  • importance scoring ne kadar incelikli iyileştirilirse iyileştirilsin
    → gerçekte korunan token kümesindeki değişim sınırlı kalıyor

Yani,

  • yalnızca eviction stratejisini iyileştirmekle
    performans ve verimlilik artışında bir sınıra takılınıyor

🔥 Temel fikir

CASK, token’ları önem derecesine göre değil rollerine göre ayırıyor.

Core

  • nihai çıktının üretilmesine doğrudan katkı sağlar
  • reasoning’in temel durumunu oluşturur
  • her zaman korunur

Scratch

  • ara hesaplamalar ve keşif sürecinde oluşan durumlar
  • yinelenen ve gereksiz bilgiler içerebilir
  • sıkıştırma ve birleştirme hedefidir

⚙️ Çalışma şekli

Prefix Phase

  • giriş (prompt) bölümü
  • kısmi KV eviction uygulanır

Decode Phase

  • çıkarımın ilerlediği bölüm
  • yalnızca Scratch alanına seçici sıkıştırma uygulanır

👉 Mevcut yaklaşıma göre farkı:

  • basit silme → seçici koruma + yapısal sıkıştırma

📊 Performans

Makaledeki sonuçlara göre:

  • mevcut KV sıkıştırma tekniklerine kıyasla
    %25’e kadar ek bellek tasarrufu

  • aynı KV cache bütçesinde
    → daha yüksek doğruluk korunuyor

  • bazı aralıklarda
    daha az KV cache ile daha yüksek performans elde ediliyor

Örnek:

  • CASK (KV 384) > mevcut yaklaşım (KV 512)

👉 Bellek kullanımını azaltırken performansı da aynı anda artırıyor


📌 Teknik özellikler

  • token-level pruning → structure-aware compression
  • eviction odaklı yaklaşım → preserve + reuse stratejisi
  • reasoning sürecinde bilgi yeniden kullanımını güçlendirir

📌 Anlamı

CASK, KV cache optimizasyonunu

  • “ne kadarını atacağız?” yaklaşımından
  • “neyi mutlaka korumalıyız?” yaklaşımına taşıyor

Bu da önemli bir bakış açısı değişimi sunuyor.


🚀 Özet

  • KV cache’te %25’e kadar ek tasarruf
  • aynı ya da daha yüksek çıkarım performansı
  • yapı temelli KV yönetimi yaklaşımı sunuyor

2 yorum

 
wogns3623 14 일 전

Makale yazımında ai kullandıysanız bunu nasıl kullandığınızı merak ediyorum. Fikir aşamasından deneylere kadar her şeyin 5 günde ilerlediği kısmı etkileyici geldiği için sormak istedim.

 
skyline23 15 일 전

Düzenlenemediği için ek olarak bırakıyorum!