14 puan yazan darjeeling 2025-09-02 | 1 yorum | WhatsApp'ta paylaş

Ayrıntılar için url bağlantısına bakabilirsiniz. Bu bir özet sürümüdür.

LLM (büyük dil modeli) servislerinin temel zorluğu, KV cache (Key-Value Cache) belleğini verimli biçimde yönetmektir. Mevcut sistemler, bellek parçalanması (fragmentation) sorunları nedeniyle GPU kullanım oranının düşmesi ve verimin sınırlanması gibi kısıtlara sahipti.

vLLM, işletim sistemlerindeki sanal bellek ve paging tekniklerinden ilham alan PagedAttention algoritmasıyla bu sorunu çözüyor. PagedAttention, KV cache'i fiziksel olarak bitişik olmayan 'bloklar' halinde bölüp yönettiği için bellek israfını çarpıcı biçimde azaltıyor ve esnek bellek tahsisini mümkün kılıyor.

vLLM, bu PagedAttention temeli üzerinde aşağıdaki çekirdek teknolojileri hayata geçirerek çıkarım performansını en üst düzeye çıkarıyor.

  • Sürekli batchleme (Continuous Batching): İstekler gelir gelmez batch'e eklenir, tamamlanan diziler ise batch'ten çıkarılır. Bu dinamik yaklaşım GPU'nun boşta kalma süresini en aza indirir ve geleneksel statik batchleme yöntemine kıyasla verimi 24 kata kadar artırır.

  • Gelişmiş çıkarım özellikleri desteği: vLLM, PagedAttention'ın esnekliğini kullanarak aşağıdaki çeşitli gelişmiş özellikleri verimli biçimde destekler.

    • Chunk tabanlı prefill (Chunked Prefill): Uzun prompt'ların prefill aşamasını birden çok chunk'a bölerek tek bir isteğin sistemi tek başına meşgul etmesini önler ve diğer isteklerin gecikmesini iyileştirir.
    • Prefix caching: Birden çok istekte ortak kullanılan prompt prefix'leri için KV cache'i yeniden hesaplamadan paylaşarak yinelenen hesaplamaları ortadan kaldırır.
    • Guided ve speculative decoding: Çıktının belirli bir biçimi (ör. JSON) izlemesini sağlama veya daha küçük bir taslak model kullanarak üretimi hızlandırma gibi teknikleri destekler.
    • Ayrıştırılmış prefill/decoding: Hesaplama yoğun prefill aşaması ile bellek bant genişliği yoğun decoding aşamasını ayrı instance'larda çalıştırarak kaynak kullanımını optimize eder.

Sonuç olarak vLLM, PagedAttention ile KV cache yönetimindeki temel verimsizlikleri gideriyor ve bunun üzerine sürekli batchleme gibi optimizasyon tekniklerini uygulayarak LLM çıkarım sistemlerinin verimini ve performansını yükseltiyor.

1 yorum

 
doolayer 2025-09-02

PagedAttention'ın bellek yönetimi sınırlamalarını tamamlamak için vAttention önerildi.
İlgili makaleye buradan ulaşabilirsiniz: https://arxiv.org/pdf/2405.04437