- Hızlı LLM çıkarımı ve sunumu için açık kaynak bir kütüphane
- Attention anahtar/değerlerini PagedAttention algoritmasıyla verimli şekilde yönetir
- Model mimarisini değiştirmeden HuggingFace Transformers'a kıyasla 24 kat daha yüksek çıktı işleme kapasitesi
- Süreksiz bellek alanlarında ardışık anahtar/değerler depolanabilir
- LMSYS Vicuna ve Chatbot Arena'da başarıyla kullanılıyor
Henüz yorum yok.