8 puan yazan xguru 2023-06-23 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Hızlı LLM çıkarımı ve sunumu için açık kaynak bir kütüphane
  • Attention anahtar/değerlerini PagedAttention algoritmasıyla verimli şekilde yönetir
    • Model mimarisini değiştirmeden HuggingFace Transformers'a kıyasla 24 kat daha yüksek çıktı işleme kapasitesi
    • Süreksiz bellek alanlarında ardışık anahtar/değerler depolanabilir
  • LMSYS Vicuna ve Chatbot Arena'da başarıyla kullanılıyor

Henüz yorum yok.

Henüz yorum yok.