llama.cpp’ye tam CUDA GPU hızlandırması eklendi
(github.com/ggerganov)- Kalan tüm ggml tensörlerine GPU hızlandırması ekleyen bir PR
- RTX 3090’da prompt işleme 2 kat, token üretimi ise 1,3 ila 1,8 kat hızlandı
- 4090+i9’da 7B q4 modelinde saniyede 109 token üretimi
Henüz yorum yok.