llama.cpp’ye tam CUDA GPU hızlandırması eklendi

xguru · 2023-06-14T10:46:02+09:00

Kalan tüm ggml tensörlerine GPU hızlandırması ekleyen bir PR RTX 3090’da prompt işleme 2 kat, token üretimi ise 1,3 ila 1,8 kat hızlandı 4090+i9’da 7B q4 modelinde saniyede 109 token üretimi

(github.com/ggerganov)

8 puan yazan xguru 2023-06-14 | Henüz yorum yok. | WhatsApp'ta paylaş

Kalan tüm ggml tensörlerine GPU hızlandırması ekleyen bir PR
RTX 3090’da prompt işleme 2 kat, token üretimi ise 1,3 ila 1,8 kat hızlandı
4090+i9’da 7B q4 modelinde saniyede 109 token üretimi

llama.cpp’ye tam CUDA GPU hızlandırması eklendi

İlgili okumalar

Henüz yorum yok.