Llama.cpp'de model ağırlığı yükleme hızı 10~100 kat iyileştirildi

xguru · 2023-04-03T10:03:01+09:00

Dosya formatındaki değişiklik sayesinde read() olmadan mmap() mümkün hale geldi ve ağırlık yükleme hızı 10~100 kat arttı Tek dosyalı 7B ve çok dosyalı 13B gibi modeller de desteklenmeye başladı; ayrıca yükleme kodu çok daha sade hale geldi Ayrıca bu değişiklikle birlikte tensörler 32 bayt sınırına hizalanıyor; bu da belirli işlemcilerde ek performans artışı sağlayabilir

(github.com/ggerganov)

13 puan yazan xguru 2023-04-03 | 1 yorum | WhatsApp'ta paylaş

Dosya formatındaki değişiklik sayesinde read() olmadan mmap() mümkün hale geldi ve ağırlık yükleme hızı 10~100 kat arttı
Tek dosyalı 7B ve çok dosyalı 13B gibi modeller de desteklenmeye başladı; ayrıca yükleme kodu çok daha sade hale geldi
Ayrıca bu değişiklikle birlikte tensörler 32 bayt sınırına hizalanıyor; bu da belirli işlemcilerde ek performans artışı sağlayabilir

1 yorum

xguru 2023-04-03

LLaMA - Meta'nın yayımladığı 65b parametreli LLM
llama.cpp - Facebook'un LLaMA modelini saf C/C++ ile çıkarım çalıştırmak

Llama.cpp'de model ağırlığı yükleme hızı 10~100 kat iyileştirildi

İlgili okumalar

1 yorum