Llama.cpp'de model ağırlığı yükleme hızı 10~100 kat iyileştirildi
(github.com/ggerganov)- Dosya formatındaki değişiklik sayesinde
read()olmadanmmap()mümkün hale geldi ve ağırlık yükleme hızı 10~100 kat arttı - Tek dosyalı 7B ve çok dosyalı 13B gibi modeller de desteklenmeye başladı; ayrıca yükleme kodu çok daha sade hale geldi
- Ayrıca bu değişiklikle birlikte tensörler 32 bayt sınırına hizalanıyor; bu da belirli işlemcilerde ek performans artışı sağlayabilir
1 yorum
LLaMA - Meta'nın yayımladığı 65b parametreli LLM
llama.cpp - Facebook'un LLaMA modelini saf C/C++ ile çıkarım çalıştırmak