llama.cpp - Facebook'un LLaMA modelini saf C/C++ ile çalıştırma
(github.com/ggerganov)- Amaç, LLaMA modelini MacBook'ta 4-bit kuantizasyon ile çalıştırmak
- Bağımlılığı olmayan saf C/C++ uygulaması
- Arm Neon/Accelerate framework'üne optimize edilmiş (Apple Silicon)
- x86 için AVX2 desteği
- Karma F16/F32 hassasiyeti
- 4-bit kuantizasyon desteği
- CPU üzerinde çalışır
- Şu anda yalnızca Mac/Linux destekleniyor. Windows desteği planlanıyor
1 yorum
7B modeli denedim, beklediğimden daha iyi çalışıyor.