- RTX 4090(24G) üzerinde Falcon(ReLU)-40B-FP16 çalıştırıldığında
llama.cpp'den 11 kat daha hızlı
- Cihazın Activation Locality özelliğinden yararlanan CPU/GPU hibrit LLM çıkarım motoru
- Tutarlı biçimde etkinleşen bazı sıcak nöronlar ve belirli girdilere göre değişen çoğu soğuk nöron olarak ayrılıyor
- Sıcak nöronlar hızlı etkinleşme için önceden GPU’ya yükleniyor, soğuk nöronlar ise CPU’da hesaplanarak GPU bellek gereksinimi ve CPU-GPU veri aktarımı büyük ölçüde azaltılıyor
- Uyarlanabilir kestirici ve nöron farkındalıklı seyrek operatörleri birleştirerek nöron etkinleşmesi ve hesaplama seyrekliğinin verimliliğini optimize ediyor
- Tek bir NVIDIA RTX 4090 GPU üzerinde çeşitli LLM’lerde (OPT-175B dahil) ortalama 13.20 token/saniye, en yüksek 29.08 token/saniye üretim hızına ulaşıyor
- Bu, üst düzey sunucu sınıfı A100 GPU’nun elde ettiğinden yalnızca %18 daha düşük
- Model doğruluğunu korurken
llama.cpp performansını en fazla 11.69 kata kadar belirgin biçimde aşıyor
1 yorum
4090 teknik olarak tüketici sınıfı sayılıyor tabii, haha.....