PowerInfer - Tüketici sınıfı GPU kullanarak LLM’leri hızlı şekilde sunmak

xguru · 2023-12-21T10:51:02+09:00

RTX 4090(24G) üzerinde Falcon(ReLU)-40B-FP16 çalıştırıldığında llama.cpp'den 11 kat daha hızlı Cihazın Activation Locality özelliğinden yararlanan CPU/GPU hibrit LLM çıkarım motoru Tutarlı biçimde etkinleşen bazı sıcak nöronlar ve belirli girdilere göre değişen çoğu soğuk nöron olarak ayrılıyor Sıcak nöronlar hızlı etkinleşme için önceden GPU’ya yükleniyor, soğuk nöronlar ise CPU’da hesaplanarak GPU bellek gereksinimi ve CPU-GPU veri aktarımı büyük ölçüde azaltılıyor Uyarlanabilir kestirici ve nöron farkındalıklı seyrek operatörleri birleştirerek nöron etkinleşmesi ve hesaplama seyrekliğinin verimliliğini optimize ediyor Tek bir NVIDIA RTX 4090 GPU üzerinde çeşitli LLM’lerde (OPT-175B dahil) ortalama 13.20 token/saniye, en yüksek 29.08 token/saniye üretim hızına ulaşıyor Bu, üst düzey sunucu sınıfı A100 GPU’nun elde ettiğinden yalnızca %18 daha düşük Model doğruluğunu korurken llama.cpp performansını en fazla 11.69 kata kadar belirgin biçimde aşıyor

(github.com/SJTU-IPADS)

16 puan yazan xguru 2023-12-21 | 1 yorum | WhatsApp'ta paylaş

RTX 4090(24G) üzerinde Falcon(ReLU)-40B-FP16 çalıştırıldığında llama.cpp'den 11 kat daha hızlı
Cihazın Activation Locality özelliğinden yararlanan CPU/GPU hibrit LLM çıkarım motoru
- Tutarlı biçimde etkinleşen bazı sıcak nöronlar ve belirli girdilere göre değişen çoğu soğuk nöron olarak ayrılıyor
- Sıcak nöronlar hızlı etkinleşme için önceden GPU’ya yükleniyor, soğuk nöronlar ise CPU’da hesaplanarak GPU bellek gereksinimi ve CPU-GPU veri aktarımı büyük ölçüde azaltılıyor
Uyarlanabilir kestirici ve nöron farkındalıklı seyrek operatörleri birleştirerek nöron etkinleşmesi ve hesaplama seyrekliğinin verimliliğini optimize ediyor
Tek bir NVIDIA RTX 4090 GPU üzerinde çeşitli LLM’lerde (OPT-175B dahil) ortalama 13.20 token/saniye, en yüksek 29.08 token/saniye üretim hızına ulaşıyor
- Bu, üst düzey sunucu sınıfı A100 GPU’nun elde ettiğinden yalnızca %18 daha düşük
- Model doğruluğunu korurken llama.cpp performansını en fazla 11.69 kata kadar belirgin biçimde aşıyor

1 yorum

cosine20 2023-12-28

4090 teknik olarak tüketici sınıfı sayılıyor tabii, haha.....

PowerInfer - Tüketici sınıfı GPU kullanarak LLM’leri hızlı şekilde sunmak

İlgili okumalar

1 yorum