16 puan yazan xguru 2023-12-21 | 1 yorum | WhatsApp'ta paylaş
  • RTX 4090(24G) üzerinde Falcon(ReLU)-40B-FP16 çalıştırıldığında llama.cpp'den 11 kat daha hızlı
  • Cihazın Activation Locality özelliğinden yararlanan CPU/GPU hibrit LLM çıkarım motoru
    • Tutarlı biçimde etkinleşen bazı sıcak nöronlar ve belirli girdilere göre değişen çoğu soğuk nöron olarak ayrılıyor
    • Sıcak nöronlar hızlı etkinleşme için önceden GPU’ya yükleniyor, soğuk nöronlar ise CPU’da hesaplanarak GPU bellek gereksinimi ve CPU-GPU veri aktarımı büyük ölçüde azaltılıyor
  • Uyarlanabilir kestirici ve nöron farkındalıklı seyrek operatörleri birleştirerek nöron etkinleşmesi ve hesaplama seyrekliğinin verimliliğini optimize ediyor
  • Tek bir NVIDIA RTX 4090 GPU üzerinde çeşitli LLM’lerde (OPT-175B dahil) ortalama 13.20 token/saniye, en yüksek 29.08 token/saniye üretim hızına ulaşıyor
    • Bu, üst düzey sunucu sınıfı A100 GPU’nun elde ettiğinden yalnızca %18 daha düşük
    • Model doğruluğunu korurken llama.cpp performansını en fazla 11.69 kata kadar belirgin biçimde aşıyor

1 yorum

 
cosine20 2023-12-28

4090 teknik olarak tüketici sınıfı sayılıyor tabii, haha.....