14 puan yazan xguru 2023-02-22 | Henüz yorum yok. | WhatsApp'ta paylaş
  • 16GB T4 / 24GB RTX3090 gibi sınırlı GPU ortamlarında LLM'leri çalıştırmak için yüksek performanslı üretim motoru
  • Yaklaşık 100 kata varan son derece hızlı offloading ile 175B modeli tek GPU'da çalıştırabilir
  • Parametreleri ve attention cache'i mümkün olduğunca sıkıştırır (doğruluk kaybı neredeyse olmadan 4 bit'e kadar düşürür)
  • Dağıtık paralel çalışma zamanı sayesinde GPU eklendiğinde kolayca ölçeklenebilir

Henüz yorum yok.

Henüz yorum yok.