FlexGen - ChatGPT benzeri LLM'leri tek GPU'da çalıştırmak

xguru · 2023-02-22T10:16:02+09:00

16GB T4 / 24GB RTX3090 gibi sınırlı GPU ortamlarında LLM'leri çalıştırmak için yüksek performanslı üretim motoru Yaklaşık 100 kata varan son derece hızlı offloading ile 175B modeli tek GPU'da çalıştırabilir Parametreleri ve attention cache'i mümkün olduğunca sıkıştırır (doğruluk kaybı neredeyse olmadan 4 bit'e kadar düşürür) Dağıtık paralel çalışma zamanı sayesinde GPU eklendiğinde kolayca ölçeklenebilir

(github.com/FMInference)

14 puan yazan xguru 2023-02-22 | Henüz yorum yok. | WhatsApp'ta paylaş

16GB T4 / 24GB RTX3090 gibi sınırlı GPU ortamlarında LLM'leri çalıştırmak için yüksek performanslı üretim motoru
Yaklaşık 100 kata varan son derece hızlı offloading ile 175B modeli tek GPU'da çalıştırabilir
Parametreleri ve attention cache'i mümkün olduğunca sıkıştırır (doğruluk kaybı neredeyse olmadan 4 bit'e kadar düşürür)
Dağıtık paralel çalışma zamanı sayesinde GPU eklendiğinde kolayca ölçeklenebilir

FlexGen - ChatGPT benzeri LLM'leri tek GPU'da çalıştırmak

İlgili okumalar

Henüz yorum yok.