FlexGen - ChatGPT benzeri LLM'leri tek GPU'da çalıştırmak
(github.com/FMInference)- 16GB T4 / 24GB RTX3090 gibi sınırlı GPU ortamlarında LLM'leri çalıştırmak için yüksek performanslı üretim motoru
- Yaklaşık 100 kata varan son derece hızlı offloading ile 175B modeli tek GPU'da çalıştırabilir
- Parametreleri ve attention cache'i mümkün olduğunca sıkıştırır (doğruluk kaybı neredeyse olmadan 4 bit'e kadar düşürür)
- Dağıtık paralel çalışma zamanı sayesinde GPU eklendiğinde kolayca ölçeklenebilir
Henüz yorum yok.