- LLM'ler oldukça fazla bellek ve hesaplama kaynağı gerektirir
- DeepSpeed'in ZeRO ailesi bu soruna çözüm sunarak TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1 gibi modellerde kullanıldı
- Ancak çok sayıda GPU'nun kullanıldığı büyük ölçekli senaryolarda, GPU'lar arasında sık iletişim gereksinimi gibi ek yükler ortaya çıkar
- ZeRO++ bu tür durumlar için, model kalitesini etkilemeden toplam iletişim hacmini 4 kat azaltır
- Büyük ölçekli model ön eğitimi ve ince ayarı hızlandırır
- GPU başına küçük batch size: ZeRO'ya kıyasla 2,2 kat throughput
- Düşük bant genişliğine sahip kümelerde bile 4 kat bant genişliğine benzer işleme
- RLHF kullanan ChatGPT benzeri modelleri de hızlandırır
Henüz yorum yok.