DeepSpeed ZeRO++: İletişim miktarını 4 kat azaltırken LLM ve sohbet modeli eğitimi hızında çığır açan artış

xguru · 2023-06-28T10:03:01+09:00

LLM'ler oldukça fazla bellek ve hesaplama kaynağı gerektirir DeepSpeed'in ZeRO ailesi bu soruna çözüm sunarak TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1 gibi modellerde kullanıldı Ancak çok sayıda GPU'nun kullanıldığı büyük ölçekli senaryolarda, GPU'lar arasında sık iletişim gereksinimi gibi ek yükler ortaya çıkar ZeRO++ bu tür durumlar için, model kalitesini etkilemeden toplam iletişim hacmini 4 kat azaltır Büyük ölçekli model ön eğitimi ve ince ayarı hızlandırır GPU başına küçük batch size: ZeRO'ya kıyasla 2,2 kat throughput Düşük bant genişliğine sahip kümelerde bile 4 kat bant genişliğine benzer işleme RLHF kullanan ChatGPT benzeri modelleri de hızlandırır

(microsoft.com)

10 puan yazan xguru 2023-06-28 | Henüz yorum yok. | WhatsApp'ta paylaş

LLM'ler oldukça fazla bellek ve hesaplama kaynağı gerektirir
DeepSpeed'in ZeRO ailesi bu soruna çözüm sunarak TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1 gibi modellerde kullanıldı
Ancak çok sayıda GPU'nun kullanıldığı büyük ölçekli senaryolarda, GPU'lar arasında sık iletişim gereksinimi gibi ek yükler ortaya çıkar
ZeRO++ bu tür durumlar için, model kalitesini etkilemeden toplam iletişim hacmini 4 kat azaltır
- Büyük ölçekli model ön eğitimi ve ince ayarı hızlandırır
  - GPU başına küçük batch size: ZeRO'ya kıyasla 2,2 kat throughput
  - Düşük bant genişliğine sahip kümelerde bile 4 kat bant genişliğine benzer işleme
- RLHF kullanan ChatGPT benzeri modelleri de hızlandırır

DeepSpeed ZeRO++: İletişim miktarını 4 kat azaltırken LLM ve sohbet modeli eğitimi hızında çığır açan artış

İlgili okumalar

Henüz yorum yok.