10 puan yazan xguru 2023-06-28 | Henüz yorum yok. | WhatsApp'ta paylaş
  • LLM'ler oldukça fazla bellek ve hesaplama kaynağı gerektirir
  • DeepSpeed'in ZeRO ailesi bu soruna çözüm sunarak TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1 gibi modellerde kullanıldı
  • Ancak çok sayıda GPU'nun kullanıldığı büyük ölçekli senaryolarda, GPU'lar arasında sık iletişim gereksinimi gibi ek yükler ortaya çıkar
  • ZeRO++ bu tür durumlar için, model kalitesini etkilemeden toplam iletişim hacmini 4 kat azaltır
    • Büyük ölçekli model ön eğitimi ve ince ayarı hızlandırır
      • GPU başına küçük batch size: ZeRO'ya kıyasla 2,2 kat throughput
      • Düşük bant genişliğine sahip kümelerde bile 4 kat bant genişliğine benzer işleme
    • RLHF kullanan ChatGPT benzeri modelleri de hızlandırır

Henüz yorum yok.

Henüz yorum yok.