DeepSpeed Ulysses: Uzun Sekanslı Transformer Model Eğitimi için Sistem Optimizasyonu

xguru · 2023-08-31T11:03:01+09:00

Mevcut sistemlere kıyasla 4 kat daha uzun sekans uzunluğu sunar; bir milyondan fazla token içeren sekanslarla eğitim yapılabilir İletişim 10 kattan fazla azaltılarak throughput en fazla 2,5 kat artırılır. Throughput 175 TFlops/GPU üzerinde korunur Tamamen genel ve uygulamadan bağımsız Attention (FlashAttention 2 gibi uygulamalarla da çalışır) Büyük ölçekli model eğitimini destekler: ZeRO-3 ile birlikte çalışarak büyük sekans/model boyutlarını destekler Kullanımı kolay ve taşınabilirliği yüksektir; mevcut framework'lerde minimum değişiklik gerektirir

(github.com/microsoft)

5 puan yazan xguru 2023-08-31 | Henüz yorum yok. | WhatsApp'ta paylaş

Mevcut sistemlere kıyasla 4 kat daha uzun sekans uzunluğu sunar; bir milyondan fazla token içeren sekanslarla eğitim yapılabilir
İletişim 10 kattan fazla azaltılarak throughput en fazla 2,5 kat artırılır. Throughput 175 TFlops/GPU üzerinde korunur
Tamamen genel ve uygulamadan bağımsız Attention (FlashAttention 2 gibi uygulamalarla da çalışır)
Büyük ölçekli model eğitimini destekler: ZeRO-3 ile birlikte çalışarak büyük sekans/model boyutlarını destekler
Kullanımı kolay ve taşınabilirliği yüksektir; mevcut framework'lerde minimum değişiklik gerektirir

DeepSpeed Ulysses: Uzun Sekanslı Transformer Model Eğitimi için Sistem Optimizasyonu

İlgili okumalar

Henüz yorum yok.