15 puan yazan ninebow 2023-09-10 | Henüz yorum yok. | WhatsApp'ta paylaş

Son birkaç yılda GPU hızı patlayıcı biçimde artarken, derin öğrenme iş yüklerini optimize etme yöntemleri de değişiyor. PyTorch da torch.compile() gibi optimizasyon özellikleri ekliyor, ancak LLM’ler dahil bazı iş yüklerinde iyileştirmeler hâlâ sürüyor.

(torch.compile() iyileşmelerini beklerken) hemen uygulanabilecek bir optimizasyon yöntemi olan CUDA Graph’ı tanıtan ve uygulayan bir yazı bulduğum için bunu çevirdim. (⚠️Uyarı: Yazının sonunda, orijinal metni yazan LLM çıkarım platformu geliştiren/hizmet veren şirket Fireworks.ai’nin kısmi tanıtımı yer alıyor.)

Bu yazı, CUDA Graph’ı aşağıdaki sırayla tanıtıyor:

  • Mevcut optimizasyon yöntemi olan CPU/GPU örtüşmesine (overlap) giriş

  • CPU ek yükünün ortaya çıktığı bölümler

  • CPU ek yükünü optimize etmeye yönelik teknikler ve CUDA Graph

  • LLaMA2-7B modelinde CUDA Graph uygulama örneği

  • CUDA Graph’ın sağladığı performans kazanımları

  • Ek: Şu anda (PyTorch 2.0.1) torch.compile() kullanırken yaşanan sorunlar ve çözüm yöntemleri

Henüz yorum yok.

Henüz yorum yok.