- FP8 matris çarpımı (GEMM) işlemlerini verimli şekilde gerçekleştiren bir kütüphane olup, DeepSeek-V3'te önerilen ince ayarlı ölçekleme (fine-grained scaling) yöntemini destekler
- Hem genel GEMM hem de Mix-of-Experts(MoE) gruplanmış GEMM desteği sunar
- CUDA tabanlı olarak uygulanmıştır ve kurulum sırasında ayrı bir derleme gerektirmeden hafif bir Just-In-Time (JIT) modülü kullanarak çalışma anında kernel'leri derler
- Şu anda yalnızca NVIDIA Hopper tensor core için destek sunar
- FP8 tensor core'ların hatalı birikimli hesaplamasını telafi etmek için CUDA core tabanlı çift biriktirme (promotion) kullanır
- CUTLASS ve CuTe'nin bazı kavramlarını kullanır; ancak karmaşık şablon bağımlılıklarını azaltarak yaklaşık 300 satırlık kernel kodu içeren sade bir tasarım sunar
- Hopper FP8 matris işlemleri ve optimizasyon tekniklerini öğrenmek için uygundur
- Hafif tasarımına rağmen çeşitli matris boyutlarında uzman seviyesinde ayarlanmış kütüphanelerle benzer ya da daha iyi performans gösterir
Performans değerlendirmesi
Genel GEMM performansı (Dense modeller)
- Çeşitli matris boyutları için DeepSeek-V3/R1 çıkarım ortamında performans değerlendirmesi yapıldı
- NVIDIA H800 GPU (NVCC 12.8) ortamında test edildi
- Hız artışı (Speedup) metriği, CUTLASS 3.6 tabanlı dahili optimize sürümle karşılaştırılarak hesaplandı
- Başlıca performans özeti
- Küçük matris boyutlarında en fazla 2,7 kat hız artışı
- Bazı büyük matris boyutlarında 1,0~1,2 kat düzeyinde performansın korunması
- Bellek bant genişliği ve hesaplama performansı optimize edilerek Hopper mimarisi için optimize edilmiş performans sunulması
MoE modelleri için gruplanmış GEMM performansı
- Bitişik (contiguous) düzenli gruplanmış GEMM
- M ekseni temelinde gruplanır, N ve K ise aynı kalır
- En fazla 1,2 kat hız artışı gösterir ve bazı ayarlarda 1,1 kat düzeyini korur
- Maskeli (masked) düzenli gruplanmış GEMM
- CUDA Graph kullanılırken CPU'nun her uzmanın token sayısını bilemediği durumlar için tasarlanmıştır
- Girdi olarak maske tensörü verilerek yalnızca gerekli hesaplamalar yapılır
- Performans artışı 1,1~1,2 kat düzeyindedir
Henüz yorum yok.