DeepSeek, DeepGEMM'i açık kaynak yaptı (5'in 3'ü)

(github.com/deepseek-ai)

3 puan yazan xguru 2025-02-26 | Henüz yorum yok. | WhatsApp'ta paylaş

FP8 matris çarpımı (GEMM) işlemlerini verimli şekilde gerçekleştiren bir kütüphane olup, DeepSeek-V3'te önerilen ince ayarlı ölçekleme (fine-grained scaling) yöntemini destekler
Hem genel GEMM hem de Mix-of-Experts(MoE) gruplanmış GEMM desteği sunar
CUDA tabanlı olarak uygulanmıştır ve kurulum sırasında ayrı bir derleme gerektirmeden hafif bir Just-In-Time (JIT) modülü kullanarak çalışma anında kernel'leri derler
Şu anda yalnızca NVIDIA Hopper tensor core için destek sunar
FP8 tensor core'ların hatalı birikimli hesaplamasını telafi etmek için CUDA core tabanlı çift biriktirme (promotion) kullanır
CUTLASS ve CuTe'nin bazı kavramlarını kullanır; ancak karmaşık şablon bağımlılıklarını azaltarak yaklaşık 300 satırlık kernel kodu içeren sade bir tasarım sunar
Hopper FP8 matris işlemleri ve optimizasyon tekniklerini öğrenmek için uygundur
Hafif tasarımına rağmen çeşitli matris boyutlarında uzman seviyesinde ayarlanmış kütüphanelerle benzer ya da daha iyi performans gösterir

Performans değerlendirmesi

Çeşitli matris boyutları için DeepSeek-V3/R1 çıkarım ortamında performans değerlendirmesi yapıldı
NVIDIA H800 GPU (NVCC 12.8) ortamında test edildi
Hız artışı (Speedup) metriği, CUTLASS 3.6 tabanlı dahili optimize sürümle karşılaştırılarak hesaplandı
Başlıca performans özeti
- Küçük matris boyutlarında en fazla 2,7 kat hız artışı
- Bazı büyük matris boyutlarında 1,0~1,2 kat düzeyinde performansın korunması
- Bellek bant genişliği ve hesaplama performansı optimize edilerek Hopper mimarisi için optimize edilmiş performans sunulması

Bitişik (contiguous) düzenli gruplanmış GEMM
- M ekseni temelinde gruplanır, N ve K ise aynı kalır
- En fazla 1,2 kat hız artışı gösterir ve bazı ayarlarda 1,1 kat düzeyini korur
Maskeli (masked) düzenli gruplanmış GEMM
- CUDA Graph kullanılırken CPU'nun her uzmanın token sayısını bilemediği durumlar için tasarlanmıştır
- Girdi olarak maske tensörü verilerek yalnızca gerekli hesaplamalar yapılır
- Performans artışı 1,1~1,2 kat düzeyindedir