3 puan yazan xguru 2025-02-26 | Henüz yorum yok. | WhatsApp'ta paylaş
  • FP8 matris çarpımı (GEMM) işlemlerini verimli şekilde gerçekleştiren bir kütüphane olup, DeepSeek-V3'te önerilen ince ayarlı ölçekleme (fine-grained scaling) yöntemini destekler
  • Hem genel GEMM hem de Mix-of-Experts(MoE) gruplanmış GEMM desteği sunar
  • CUDA tabanlı olarak uygulanmıştır ve kurulum sırasında ayrı bir derleme gerektirmeden hafif bir Just-In-Time (JIT) modülü kullanarak çalışma anında kernel'leri derler
  • Şu anda yalnızca NVIDIA Hopper tensor core için destek sunar
  • FP8 tensor core'ların hatalı birikimli hesaplamasını telafi etmek için CUDA core tabanlı çift biriktirme (promotion) kullanır
  • CUTLASS ve CuTe'nin bazı kavramlarını kullanır; ancak karmaşık şablon bağımlılıklarını azaltarak yaklaşık 300 satırlık kernel kodu içeren sade bir tasarım sunar
  • Hopper FP8 matris işlemleri ve optimizasyon tekniklerini öğrenmek için uygundur
  • Hafif tasarımına rağmen çeşitli matris boyutlarında uzman seviyesinde ayarlanmış kütüphanelerle benzer ya da daha iyi performans gösterir

Performans değerlendirmesi

Genel GEMM performansı (Dense modeller)

  • Çeşitli matris boyutları için DeepSeek-V3/R1 çıkarım ortamında performans değerlendirmesi yapıldı
  • NVIDIA H800 GPU (NVCC 12.8) ortamında test edildi
  • Hız artışı (Speedup) metriği, CUTLASS 3.6 tabanlı dahili optimize sürümle karşılaştırılarak hesaplandı
  • Başlıca performans özeti
    • Küçük matris boyutlarında en fazla 2,7 kat hız artışı
    • Bazı büyük matris boyutlarında 1,0~1,2 kat düzeyinde performansın korunması
    • Bellek bant genişliği ve hesaplama performansı optimize edilerek Hopper mimarisi için optimize edilmiş performans sunulması

MoE modelleri için gruplanmış GEMM performansı

  • Bitişik (contiguous) düzenli gruplanmış GEMM
    • M ekseni temelinde gruplanır, N ve K ise aynı kalır
    • En fazla 1,2 kat hız artışı gösterir ve bazı ayarlarda 1,1 kat düzeyini korur
  • Maskeli (masked) düzenli gruplanmış GEMM
    • CUDA Graph kullanılırken CPU'nun her uzmanın token sayısını bilemediği durumlar için tasarlanmıştır
    • Girdi olarak maske tensörü verilerek yalnızca gerekli hesaplamalar yapılır
    • Performans artışı 1,1~1,2 kat düzeyindedir

DeepSeek Open Infra kapsamında yayımlanan 5 açık kaynak projenin 3'üncüsü

Henüz yorum yok.

Henüz yorum yok.