DeepSeek, FlashMLA'yı açık kaynak olarak yayımladı (1/5)
(github.com/deepseek-ai)- Hopper GPU'lar için verimli bir MLA decoding çekirdeği
- Değişken uzunluklu dizi sunumu için optimize edildi
- Şu anda yayımlananlar
- BF16
- 64 blok boyutlu Paged kvcache
- Benchmark: CUDA 12.6 kullanılarak H800 SXM5 üzerinde, bellek sınırlı yapılandırmada 3000GB/s'ye kadar, hesaplama sınırlı yapılandırmada ise 580 TFLOPS elde edildi
- FlashAttention 2&3 ve cutlass'tan ilham alındı
- DeepSeek Open Infra kapsamında yayımlanan 5 açık kaynak projenin ilki
2 yorum
Hacker News görüşleri
FlashAttention-2: daha iyi paralel işleme ve iş bölümüyle hızlanan Attention
FlashAttention-3: asenkron ve düşük hassasiyetle hızlı ve doğru Attention