DeepSeek, FlashMLA'yı açık kaynak olarak yayımladı (1/5)

xguru · 2025-02-24T15:14:21+09:00

Hopper GPU'lar için verimli bir MLA decoding çekirdeği Değişken uzunluklu dizi sunumu için optimize edildi Şu anda yayımlananlar BF16 64 blok boyutlu Paged kvcache Benchmark: CUDA 12.6 kullanılarak H800 SXM5 üzerinde, bellek sınırlı yapılandırmada 3000GB/s'ye kadar, hesaplama sınırlı yapılandırmada ise 580 TFLOPS elde edildi FlashAttention 2&3 ve cutlass'tan ilham alındı DeepSeek Open Infra kapsamında yayımlanan 5 açık kaynak projenin ilki

(github.com/deepseek-ai)

5 puan yazan xguru 2025-02-24 | 2 yorum | WhatsApp'ta paylaş

Hopper GPU'lar için verimli bir MLA decoding çekirdeği
Değişken uzunluklu dizi sunumu için optimize edildi
Şu anda yayımlananlar
- BF16
- 64 blok boyutlu Paged kvcache
Benchmark: CUDA 12.6 kullanılarak H800 SXM5 üzerinde, bellek sınırlı yapılandırmada 3000GB/s'ye kadar, hesaplama sınırlı yapılandırmada ise 580 TFLOPS elde edildi
FlashAttention 2&3 ve cutlass'tan ilham alındı
DeepSeek Open Infra kapsamında yayımlanan 5 açık kaynak projenin ilki

2 yorum

GN⁺ 2025-02-25

Hacker News görüşleri

vLLM, 3 hafta önce DeepSeek modelleri için MLA desteği sunmaya başladı. Bu, 3 kat daha yüksek üretim işleme kapasitesi ve 10 kat token bellek kapasitesi sağlıyor
- MHA, düşük QPS ortamlarında hâlâ daha hızlı
- Teorik kanıtlara göre MLA, aynı KV cache ek yükünde GQA'dan tutarlı biçimde daha yüksek ifade gücü sağlıyor
- Yaygın olarak kullanılan GQA tabanlı ön eğitimli modeller (LLaMA, Qwen, Mixtral vb.) MLA tabanlı modellere dönüştürülebiliyor
- MLA'nın standart hâline gelme olasılığı yüksek
DeepSeek R1 standart MHA kullanmış olsaydı, KV cache depolaması için token başına 1749KB gerekirdi
- Sohbet yaklaşık 46.000 token'a ulaştığında KV cache, tek bir H100'ün toplam depolama kapasitesini aşardı
- MLA kullanıldığında her token 125KB tüketiyor. Bu da yaklaşık 640.000 token'ı (Ulysses'in 2 katı) aşana kadar mümkün
BF16 desteği, paged KV cache (blok boyutu 64), H800 üzerinde 3000 GB/s bellek sınırlı ve 580 TFLOPS hesaplama sınırlı
- Bu, birçok FANG geliştiricisinin ciddi miktarda zaman tasarrufu sağlamış olmalı
- Ne yazık ki yalnızca forward pass destekleniyor. Asıl sır backward pass'teydi
- DualPipe scheduler'ı nasıl uyguladıklarını merak ediyordum
MLA büyük olasılıkla Multi-head latent attention anlamına geliyor
Çinli şirketlere yönelik Hopper GPU yaptırımları yok muydu, diye kafam karıştı. ABD yaptırımlarına rağmen H100'e erişebildiklerini kabul mü ediyorlar?
Yapay zekayla Flash oyunlarını geri getirebilmeyi gerçekten umuyordum
Bununla ne yapılabilir?
OpenAI geri döndü

xguru 2025-02-24

FlashAttention-2: daha iyi paralel işleme ve iş bölümüyle hızlanan Attention
FlashAttention-3: asenkron ve düşük hassasiyetle hızlı ve doğru Attention

DeepSeek, FlashMLA'yı açık kaynak olarak yayımladı (1/5)

İlgili okumalar

2 yorum

Hacker News görüşleri