5 puan yazan xguru 2025-02-24 | 2 yorum | WhatsApp'ta paylaş
  • Hopper GPU'lar için verimli bir MLA decoding çekirdeği
  • Değişken uzunluklu dizi sunumu için optimize edildi
  • Şu anda yayımlananlar
    • BF16
    • 64 blok boyutlu Paged kvcache
  • Benchmark: CUDA 12.6 kullanılarak H800 SXM5 üzerinde, bellek sınırlı yapılandırmada 3000GB/s'ye kadar, hesaplama sınırlı yapılandırmada ise 580 TFLOPS elde edildi
  • FlashAttention 2&3 ve cutlass'tan ilham alındı
  • DeepSeek Open Infra kapsamında yayımlanan 5 açık kaynak projenin ilki

2 yorum

 
GN⁺ 2025-02-25

Hacker News görüşleri

  • vLLM, 3 hafta önce DeepSeek modelleri için MLA desteği sunmaya başladı. Bu, 3 kat daha yüksek üretim işleme kapasitesi ve 10 kat token bellek kapasitesi sağlıyor
    • MHA, düşük QPS ortamlarında hâlâ daha hızlı
    • Teorik kanıtlara göre MLA, aynı KV cache ek yükünde GQA'dan tutarlı biçimde daha yüksek ifade gücü sağlıyor
    • Yaygın olarak kullanılan GQA tabanlı ön eğitimli modeller (LLaMA, Qwen, Mixtral vb.) MLA tabanlı modellere dönüştürülebiliyor
    • MLA'nın standart hâline gelme olasılığı yüksek
  • DeepSeek R1 standart MHA kullanmış olsaydı, KV cache depolaması için token başına 1749KB gerekirdi
    • Sohbet yaklaşık 46.000 token'a ulaştığında KV cache, tek bir H100'ün toplam depolama kapasitesini aşardı
    • MLA kullanıldığında her token 125KB tüketiyor. Bu da yaklaşık 640.000 token'ı (Ulysses'in 2 katı) aşana kadar mümkün
  • BF16 desteği, paged KV cache (blok boyutu 64), H800 üzerinde 3000 GB/s bellek sınırlı ve 580 TFLOPS hesaplama sınırlı
    • Bu, birçok FANG geliştiricisinin ciddi miktarda zaman tasarrufu sağlamış olmalı
    • Ne yazık ki yalnızca forward pass destekleniyor. Asıl sır backward pass'teydi
    • DualPipe scheduler'ı nasıl uyguladıklarını merak ediyordum
  • MLA büyük olasılıkla Multi-head latent attention anlamına geliyor
  • Çinli şirketlere yönelik Hopper GPU yaptırımları yok muydu, diye kafam karıştı. ABD yaptırımlarına rağmen H100'e erişebildiklerini kabul mü ediyorlar?
  • Yapay zekayla Flash oyunlarını geri getirebilmeyi gerçekten umuyordum
  • Bununla ne yapılabilir?
  • OpenAI geri döndü