12 puan yazan xguru 2025-03-02 | 1 yorum | WhatsApp'ta paylaş
  • Open-source duyuru haftasının sonunda, sistemin genel görünümünü ve işletme maliyetlerini de bir one more thing sürprizi olarak paylaştı

DeepSeek-V3/R1 çıkarım sistemi genel görünümü

Sistem tasarım ilkeleri

  • DeepSeek-V3/R1 çıkarım sisteminin optimizasyon hedefi daha yüksek throughput ve daha düşük gecikme süresidir
  • Bunun için cross-node Expert Parallelism (EP) uygulanarak optimizasyon sağlandı.
    • Throughput artışı: EP, batch boyutunu büyüterek GPU matris işlemlerinin verimliliğini artırır ve throughput’u yükseltir.
    • Gecikme süresinin azalması: Expert’lerin birden fazla GPU’ya dağıtılması, tekil GPU’nun bellek erişim yükünü azaltarak gecikmeyi düşürür.
  • Ancak EP, sistem karmaşıklığını artırır:
    • Cross-node iletişim gereksinimi: Darboğazı önlemek için iletişim ve hesaplamanın örtüşecek şekilde çalıştırılması gerekir.
    • Çoklu node kullanımı: Data Parallelism (DP) uygulanmalı ve DP’ler arasında load balancing yapılmalıdır.

Büyük ölçekli cross-node Expert Parallelism (EP)

  • DeepSeek-V3/R1 modeli, her katmanda 256 expert’ten yalnızca 8’ini etkinleştirdiği için batch boyutunu büyütmek zorunludur
  • Prefill ve Decode aşamalarına göre paralellik farkı:
    • Prefill aşaması: EP32, DP32 (4 node, her GPU 9 expert işler)
    • Decode aşaması: EP144, DP144 (18 node, her GPU 2 expert işler)

Hesaplama-iletişim örtüşmesi (Computation-Communication Overlapping)

  • EP, cross-node iletişim maliyetini artırdığı için bunu azaltmak amacıyla çift batch örtüşme stratejisi kullanılır.
    • Prefill aşaması: İki microbatch çapraz yürütülerek bir batch’in iletişimi diğer batch’in hesaplamasının arkasına gizlenir.
    • Decode aşaması: Attention katmanı iki aşamaya bölünür ve hesaplama-iletişim örtüşmesini en üst düzeye çıkarmak için 5 aşamalı pipeline kullanılır.

En iyi load balancing uygulaması

  • GPU’lar arasındaki dengesizliği önlemek ve kaynak kullanımını en üst düzeye çıkarmak için üç load balancing tekniği uygulanır.
    1. Prefill load balancer
    • Sorun: İstek sayısı ve sequence length farkları nedeniyle core-attention hesaplaması ile veri aktarım yükü dengesizleşir.
    • Hedef:
      • GPU’lar arasında core-attention hesaplama yükü dengesini korumak.
      • GPU başına giriş token sayısını eşitlemek.
    1. Decode load balancer
    • Sorun: KVCache kullanım farkları nedeniyle GPU’lar arasındaki hesaplama yükü değişir.
    • Hedef:
      • GPU’lar arasında KVCache kullanım dengesini korumak.
      • GPU başına istek sayısını eşitlemek.
    1. Expert-Parallel load balancer
    • Sorun: Belirli expert’lerin yükünün yüksek olması, GPU’lar arasında hesaplama dengesizliğine yol açar.
    • Hedef:
      • Her GPU’nun expert hesaplama yükünü dengede tutmak.

DeepSeek çevrimiçi çıkarım sistemi istatistikleri

  • DeepSeek-V3/R1 çıkarım hizmeti H800 GPU üzerinde çalışır ve eğitimle aynı hesaplama hassasiyetini korur
    • FP8: matris işlemleri ve veri aktarımı
    • BF16: temel MLA hesaplamaları ve birleştirilmiş aktarım
  • Tepe ve gece çalışma stratejisi
    • Gündüz hizmet yükü yüksektir, gece ise yük azalır
    • Yoğun saatlerde: tüm node’lar çıkarım hizmeti için kullanılır
    • Gece düşük yük saatlerinde: bazı node’lar araştırma ve eğitim amaçlı kullanıma geçirilerek kaynaklar verimli değerlendirilir
  • 24 saatlik işletim istatistikleri (UTC+8, 2025-02-27 12:00 PM ~ 2025-02-28 12:00 PM)
    • Toplam giriş token’ı: 608B (bunun %56,3’ü olan 342B KV cache isabetidir)
    • Toplam çıkış token’ı: 168B (ortalama çıktı hızı 20~22 token/s)
    • Ortalama KVCache uzunluğu: çıktı token’ı başına 4,989 token
    • H800 node başına işleme hızı:
      • Prefill aşaması: 73.7k token/s (cache isabetleri dahil)
      • Decode aşaması: 14.8k token/s

İşletme maliyeti ve gelir analizi: V3 & R1 için UTC+8 02/27/2025 12:00 PM to 02/28/2025 12:00 PM arasındaki bir gün bazında

  • GPU kullanımı: tepe noktada 278 node, ortalamada 226.75 node (her node’da 8 adet H800 GPU bulunur)
  • GPU kiralama maliyeti: H800 GPU başına $2/saat → toplam günlük işletme maliyeti: $87,072
  • Tüm token’ların ücretlendirildiği varsayılırsa teorik günlük gelir: $562,027 → kârlılık oranı %545
    • (R1’in giriş/çıkış token fiyatları: $0.14M(cache isabeti), $0.55M(cache isabetsiz), $2.19M)
  • Ancak gerçek gelir daha düşüktür:
    • DeepSeek-V3’ün ücretlendirmesi R1’den çok daha düşüktür
    • Hizmetin yalnızca bir kısmı gelir üretir (web ve uygulama kullanımı ücretsiz sunulur)
    • Gece saatlerinde otomatik indirim uygulanır

DeepSeek Open Infra kapsamında yayımlanan 5 açık kaynak içindeki son one more thing olarak paylaşıldı

1 yorum

 
sppappi 2025-03-03

Üç soru sorunca tamamen kilitleniyor..