gelirini açıkladı

(github.com/deepseek-ai)

12 puan yazan xguru 2025-03-02 | 1 yorum | WhatsApp'ta paylaş

Open-source duyuru haftasının sonunda, sistemin genel görünümünü ve işletme maliyetlerini de bir one more thing sürprizi olarak paylaştı

DeepSeek-V3/R1 çıkarım sistemi genel görünümü

DeepSeek-V3/R1 çıkarım sisteminin optimizasyon hedefi daha yüksek throughput ve daha düşük gecikme süresidir
Bunun için cross-node Expert Parallelism (EP) uygulanarak optimizasyon sağlandı.
- Throughput artışı: EP, batch boyutunu büyüterek GPU matris işlemlerinin verimliliğini artırır ve throughput’u yükseltir.
- Gecikme süresinin azalması: Expert’lerin birden fazla GPU’ya dağıtılması, tekil GPU’nun bellek erişim yükünü azaltarak gecikmeyi düşürür.
Ancak EP, sistem karmaşıklığını artırır:
- Cross-node iletişim gereksinimi: Darboğazı önlemek için iletişim ve hesaplamanın örtüşecek şekilde çalıştırılması gerekir.
- Çoklu node kullanımı: Data Parallelism (DP) uygulanmalı ve DP’ler arasında load balancing yapılmalıdır.

DeepSeek-V3/R1 modeli, her katmanda 256 expert’ten yalnızca 8’ini etkinleştirdiği için batch boyutunu büyütmek zorunludur
Prefill ve Decode aşamalarına göre paralellik farkı:
- Prefill aşaması: EP32, DP32 (4 node, her GPU 9 expert işler)
- Decode aşaması: EP144, DP144 (18 node, her GPU 2 expert işler)

EP, cross-node iletişim maliyetini artırdığı için bunu azaltmak amacıyla çift batch örtüşme stratejisi kullanılır.
- Prefill aşaması: İki microbatch çapraz yürütülerek bir batch’in iletişimi diğer batch’in hesaplamasının arkasına gizlenir.
- Decode aşaması: Attention katmanı iki aşamaya bölünür ve hesaplama-iletişim örtüşmesini en üst düzeye çıkarmak için 5 aşamalı pipeline kullanılır.

GPU’lar arasındaki dengesizliği önlemek ve kaynak kullanımını en üst düzeye çıkarmak için üç load balancing tekniği uygulanır.
1. Prefill load balancer
- Sorun: İstek sayısı ve sequence length farkları nedeniyle core-attention hesaplaması ile veri aktarım yükü dengesizleşir.
- Hedef:
  - GPU’lar arasında core-attention hesaplama yükü dengesini korumak.
  - GPU başına giriş token sayısını eşitlemek.
1. Decode load balancer
- Sorun: KVCache kullanım farkları nedeniyle GPU’lar arasındaki hesaplama yükü değişir.
- Hedef:
  - GPU’lar arasında KVCache kullanım dengesini korumak.
  - GPU başına istek sayısını eşitlemek.
1. Expert-Parallel load balancer
- Sorun: Belirli expert’lerin yükünün yüksek olması, GPU’lar arasında hesaplama dengesizliğine yol açar.
- Hedef:
  - Her GPU’nun expert hesaplama yükünü dengede tutmak.

DeepSeek-V3/R1 çıkarım hizmeti H800 GPU üzerinde çalışır ve eğitimle aynı hesaplama hassasiyetini korur
- FP8: matris işlemleri ve veri aktarımı
- BF16: temel MLA hesaplamaları ve birleştirilmiş aktarım
Tepe ve gece çalışma stratejisi
- Gündüz hizmet yükü yüksektir, gece ise yük azalır
- Yoğun saatlerde: tüm node’lar çıkarım hizmeti için kullanılır
- Gece düşük yük saatlerinde: bazı node’lar araştırma ve eğitim amaçlı kullanıma geçirilerek kaynaklar verimli değerlendirilir
24 saatlik işletim istatistikleri (UTC+8, 2025-02-27 12:00 PM ~ 2025-02-28 12:00 PM)
- Toplam giriş token’ı: 608B (bunun %56,3’ü olan 342B KV cache isabetidir)
- Toplam çıkış token’ı: 168B (ortalama çıktı hızı 20~22 token/s)
- Ortalama KVCache uzunluğu: çıktı token’ı başına 4,989 token
- H800 node başına işleme hızı:
  - Prefill aşaması: 73.7k token/s (cache isabetleri dahil)
  - Decode aşaması: 14.8k token/s

GPU kullanımı: tepe noktada 278 node, ortalamada 226.75 node (her node’da 8 adet H800 GPU bulunur)
GPU kiralama maliyeti: H800 GPU başına $2/saat → toplam günlük işletme maliyeti: $87,072
Tüm token’ların ücretlendirildiği varsayılırsa teorik günlük gelir: $562,027 → kârlılık oranı %545
- (R1’in giriş/çıkış token fiyatları: $0.14M(cache isabeti), $0.55M(cache isabetsiz), $2.19M)
Ancak gerçek gelir daha düşüktür:
- DeepSeek-V3’ün ücretlendirmesi R1’den çok daha düşüktür
- Hizmetin yalnızca bir kısmı gelir üretir (web ve uygulama kullanımı ücretsiz sunulur)
- Gece saatlerinde otomatik indirim uygulanır

sppappi 2025-03-03

Üç soru sorunca tamamen kilitleniyor..