- Open-source duyuru haftasının sonunda, sistemin genel görünümünü ve işletme maliyetlerini de bir one more thing sürprizi olarak paylaştı
DeepSeek-V3/R1 çıkarım sistemi genel görünümü
Sistem tasarım ilkeleri
- DeepSeek-V3/R1 çıkarım sisteminin optimizasyon hedefi daha yüksek throughput ve daha düşük gecikme süresidir
- Bunun için cross-node Expert Parallelism (EP) uygulanarak optimizasyon sağlandı.
- Throughput artışı: EP, batch boyutunu büyüterek GPU matris işlemlerinin verimliliğini artırır ve throughput’u yükseltir.
- Gecikme süresinin azalması: Expert’lerin birden fazla GPU’ya dağıtılması, tekil GPU’nun bellek erişim yükünü azaltarak gecikmeyi düşürür.
- Ancak EP, sistem karmaşıklığını artırır:
- Cross-node iletişim gereksinimi: Darboğazı önlemek için iletişim ve hesaplamanın örtüşecek şekilde çalıştırılması gerekir.
- Çoklu node kullanımı: Data Parallelism (DP) uygulanmalı ve DP’ler arasında load balancing yapılmalıdır.
Büyük ölçekli cross-node Expert Parallelism (EP)
- DeepSeek-V3/R1 modeli, her katmanda 256 expert’ten yalnızca 8’ini etkinleştirdiği için batch boyutunu büyütmek zorunludur
- Prefill ve Decode aşamalarına göre paralellik farkı:
- Prefill aşaması: EP32, DP32 (4 node, her GPU 9 expert işler)
- Decode aşaması: EP144, DP144 (18 node, her GPU 2 expert işler)
Hesaplama-iletişim örtüşmesi (Computation-Communication Overlapping)
- EP, cross-node iletişim maliyetini artırdığı için bunu azaltmak amacıyla çift batch örtüşme stratejisi kullanılır.
- Prefill aşaması: İki microbatch çapraz yürütülerek bir batch’in iletişimi diğer batch’in hesaplamasının arkasına gizlenir.
- Decode aşaması: Attention katmanı iki aşamaya bölünür ve hesaplama-iletişim örtüşmesini en üst düzeye çıkarmak için 5 aşamalı pipeline kullanılır.
En iyi load balancing uygulaması
- GPU’lar arasındaki dengesizliği önlemek ve kaynak kullanımını en üst düzeye çıkarmak için üç load balancing tekniği uygulanır.
-
- Prefill load balancer
- Sorun: İstek sayısı ve sequence length farkları nedeniyle core-attention hesaplaması ile veri aktarım yükü dengesizleşir.
- Hedef:
- GPU’lar arasında core-attention hesaplama yükü dengesini korumak.
- GPU başına giriş token sayısını eşitlemek.
-
- Decode load balancer
- Sorun: KVCache kullanım farkları nedeniyle GPU’lar arasındaki hesaplama yükü değişir.
- Hedef:
- GPU’lar arasında KVCache kullanım dengesini korumak.
- GPU başına istek sayısını eşitlemek.
-
- Expert-Parallel load balancer
- Sorun: Belirli expert’lerin yükünün yüksek olması, GPU’lar arasında hesaplama dengesizliğine yol açar.
- Hedef:
- Her GPU’nun expert hesaplama yükünü dengede tutmak.
DeepSeek çevrimiçi çıkarım sistemi istatistikleri
- DeepSeek-V3/R1 çıkarım hizmeti H800 GPU üzerinde çalışır ve eğitimle aynı hesaplama hassasiyetini korur
- FP8: matris işlemleri ve veri aktarımı
- BF16: temel MLA hesaplamaları ve birleştirilmiş aktarım
- Tepe ve gece çalışma stratejisi
- Gündüz hizmet yükü yüksektir, gece ise yük azalır
- Yoğun saatlerde: tüm node’lar çıkarım hizmeti için kullanılır
- Gece düşük yük saatlerinde: bazı node’lar araştırma ve eğitim amaçlı kullanıma geçirilerek kaynaklar verimli değerlendirilir
- 24 saatlik işletim istatistikleri (UTC+8, 2025-02-27 12:00 PM ~ 2025-02-28 12:00 PM)
- Toplam giriş token’ı: 608B (bunun %56,3’ü olan 342B KV cache isabetidir)
- Toplam çıkış token’ı: 168B (ortalama çıktı hızı 20~22 token/s)
- Ortalama KVCache uzunluğu: çıktı token’ı başına 4,989 token
- H800 node başına işleme hızı:
- Prefill aşaması: 73.7k token/s (cache isabetleri dahil)
- Decode aşaması: 14.8k token/s
İşletme maliyeti ve gelir analizi: V3 & R1 için UTC+8 02/27/2025 12:00 PM to 02/28/2025 12:00 PM arasındaki bir gün bazında
- GPU kullanımı: tepe noktada 278 node, ortalamada 226.75 node (her node’da 8 adet H800 GPU bulunur)
- GPU kiralama maliyeti: H800 GPU başına $2/saat → toplam günlük işletme maliyeti: $87,072
- Tüm token’ların ücretlendirildiği varsayılırsa teorik günlük gelir: $562,027 → kârlılık oranı %545
- (R1’in giriş/çıkış token fiyatları: $0.14M(cache isabeti), $0.55M(cache isabetsiz), $2.19M)
- Ancak gerçek gelir daha düşüktür:
- DeepSeek-V3’ün ücretlendirmesi R1’den çok daha düşüktür
- Hizmetin yalnızca bir kısmı gelir üretir (web ve uygulama kullanımı ücretsiz sunulur)
- Gece saatlerinde otomatik indirim uygulanır
1 yorum
Üç soru sorunca tamamen kilitleniyor..