DeepSeek Open Infra: 5 günde 5 yapay zeka deposu açık kaynak olarak yayımlandı

(github.com/deepseek-ai)

9 puan yazan GN⁺ 2025-02-22 | 2 yorum | WhatsApp'ta paylaş

DeepSeek AI ekibi, AGI araştırmasında sınırları aşmak için çalışıyor
Gelecek haftadan itibaren 5 depoyu açık kaynak olarak yayımlamayı planlıyorlar; amaç, geliştirici olarak attıkları küçük adımları şeffaf biçimde paylaşmak
Bunlar çevrimiçi hizmetlerin temel bileşenleri; belgelenmiş, dağıtıma alınmış ve gerçek ortamda test edilmiş kodlar
Her gün yeni kod yayımlanacak; amaç topluluk odaklı inovasyonu teşvik etmek

1. Gün: FlashMLA

Hopper GPU’lar için verimli bir MLA decoding kernel
Değişken uzunluklu sequence serving için optimize edildi
Şu anda yayımlananlar
- BF16
- 64 blok boyutlu Paged kvcache
Benchmark: CUDA 12.6 kullanılarak H800 SXM5 üzerinde, bellek sınırlı yapılandırmada 3000GB/s’ye kadar, hesaplama sınırlı yapılandırmada ise 580 TFLOPS elde edildi

2. Gün: DeepEP

Mixture-of-Experts(MoE) ve Expert Parallelism(EP) için yüksek performanslı iletişim kütüphanesi
GPU tabanlı All-to-All kernel sağlayarak MoE dispatch ve combine işlemlerini yüksek hızda gerçekleştiriyor
FP8 gibi düşük hassasiyetli işlemleri destekliyor
DeepSeek-V3 makalesinde önerilen group-limited gating algoritmasını uygulayarak asimetrik alan bant genişliği yönlendirmesini optimize ediyor
- Örnek: NVLink → RDMA veri aktarım optimizasyonu
- Eğitim ve çıkarım prefilling işleri için uygun yüksek throughput sağlıyor
Gecikmeye duyarlı çıkarım decoding için yalnızca RDMA kullanan düşük gecikmeli kernel içeriyor
İletişim-hesaplama örtüşmesi tekniği sunuyor (SM kaynaklarını işgal etmiyor)

3. Gün: DeepGEMM

FP8 matris çarpımı (GEMM) işlemlerini verimli şekilde gerçekleştiren bir kütüphane; DeepSeek-V3’te önerilen ince ayarlı ölçekleme (fine-grained scaling) yöntemini destekliyor
Hem genel GEMM’i hem de Mix-of-Experts(MoE) gruplandırılmış GEMM’i destekliyor
CUDA tabanlı olarak geliştirildi ve kurulum sırasında ayrı derleme gerektirmeden hafif bir Just-In-Time(JIT) modülü ile kernel’leri çalışma anında derliyor
Şu anda yalnızca NVIDIA Hopper tensor core için destekleniyor
FP8 tensor core’un hatalı accumulation işlemlerini telafi etmek için CUDA core tabanlı çift accumulation (promotion) kullanıyor
CUTLASS ve CuTe’den bazı kavramları kullanıyor; ancak karmaşık template bağımlılıklarını azaltarak yaklaşık 300 satırlık kernel kodu içeren sade bir tasarım sunuyor
Hopper FP8 matris işlemleri ve optimizasyon tekniklerini öğrenmek için uygun
Hafif tasarımına rağmen çeşitli matris boyutlarında uzman seviyesinde ayarlanmış kütüphanelerle benzer veya daha iyi performans gösteriyor

4. Gün: Optimize edilmiş paralel işleme stratejileri: DualPipe, EPLB, Profile-Data

DeepSeek V3/R1’de kullanılan stratejiler ve kodlar
- DualPipe: hesaplama-iletişim örtüşmesi için çift yönlü pipeline paralelleştirme algoritması
- EPLB: Expert-Parallel load balancer
- Profile-Data: hesaplama-iletişim örtüşmesini analiz etmek için DeepSeek altyapısının veri profillemesi

5. Gün: 3FS dosya sistemi ve Smallpond veri işleme çerçevesi

Fire-Flyer File System(3FS), yapay zeka eğitimi ve çıkarım iş yüklerini işlemek için tasarlanmış yüksek performanslı dağıtık dosya sistemi
Modern SSD’ler ve RDMA ağı kullanarak paylaşımlı bir depolama katmanı sağlıyor ve dağıtık uygulama geliştirmeyi basitleştiriyor
Temel özellikler ve avantajlar
- Performans ve kullanılabilirlik
  - Ayrık mimari: binlerce SSD ile yüzlerce depolama düğümünün ağ bant genişliğini birleştirerek, veri yerelliğinden bağımsız biçimde depolama kaynaklarına erişim sağlıyor
  - Güçlü tutarlılık garantisi: tutarlılığı korumak için Chain Replication with Apportioned Queries(CRAQ) kullanıyor ve böylece uygulama kodunu sadeleştiriyor
  - Dosya arayüzü desteği: FoundationDB tabanlı transaction key-value store kullanan durumsuz metadata hizmeti sağlıyor. Mevcut dosya arayüzleri kullanıldığından yeni bir depolama API’si öğrenmek gerekmiyor
- Çeşitli iş yüklerini destekleme
  - Veri hazırlama: veri analizi pipeline çıktısını hiyerarşik dizin yapısında düzenliyor ve büyük miktardaki ara çıktıyı verimli şekilde yönetiyor
  - Data loader optimizasyonu: veri setini önceden yüklemeye veya karıştırmaya gerek kalmadan, birden fazla compute node üzerinden eğitim örneklerine rastgele erişim sağlıyor
  - Checkpoint kaydetme: büyük ölçekli eğitim için yüksek hızlı paralel checkpoint kaydetmeyi destekliyor
  - KVCache tabanlı çıkarım optimizasyonu: DRAM tabanlı caching’e göre daha maliyet verimli; yüksek throughput ve büyük kapasite sunuyor
SmallPond - DuckDB ve 3FS üzerinde kurulu hafif veri işleme çerçevesi
- Yüksek performanslı veri işleme, büyük ölçeklenebilirlik ve basit operasyon öne çıkıyor
  - Yüksek performanslı veri işleme: DuckDB kullanarak hızlı veri işleme
  - Büyük veri seti desteği: petabayt(PB) ölçeğinde veri işleyebilme
  - Kolay operasyon: uzun süre çalışan hizmetler olmadan rahat kullanım

6. Gün: V3/R1’in çıkarım sisteminin yapısı ile işletme maliyeti/geliri açıklandı

Sistem tasarım ilkesi: DeepSeek-V3/R1 çıkarım sisteminin optimizasyon hedefi daha yüksek throughput ve daha düşük gecikme
- Bunun için cross-node Expert Parallelism(EP) uygulanarak optimizasyon yapıldı
DeepSeek işletme maliyeti
- Ortalama 226 GPU düğümü (düğüm başına 8 adet H800 GPU)
- Günlük işletme maliyeti: $87,072 (127 milyon won) - H800 başına saatlik $2
- Teorik günlük gelir(R1 bazında): $562027 (820 milyon won) → kârlılık %545
- Ancak gerçek gelir daha düşük (çünkü V3, R1’den daha ucuz ve hizmetin yalnızca bir kısmı gelirleştirildi)

2024 yapay zeka altyapı makalesi (SC24)

Fire-Flyer AI-HPC: derin öğrenme için maliyet verimli yazılım-donanım ortak tasarımı

Derin öğrenme(DL) ve büyük dil modellerinin(LLM) hızlı gelişimi nedeniyle hesaplama performansı ve bant genişliği talepleri katlanarak artıyor
Yüksek performanslı bilişim(HPC) kurulum maliyeti, hızlı işlem çipleri ve yüksek hızlı bağlantıların yüksek fiyatı nedeniyle keskin biçimde yükseliyor
Bunu çözmek için Fire-Flyer AI-HPC mimarisi tanıtıldı; donanım-yazılım ortak tasarımına dayalı olarak maliyet ve performans optimizasyonu sağlanıyor
- 10.000 PCIe A100 GPU kullanan Fire-Flyer 2 sistemi kurularak DL eğitimi gerçekleştirildi
- DGX-A100’e benzer performans sunarken maliyeti yarıya indiriyor ve enerji tüketimini %40 azaltıyor
Performans optimizasyonu unsurları
- HFReduce: Allreduce iletişimini hızlandırarak GPU’lar arası veri senkronizasyonunu iyileştiriyor
- Computation-Storage Integrated Network: ağ darboğazlarını önlemek için çeşitli congestion management teknikleri uyguluyor
- Yazılım yığını: HaiScale, 3FS, HAI-Platform aracılığıyla hesaplama ve iletişimi örtüştürerek ölçeklenebilirliği en üst düzeye çıkarıyor

2 yorum

xguru 2025-02-23

DeepSeek gerçekten de çok ilginç bir yol izlemeyi sürdürüyor. Nelerin yayınlanacağını merak ediyorum.

GN⁺ 2025-02-22

Hacker News görüşleri

DeepSeek'in duyurusunu dört gözle bekleyip aynı zamanda onu aşırı analiz etmeyen tek kişinin ben olup olmadığını merak ediyorum. Bu başlık, kişisel yorumlarla dolu gibi geliyor
- DeepSeek hâlâ bir şirket. Harika bir duyuru ama beklenti ve motivasyon biraz abartılıyor gibi
- "saf garaj enerjisi" ifadesi hoşuma gitti
- En çok onların çıkarım stack'ini merak ediyorum. Çoğu insan R1'i tek bir H200 node üzerinde çalıştırıyor ama DeepSeek çıkarım için GPU başına çok daha az RAM kullandı ve cluster tabanlı MoE deployment yaptı
- OpenAI'nin Noel'in 12 günü etkinliğinden daha ilginç
Gelecek haftadan itibaren 5 repoyu open source yapacaklar. Her gün bir tane yayımlayacaklar
- Bunun, duyurunun duyurusu olarak görülebileceği söylenebilir. Gerçek repolar yayımlanmadan önce çok tartışmamak daha iyi olabilir. Çünkü open source yapılacak şeyler hakkında ayrıntı yok
- Bunlar çevrimiçi hizmetlerin mütevazı yapı taşları. Dokümante edilmiş, deploy edilmiş ve gerçek ortamda test edilmişler
DeepSeek'in yenilikçiliğine ve araştırmalarına büyük saygı duyuyorum. Yayınladıkları her şey için
- "Paylaşılan her satır, yolculuğu hızlandıran kolektif bir momentum hâline gelir. Günlük kilit açılışları yakında başlıyor. Fildişi kuleden değil, saf garaj enerjisi ve topluluk odaklı inovasyon" ifadesi hoşuma gitti
Aslında OpenAI'yi tamamen dağıtıyorlar. Muhtemelen niyetlerinden bağımsız olarak
- LLM'ler, çoğu CIO dergisinin "blokzincir stratejiniz nedir?" başlıklı makaleler yayımladığı zamankinden daha meşru bir "blokzincir" oldu
- AI balonu patlayacak ve en geç 2026 sonuna kadar patlamış olacak
AI alanında hendeğin nerede olduğunu görmek ilginç. İyi temel modeller, API'lerine erişilebildiğinde her zaman distill edilebilir. Sistem prompt'ları sızabilir ve UI hileleri kopyalanabilir. Sonunda hendek donanımda ve dikey entegrasyonda olabilir
DeepSeek ile OpenAI isimlerini değiştirebilir mi?
Altyapı araçlarını open source yapmak, AI alanındaki inovasyonu gerçekten hızlandırabilir. İyi dokümante edilmiş repolara erişim, mevcut işleri denemeyi ve bunların üzerine inşa etmeyi çok daha kolaylaştırıyor
- Bu repoların distributed training veya model serving gibi belirli alanlara odaklanıp odaklanmadığını merak ediyorum
Facebook ve DeepSeek tarafından temel modellerin kesin biçimde open source hâle getirildiği bir ortamda, şirket değerlemelerinin nasıl rekabet edebileceğini merak ediyorum. Çin ve Facebook bunların çoğunu esasen ücretsiz verdiği için, bu modelleri inşa etmenin yüz milyarlarca dolarlık değer yaratacağını sanmıyorum