9 puan yazan GN⁺ 2025-02-22 | 2 yorum | WhatsApp'ta paylaş
  • DeepSeek AI ekibi, AGI araştırmasında sınırları aşmak için çalışıyor
  • Gelecek haftadan itibaren 5 depoyu açık kaynak olarak yayımlamayı planlıyorlar; amaç, geliştirici olarak attıkları küçük adımları şeffaf biçimde paylaşmak
  • Bunlar çevrimiçi hizmetlerin temel bileşenleri; belgelenmiş, dağıtıma alınmış ve gerçek ortamda test edilmiş kodlar
  • Her gün yeni kod yayımlanacak; amaç topluluk odaklı inovasyonu teşvik etmek

1. Gün: FlashMLA

  • Hopper GPU’lar için verimli bir MLA decoding kernel
  • Değişken uzunluklu sequence serving için optimize edildi
  • Şu anda yayımlananlar
    • BF16
    • 64 blok boyutlu Paged kvcache
  • Benchmark: CUDA 12.6 kullanılarak H800 SXM5 üzerinde, bellek sınırlı yapılandırmada 3000GB/s’ye kadar, hesaplama sınırlı yapılandırmada ise 580 TFLOPS elde edildi

2. Gün: DeepEP

  • Mixture-of-Experts(MoE) ve Expert Parallelism(EP) için yüksek performanslı iletişim kütüphanesi
  • GPU tabanlı All-to-All kernel sağlayarak MoE dispatch ve combine işlemlerini yüksek hızda gerçekleştiriyor
  • FP8 gibi düşük hassasiyetli işlemleri destekliyor
  • DeepSeek-V3 makalesinde önerilen group-limited gating algoritmasını uygulayarak asimetrik alan bant genişliği yönlendirmesini optimize ediyor
    • Örnek: NVLink → RDMA veri aktarım optimizasyonu
    • Eğitim ve çıkarım prefilling işleri için uygun yüksek throughput sağlıyor
  • Gecikmeye duyarlı çıkarım decoding için yalnızca RDMA kullanan düşük gecikmeli kernel içeriyor
  • İletişim-hesaplama örtüşmesi tekniği sunuyor (SM kaynaklarını işgal etmiyor)

3. Gün: DeepGEMM

  • FP8 matris çarpımı (GEMM) işlemlerini verimli şekilde gerçekleştiren bir kütüphane; DeepSeek-V3’te önerilen ince ayarlı ölçekleme (fine-grained scaling) yöntemini destekliyor
  • Hem genel GEMM’i hem de Mix-of-Experts(MoE) gruplandırılmış GEMM’i destekliyor
  • CUDA tabanlı olarak geliştirildi ve kurulum sırasında ayrı derleme gerektirmeden hafif bir Just-In-Time(JIT) modülü ile kernel’leri çalışma anında derliyor
  • Şu anda yalnızca NVIDIA Hopper tensor core için destekleniyor
  • FP8 tensor core’un hatalı accumulation işlemlerini telafi etmek için CUDA core tabanlı çift accumulation (promotion) kullanıyor
  • CUTLASS ve CuTe’den bazı kavramları kullanıyor; ancak karmaşık template bağımlılıklarını azaltarak yaklaşık 300 satırlık kernel kodu içeren sade bir tasarım sunuyor
  • Hopper FP8 matris işlemleri ve optimizasyon tekniklerini öğrenmek için uygun
  • Hafif tasarımına rağmen çeşitli matris boyutlarında uzman seviyesinde ayarlanmış kütüphanelerle benzer veya daha iyi performans gösteriyor

4. Gün: Optimize edilmiş paralel işleme stratejileri: DualPipe, EPLB, Profile-Data

  • DeepSeek V3/R1’de kullanılan stratejiler ve kodlar
    • DualPipe: hesaplama-iletişim örtüşmesi için çift yönlü pipeline paralelleştirme algoritması
    • EPLB: Expert-Parallel load balancer
    • Profile-Data: hesaplama-iletişim örtüşmesini analiz etmek için DeepSeek altyapısının veri profillemesi

5. Gün: 3FS dosya sistemi ve Smallpond veri işleme çerçevesi

  • Fire-Flyer File System(3FS), yapay zeka eğitimi ve çıkarım iş yüklerini işlemek için tasarlanmış yüksek performanslı dağıtık dosya sistemi
  • Modern SSD’ler ve RDMA ağı kullanarak paylaşımlı bir depolama katmanı sağlıyor ve dağıtık uygulama geliştirmeyi basitleştiriyor
  • Temel özellikler ve avantajlar
    • Performans ve kullanılabilirlik
      • Ayrık mimari: binlerce SSD ile yüzlerce depolama düğümünün ağ bant genişliğini birleştirerek, veri yerelliğinden bağımsız biçimde depolama kaynaklarına erişim sağlıyor
      • Güçlü tutarlılık garantisi: tutarlılığı korumak için Chain Replication with Apportioned Queries(CRAQ) kullanıyor ve böylece uygulama kodunu sadeleştiriyor
      • Dosya arayüzü desteği: FoundationDB tabanlı transaction key-value store kullanan durumsuz metadata hizmeti sağlıyor. Mevcut dosya arayüzleri kullanıldığından yeni bir depolama API’si öğrenmek gerekmiyor
    • Çeşitli iş yüklerini destekleme
      • Veri hazırlama: veri analizi pipeline çıktısını hiyerarşik dizin yapısında düzenliyor ve büyük miktardaki ara çıktıyı verimli şekilde yönetiyor
      • Data loader optimizasyonu: veri setini önceden yüklemeye veya karıştırmaya gerek kalmadan, birden fazla compute node üzerinden eğitim örneklerine rastgele erişim sağlıyor
      • Checkpoint kaydetme: büyük ölçekli eğitim için yüksek hızlı paralel checkpoint kaydetmeyi destekliyor
      • KVCache tabanlı çıkarım optimizasyonu: DRAM tabanlı caching’e göre daha maliyet verimli; yüksek throughput ve büyük kapasite sunuyor
  • SmallPond - DuckDB ve 3FS üzerinde kurulu hafif veri işleme çerçevesi
    • Yüksek performanslı veri işleme, büyük ölçeklenebilirlik ve basit operasyon öne çıkıyor
      • Yüksek performanslı veri işleme: DuckDB kullanarak hızlı veri işleme
      • Büyük veri seti desteği: petabayt(PB) ölçeğinde veri işleyebilme
      • Kolay operasyon: uzun süre çalışan hizmetler olmadan rahat kullanım

6. Gün: V3/R1’in çıkarım sisteminin yapısı ile işletme maliyeti/geliri açıklandı

  • Sistem tasarım ilkesi: DeepSeek-V3/R1 çıkarım sisteminin optimizasyon hedefi daha yüksek throughput ve daha düşük gecikme
    • Bunun için cross-node Expert Parallelism(EP) uygulanarak optimizasyon yapıldı
  • DeepSeek işletme maliyeti
    • Ortalama 226 GPU düğümü (düğüm başına 8 adet H800 GPU)
    • Günlük işletme maliyeti: $87,072 (127 milyon won) - H800 başına saatlik $2
    • Teorik günlük gelir(R1 bazında): $562027 (820 milyon won) → kârlılık %545
    • Ancak gerçek gelir daha düşük (çünkü V3, R1’den daha ucuz ve hizmetin yalnızca bir kısmı gelirleştirildi)

2024 yapay zeka altyapı makalesi (SC24)

Fire-Flyer AI-HPC: derin öğrenme için maliyet verimli yazılım-donanım ortak tasarımı

  • Derin öğrenme(DL) ve büyük dil modellerinin(LLM) hızlı gelişimi nedeniyle hesaplama performansı ve bant genişliği talepleri katlanarak artıyor
  • Yüksek performanslı bilişim(HPC) kurulum maliyeti, hızlı işlem çipleri ve yüksek hızlı bağlantıların yüksek fiyatı nedeniyle keskin biçimde yükseliyor
  • Bunu çözmek için Fire-Flyer AI-HPC mimarisi tanıtıldı; donanım-yazılım ortak tasarımına dayalı olarak maliyet ve performans optimizasyonu sağlanıyor
    • 10.000 PCIe A100 GPU kullanan Fire-Flyer 2 sistemi kurularak DL eğitimi gerçekleştirildi
    • DGX-A100’e benzer performans sunarken maliyeti yarıya indiriyor ve enerji tüketimini %40 azaltıyor
  • Performans optimizasyonu unsurları
    • HFReduce: Allreduce iletişimini hızlandırarak GPU’lar arası veri senkronizasyonunu iyileştiriyor
    • Computation-Storage Integrated Network: ağ darboğazlarını önlemek için çeşitli congestion management teknikleri uyguluyor
    • Yazılım yığını: HaiScale, 3FS, HAI-Platform aracılığıyla hesaplama ve iletişimi örtüştürerek ölçeklenebilirliği en üst düzeye çıkarıyor

2 yorum

 
xguru 2025-02-23

DeepSeek gerçekten de çok ilginç bir yol izlemeyi sürdürüyor. Nelerin yayınlanacağını merak ediyorum.

 
GN⁺ 2025-02-22
Hacker News görüşleri
  • DeepSeek'in duyurusunu dört gözle bekleyip aynı zamanda onu aşırı analiz etmeyen tek kişinin ben olup olmadığını merak ediyorum. Bu başlık, kişisel yorumlarla dolu gibi geliyor

    • DeepSeek hâlâ bir şirket. Harika bir duyuru ama beklenti ve motivasyon biraz abartılıyor gibi
    • "saf garaj enerjisi" ifadesi hoşuma gitti
    • En çok onların çıkarım stack'ini merak ediyorum. Çoğu insan R1'i tek bir H200 node üzerinde çalıştırıyor ama DeepSeek çıkarım için GPU başına çok daha az RAM kullandı ve cluster tabanlı MoE deployment yaptı
    • OpenAI'nin Noel'in 12 günü etkinliğinden daha ilginç
  • Gelecek haftadan itibaren 5 repoyu open source yapacaklar. Her gün bir tane yayımlayacaklar

    • Bunun, duyurunun duyurusu olarak görülebileceği söylenebilir. Gerçek repolar yayımlanmadan önce çok tartışmamak daha iyi olabilir. Çünkü open source yapılacak şeyler hakkında ayrıntı yok
    • Bunlar çevrimiçi hizmetlerin mütevazı yapı taşları. Dokümante edilmiş, deploy edilmiş ve gerçek ortamda test edilmişler
  • DeepSeek'in yenilikçiliğine ve araştırmalarına büyük saygı duyuyorum. Yayınladıkları her şey için

    • "Paylaşılan her satır, yolculuğu hızlandıran kolektif bir momentum hâline gelir. Günlük kilit açılışları yakında başlıyor. Fildişi kuleden değil, saf garaj enerjisi ve topluluk odaklı inovasyon" ifadesi hoşuma gitti
  • Aslında OpenAI'yi tamamen dağıtıyorlar. Muhtemelen niyetlerinden bağımsız olarak

    • LLM'ler, çoğu CIO dergisinin "blokzincir stratejiniz nedir?" başlıklı makaleler yayımladığı zamankinden daha meşru bir "blokzincir" oldu
    • AI balonu patlayacak ve en geç 2026 sonuna kadar patlamış olacak
  • AI alanında hendeğin nerede olduğunu görmek ilginç. İyi temel modeller, API'lerine erişilebildiğinde her zaman distill edilebilir. Sistem prompt'ları sızabilir ve UI hileleri kopyalanabilir. Sonunda hendek donanımda ve dikey entegrasyonda olabilir

  • DeepSeek ile OpenAI isimlerini değiştirebilir mi?

  • Altyapı araçlarını open source yapmak, AI alanındaki inovasyonu gerçekten hızlandırabilir. İyi dokümante edilmiş repolara erişim, mevcut işleri denemeyi ve bunların üzerine inşa etmeyi çok daha kolaylaştırıyor

    • Bu repoların distributed training veya model serving gibi belirli alanlara odaklanıp odaklanmadığını merak ediyorum
  • Facebook ve DeepSeek tarafından temel modellerin kesin biçimde open source hâle getirildiği bir ortamda, şirket değerlemelerinin nasıl rekabet edebileceğini merak ediyorum. Çin ve Facebook bunların çoğunu esasen ücretsiz verdiği için, bu modelleri inşa etmenin yüz milyarlarca dolarlık değer yaratacağını sanmıyorum