10 puan yazan GN⁺ 5 일 전 | 1 yorum | WhatsApp'ta paylaş
  • 1M token bağlamı destekleyen, Mixture-of-Experts(MoE) tabanlı bir büyük dil modeli olarak duyuruldu; iki sürüm sunuluyor: Pro (1.6T parametre) ve Flash (284B parametre)
  • Compressed Sparse Attention(CSA) ile Heavily Compressed Attention(HCA)'yı birleştiren hibrit dikkat mimarisi sayesinde, 1 milyon token ölçütünde DeepSeek-V3.2'ye kıyasla çıkarım FLOPs'unun yalnızca %27'si, KV cache'in ise %10'u kullanılıyor
  • 32T'nin üzerinde token ile ön eğitimden sonra, alan bazlı uzmanlar bağımsız olarak eğitilip ardından on-policy distillation ile tek bir modele entegre edilen 2 aşamalı bir sonradan eğitim hattı uygulanıyor
  • DeepSeek-V4-Pro-Max, LiveCodeBench 93.5, SWE Verified 80.6, Codeforces 3206 gibi kodlama benchmark'larında açık kaynakta en yüksek performansa ulaşıyor
  • Non-Think, Think High, Think Max olmak üzere üç çıkarım modu sunuyor; böylece günlük işlerden en zorlu akıl yürütme görevlerine kadar kullanım amacına göre seçim yapılabiliyor

Model genel bakışı ve mimari

  • DeepSeek-V4 serisi iki modelden oluşuyor: DeepSeek-V4-Pro (toplam 1.6T parametre, 49B aktif) ve DeepSeek-V4-Flash (toplam 284B parametre, 13B aktif)
  • Her iki model de 1 milyon token bağlam uzunluğunu destekliyor
  • Başlıca üç mimari ve optimizasyon yükseltmesi:
    • Hybrid Attention Architecture: CSA ve HCA'yı birleştirerek uzun bağlam verimliliğini büyük ölçüde iyileştiriyor; 1 milyon token ölçütünde DeepSeek-V3.2'ye kıyasla tek token çıkarım FLOPs'u %27'ye, KV cache ise %10'a düşüyor
    • Manifold-Constrained Hyper-Connections(mHC): mevcut residual bağlantıları güçlendirerek katmanlar arası sinyal iletim kararlılığı ile model ifade gücünü aynı anda sağlıyor
    • Muon Optimizer: daha hızlı yakınsama ve daha yüksek eğitim kararlılığı sunuyor

Eğitim ve sonradan eğitim hattı

  • 32T'nin üzerinde çeşitli ve yüksek kaliteli token ile ön eğitim gerçekleştirildi
  • Sonradan eğitimde 2 aşamalı paradigma uygulanıyor:
      1. aşama: SFT ve RL (GRPO kullanılarak) ile alan bazlı uzmanlar bağımsız biçimde eğitiliyor
      1. aşama: on-policy distillation ile farklı alanlardaki uzmanlık tek bir modelde birleştiriliyor

Çıkarım modları

  • Hem DeepSeek-V4-Pro hem de DeepSeek-V4-Flash, üç çıkarım modunu destekliyor:
    • Non-Think: hızlı ve sezgisel yanıtlar; günlük işler veya düşük riskli kararlar için uygun
    • Think High: bilinçli mantıksal analiz; karmaşık problem çözme veya planlama için uygun
    • Think Max: akıl yürütme kapasitesini sınırlarına kadar genişletir; modelin çıkarım sınırlarını keşfetmek için

Benchmark performansı — Base modeller

  • DeepSeek-V4-Pro-Base, çoğu benchmark'ta V3.2-Base ve V4-Flash-Base'i geride bırakıyor:
    • MMLU: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
    • MMLU-Pro: 73.5 (V3.2-Base 65.5)
    • Simple-QA Verified: 55.2 (V3.2-Base 28.3)
    • FACTS Parametric: 62.6 (V3.2-Base 27.1)
    • HumanEval: 76.8 (V3.2-Base 62.8)
    • LongBench-V2: 51.5 (V3.2-Base 40.2)
  • V4-Flash-Base, yalnızca 13B aktif parametre ile V3.2-Base'in (37B aktif) verimliliğine yaklaşıyor veya bazı benchmark'larda onu geçiyor

Benchmark performansı — Instruct modelleri (V4-Pro-Max ve frontier modeller)

  • Kodlama benchmark'larında öne çıkıyor:
    • LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
    • Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
    • Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
  • Bilgi ve akıl yürütme alanında:
    • SimpleQA-Verified 57.9, Chinese-SimpleQA 84.4 ile çoğu modeli geçiyor, ancak Gemini-3.1-Pro High'ın (75.6, 85.9) gerisinde kalıyor
    • GPQA Diamond 90.1, MMLU-Pro 87.5
  • Ajan görevleri:
    • SWE Verified 80.6, MCPAtlas Public 73.6 gibi sonuçlarla üst sıralarda
    • Terminal Bench 2.0 (67.9) ve HLE w/ tools (48.2) testlerinde bazı kapalı kaynak modellerin gerisinde
  • V4-Flash-Max, daha büyük bir thinking budget verildiğinde Pro sürümüne yakın çıkarım performansına ulaşıyor; ancak saf bilgi görevleri ve karmaşık ajan iş akışlarında parametre ölçeği farkı nedeniyle biraz geride kalıyor

Modlara göre performans karşılaştırması

  • Tüm benchmark'larda V4-Pro Max en yüksek performansı kaydediyor
  • Non-Think → Think High → Think Max yönünde performansın tutarlı biçimde arttığı bir desen görülüyor:
    • Örnek: GPQA Diamond'da V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
    • Örnek: LiveCodeBench'te V4-Flash Non-Think 55.2 → Max 91.6
  • V4-Flash Max, birçok benchmark'ta V4-Pro High ile benzer veya daha yüksek performans gösteriyor

Model indirme ve hassasiyet

  • Dört model sunuluyor: V4-Flash-Base, V4-Flash, V4-Pro-Base, V4-Pro
  • Base modeller FP8 Mixed hassasiyet, Instruct modeller ise FP4 + FP8 Mixed hassasiyet kullanıyor
    • MoE uzman parametreleri FP4, geri kalanların çoğu FP8
  • HuggingFace ve ModelScope üzerinden indirilebiliyor

Sohbet şablonu ve yerelde çalıştırma

  • Jinja formatında sohbet şablonu dahil değil; bunun yerine encoding klasöründe OpenAI uyumlu formatta mesaj kodlama/ayrıştırma için Python betikleri ve test örnekleri sağlanıyor
  • Yerel dağıtım için önerilen örnekleme parametreleri: temperature 1.0, top_p 1.0
  • Think Max modunda en az 384K token bağlam penceresi öneriliyor

Lisans

  • Hem model ağırlıkları hem de depo için MIT License geçerli

1 yorum

 
GN⁺ 5 일 전
Hacker News yorumları
  • v4 pro gibi devasa bir modelde 1 milyon token çıktı başına fiyat yaklaşık 4 dolar; "ön saftaki laboratuvarlar çıkarımı çılgın seviyede sübvanse ederek çalıştırıyor" söyleminin gerçekten doğru olduğundan pek emin değilim
    Abonelik modeli de gayet kârlı görünüyor, API fiyatlarıysa zaten ayrı bir konu
    Girdi $1.74/M, çıktı ise OpenRouter'a göre $3.48/M

    • Şu anda fiyatın yüksek olmasının bir açıklaması da DeepSeek'in çıkarım kartı kıtlığı
      Basın bülteninde, bu yılın ikinci yarısında Ascend 950 hesaplama kartı çıktığında Pro fiyatının ciddi biçimde düşeceğinin söylendiği aktarılıyor
    • İşletme giderleri açısından kârlı olabilir, ama mevcut amortisman takvimi de dahil edilen sermaye maliyeti açısından henüz olmayabilir
      Yine de o maliyet tahminleri de son dönemde beklenenden daha yüksek çıkıyor gibi
    • Ben de benzer düşünüyorum
      Abonelik hizmeti zaten kâr ediyor ve sübvansiyon söylemi sonunda kurumsal müşteri API'sinden daha yüksek marj çıkarmaya yönelik bir mantık gibi duruyor
    • Bu tespit doğru, ama hâlâ bu fiyat bandını tutturabilen bir Batılı sağlayıcı yok
      Çin'de elektrik maliyetleri de daha düşük
  • Gösterişli basın bülteninden önce geliştirici dokümantasyonunun çıkmış olması tuhaf biçimde iç ısıtıcı

    • Evet, gerçekten this is the way
    • Buna açık kaynak demek istiyorsak eğitim verisi ve eğitim script'leri nerede diye sormak lazım
      Düzeltilmiş hâline bakılırsa üstteki yorumda geçen "open source" ifadesi kaldırılmış gibi
  • Şimdiden OpenRouter'a eklenmiş
    Pro için girdi $1.74/m, çıktı $3.48/m; Flash içinse girdi $0.14/m, çıktı $0.28/m

  • Çin'den gerçekten açık kaynak bir şey çıkması sevindirici
    Gizli bir amaç olabilir, bunu biliyorum, ama yine de insana iyi geliyor

    • ABD'li şirketler model erişimi için para alırken bile aşırı düzeyde kimlik doğrulama istiyor, verileri saklayıp analiz ve eğitim için kullanıyor, istek gelirse yetkililere de verebileceklerini açıkça söylüyor
      Çin'in gizli amacı bir varsayım; ABD tarafındakilerse açık açık ortada
    • Çinli laboratuvarların neden modelleri yayımladığını anlamak için şu yazı faydalı olabilir
      http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
    • Bu sadece open weights
  • 1.6T Pro base model Hugging Face'e yüklenmiş
    Burada ilk kez T ölçeğinde model ifadesi görüyorum

  • https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

    Model yayımlanmış ve oldukça etkileyici görünüyor
    Ön saftaki modeller düzeyinde performans sunuyor ama maliyeti çok daha düşük; Opus 4.6'dan daha iyi hissettiriyor

    • Artık modeli özellikle Opus ile kıyaslamaya gerek var mı emin değilim
      Opus kullanıcıları zaten onun en iyisi olduğuna inanmaya devam edecek, kullanmayanlarsa o maliyet, kilitlenme ve kısıtları istemiyor
      Benim gibi kullanmayan biri için hâlâ iş bitiren en ucuz ve en hızlı model önemli; şu an bu rolü MiniMax M2.5 üstleniyor
      Arada daha pahalı yeni modelleri de deniyorum ama sonuçlar benzer kalıyor; bu da bana yapay zeka sektörünün geneline yayılmış bir abartı olup olmadığı sorusunu düşündürüyor, sanki ilerleme sadece benchmark'larda varmış gibi
    • Opus 4.7 ile kıyaslandığında nasıl acaba?
      Bu hafta boyunca Anthropic Opus 4.7 hackathon'una katılıp 4.7'yi yoğun kullandım; 4.6'ya göre çok daha fazla token tüketse de oldukça etkileyiciydi
    • Gerçekten Opus 4.6'dan daha mı iyi, yoksa sadece benchmark optimizasyonu mu güçlü, merak ediyorum
      Ajan harness'iyle gerçek kod yazımı da denendi mi bilmek isterim
      Kodlama yeteneği Claude Code + Opus 4.6'dan iyiyse hemen geçmeyi düşünürüm
    • Yine aynı hikâye gibi geliyor
      Her gün Opus 4.6'dan daha iyi diyen yeni bir çıkış gönderisi görüyoruz ama DeepSeek bile thinking dahil ölçümlerde opus'tan daha iyi olduğunu iddia etmiyor
      Dsv3, benchmark şişirmeye odaklı bir model değildi; benchmark dışı görevlerde de epey tutarlıydı ve SoTA olmasa da gayet iyiydi
      Bu model de benzer görünüyor
      En üst performansın hemen altında ama fark büyük değil, fiyatıysa çok daha düşük
      Büyük model şu anda ds tarafından doğrudan $1.74 in / $3.48 out / $0.14 cache fiyatıyla sunuluyor; verdiği değere göre çok ucuz
      Küçük model ise $0.14 in / $0.28 out / $0.028 cache; yani fiilen o kadar ucuz ki dert etmeye gerek yok denecek seviyede ve evde çalıştırmak için gerçekçi bir aday olabilir
      Performans da yeterliyse haiku veya gemini-flash ailesiyle rahatça rekabet edebilir gibi
    • Yayımlanan benchmark sayılarına kabaca baktım; ikisinin de puan aldığı 20 ölçütte toplam 20.1 yüzde puanlık fark çıkıyor
      Ortalama iyileşme yaklaşık %2 civarında; bunun çok büyük mü yoksa önemsiz mi olduğu açıkçası belirsiz
      Claude 4.6, uzun bağlamlı soru-cevapta, özellikle CorpusQA corpus'larında ve MRCR'nin çok turlu diyaloglarında neredeyse 10 puan daha iyiydi
      Buna karşılık DSv4, IMOAnswerBench'te tam 14 puan, SimpleQA-Verified'da ise 12 puan daha yüksekti
  • Ağırlıkları buradan indirebilirsiniz
    https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

  • Bu alana çok ilgiliyim ve kişisel olarak da içindeyim ama dürüst olmak gerekirse artık her şeyi takip etmeye çalışmak tükenmişlik yaratıyor
    Yapay zeka gelişimini takip edebilmek için artık yapay zekanın yapay zeka gelişimini özetlemesi gereken noktayı çoktan geçmişiz gibi geliyor

    • Takip etmeye çalışma bence
      Haberler gibi; gerçekten bilmen gereken bir şey olduğunda birileri zaten önce sana söylemiş olur
    • Temel oyuncular neredeyse hiç değişmiyor
      Spor takip eder gibi bakılabilir; zirvenin el değiştirmesini kabul edince o kadar da yorucu olmuyor
    • Bana kalırsa GPT-4'ten sonra her şey birbirine benziyor
      Yeni modeller çıkıyor ama hikâye hep birkaç benchmark'ta daha iyi oldukları yönünde; gerçekten kullanırken yaşanan öznel deneyimse neredeyse aynı kalıyor
      O zamandan beri gerçekten şaşırtıcı çok az şey oldu; şu anda da sanki sadece meraklı çekirdek kitlenin ilgisini çekmeye devam eden bir durgunluk var
  • High Flyer'ın bunu yapmak için Anthropic'i açıkça taklit etmiş olmasından bile daha rahatsız edici olan şey, GAB'in bunun içine xz düzeyinde easter egg'ler yerleştirmek için fazlasıyla zaman kazandırmış olması

  • Az önce OpenRouter üzerinden Pi Coding agent ile denedim; read ve write araçlarını düzgün kullanamadığı durumlar sık yaşanıyor
    Oldukça hayal kırıklığı yarattı; "doğrudan çağrı kullanma, her zaman sağlanan araçları kullan" gibi prompt'lar dışında daha iyi bir çözüm olup olmadığını merak ediyorum

    • Daha çok yeni çıktı, biraz beklemek iyi olabilir
      Muhtemelen Pi ile ön testler henüz yeterince yapılmadı