- 1M token bağlamı destekleyen, Mixture-of-Experts(MoE) tabanlı bir büyük dil modeli olarak duyuruldu; iki sürüm sunuluyor: Pro (1.6T parametre) ve Flash (284B parametre)
- Compressed Sparse Attention(CSA) ile Heavily Compressed Attention(HCA)'yı birleştiren hibrit dikkat mimarisi sayesinde, 1 milyon token ölçütünde DeepSeek-V3.2'ye kıyasla çıkarım FLOPs'unun yalnızca %27'si, KV cache'in ise %10'u kullanılıyor
- 32T'nin üzerinde token ile ön eğitimden sonra, alan bazlı uzmanlar bağımsız olarak eğitilip ardından on-policy distillation ile tek bir modele entegre edilen 2 aşamalı bir sonradan eğitim hattı uygulanıyor
- DeepSeek-V4-Pro-Max, LiveCodeBench 93.5, SWE Verified 80.6, Codeforces 3206 gibi kodlama benchmark'larında açık kaynakta en yüksek performansa ulaşıyor
- Non-Think, Think High, Think Max olmak üzere üç çıkarım modu sunuyor; böylece günlük işlerden en zorlu akıl yürütme görevlerine kadar kullanım amacına göre seçim yapılabiliyor
Model genel bakışı ve mimari
- DeepSeek-V4 serisi iki modelden oluşuyor: DeepSeek-V4-Pro (toplam 1.6T parametre, 49B aktif) ve DeepSeek-V4-Flash (toplam 284B parametre, 13B aktif)
- Her iki model de 1 milyon token bağlam uzunluğunu destekliyor
- Başlıca üç mimari ve optimizasyon yükseltmesi:
- Hybrid Attention Architecture: CSA ve HCA'yı birleştirerek uzun bağlam verimliliğini büyük ölçüde iyileştiriyor; 1 milyon token ölçütünde DeepSeek-V3.2'ye kıyasla tek token çıkarım FLOPs'u %27'ye, KV cache ise %10'a düşüyor
- Manifold-Constrained Hyper-Connections(mHC): mevcut residual bağlantıları güçlendirerek katmanlar arası sinyal iletim kararlılığı ile model ifade gücünü aynı anda sağlıyor
- Muon Optimizer: daha hızlı yakınsama ve daha yüksek eğitim kararlılığı sunuyor
Eğitim ve sonradan eğitim hattı
- 32T'nin üzerinde çeşitli ve yüksek kaliteli token ile ön eğitim gerçekleştirildi
- Sonradan eğitimde 2 aşamalı paradigma uygulanıyor:
-
- aşama: SFT ve RL (GRPO kullanılarak) ile alan bazlı uzmanlar bağımsız biçimde eğitiliyor
-
- aşama: on-policy distillation ile farklı alanlardaki uzmanlık tek bir modelde birleştiriliyor
Çıkarım modları
- Hem DeepSeek-V4-Pro hem de DeepSeek-V4-Flash, üç çıkarım modunu destekliyor:
- Non-Think: hızlı ve sezgisel yanıtlar; günlük işler veya düşük riskli kararlar için uygun
- Think High: bilinçli mantıksal analiz; karmaşık problem çözme veya planlama için uygun
- Think Max: akıl yürütme kapasitesini sınırlarına kadar genişletir; modelin çıkarım sınırlarını keşfetmek için
Benchmark performansı — Base modeller
- DeepSeek-V4-Pro-Base, çoğu benchmark'ta V3.2-Base ve V4-Flash-Base'i geride bırakıyor:
- MMLU: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
- MMLU-Pro: 73.5 (V3.2-Base 65.5)
- Simple-QA Verified: 55.2 (V3.2-Base 28.3)
- FACTS Parametric: 62.6 (V3.2-Base 27.1)
- HumanEval: 76.8 (V3.2-Base 62.8)
- LongBench-V2: 51.5 (V3.2-Base 40.2)
- V4-Flash-Base, yalnızca 13B aktif parametre ile V3.2-Base'in (37B aktif) verimliliğine yaklaşıyor veya bazı benchmark'larda onu geçiyor
Benchmark performansı — Instruct modelleri (V4-Pro-Max ve frontier modeller)
- Kodlama benchmark'larında öne çıkıyor:
- LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
- Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
- Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
- Bilgi ve akıl yürütme alanında:
- SimpleQA-Verified 57.9, Chinese-SimpleQA 84.4 ile çoğu modeli geçiyor, ancak Gemini-3.1-Pro High'ın (75.6, 85.9) gerisinde kalıyor
- GPQA Diamond 90.1, MMLU-Pro 87.5
- Ajan görevleri:
- SWE Verified 80.6, MCPAtlas Public 73.6 gibi sonuçlarla üst sıralarda
- Terminal Bench 2.0 (67.9) ve HLE w/ tools (48.2) testlerinde bazı kapalı kaynak modellerin gerisinde
- V4-Flash-Max, daha büyük bir thinking budget verildiğinde Pro sürümüne yakın çıkarım performansına ulaşıyor; ancak saf bilgi görevleri ve karmaşık ajan iş akışlarında parametre ölçeği farkı nedeniyle biraz geride kalıyor
Modlara göre performans karşılaştırması
- Tüm benchmark'larda V4-Pro Max en yüksek performansı kaydediyor
- Non-Think → Think High → Think Max yönünde performansın tutarlı biçimde arttığı bir desen görülüyor:
- Örnek: GPQA Diamond'da V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
- Örnek: LiveCodeBench'te V4-Flash Non-Think 55.2 → Max 91.6
- V4-Flash Max, birçok benchmark'ta V4-Pro High ile benzer veya daha yüksek performans gösteriyor
Model indirme ve hassasiyet
- Dört model sunuluyor: V4-Flash-Base, V4-Flash, V4-Pro-Base, V4-Pro
- Base modeller FP8 Mixed hassasiyet, Instruct modeller ise FP4 + FP8 Mixed hassasiyet kullanıyor
- MoE uzman parametreleri FP4, geri kalanların çoğu FP8
- HuggingFace ve ModelScope üzerinden indirilebiliyor
Sohbet şablonu ve yerelde çalıştırma
- Jinja formatında sohbet şablonu dahil değil; bunun yerine
encoding klasöründe OpenAI uyumlu formatta mesaj kodlama/ayrıştırma için Python betikleri ve test örnekleri sağlanıyor
- Yerel dağıtım için önerilen örnekleme parametreleri: temperature 1.0, top_p 1.0
- Think Max modunda en az 384K token bağlam penceresi öneriliyor
Lisans
- Hem model ağırlıkları hem de depo için MIT License geçerli
1 yorum
Hacker News yorumları
v4 pro gibi devasa bir modelde 1 milyon token çıktı başına fiyat yaklaşık 4 dolar; "ön saftaki laboratuvarlar çıkarımı çılgın seviyede sübvanse ederek çalıştırıyor" söyleminin gerçekten doğru olduğundan pek emin değilim
Abonelik modeli de gayet kârlı görünüyor, API fiyatlarıysa zaten ayrı bir konu
Girdi $1.74/M, çıktı ise OpenRouter'a göre $3.48/M
Basın bülteninde, bu yılın ikinci yarısında Ascend 950 hesaplama kartı çıktığında Pro fiyatının ciddi biçimde düşeceğinin söylendiği aktarılıyor
Yine de o maliyet tahminleri de son dönemde beklenenden daha yüksek çıkıyor gibi
Abonelik hizmeti zaten kâr ediyor ve sübvansiyon söylemi sonunda kurumsal müşteri API'sinden daha yüksek marj çıkarmaya yönelik bir mantık gibi duruyor
Çin'de elektrik maliyetleri de daha düşük
Gösterişli basın bülteninden önce geliştirici dokümantasyonunun çıkmış olması tuhaf biçimde iç ısıtıcı
Düzeltilmiş hâline bakılırsa üstteki yorumda geçen "open source" ifadesi kaldırılmış gibi
Şimdiden OpenRouter'a eklenmiş
Pro için girdi $1.74/m, çıktı $3.48/m; Flash içinse girdi $0.14/m, çıktı $0.28/m
Bende burada Api Error çıkıyor
Diğer tüm modeller normal çalışıyor
https://openrouter.ai/deepseek/deepseek-v4-pro
https://openrouter.ai/deepseek/deepseek-v4-flash
Çin'den gerçekten açık kaynak bir şey çıkması sevindirici
Gizli bir amaç olabilir, bunu biliyorum, ama yine de insana iyi geliyor
Çin'in gizli amacı bir varsayım; ABD tarafındakilerse açık açık ortada
http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
1.6T Pro base model Hugging Face'e yüklenmiş
Burada ilk kez T ölçeğinde model ifadesi görüyorum
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
Model yayımlanmış ve oldukça etkileyici görünüyor
Ön saftaki modeller düzeyinde performans sunuyor ama maliyeti çok daha düşük; Opus 4.6'dan daha iyi hissettiriyor
Opus kullanıcıları zaten onun en iyisi olduğuna inanmaya devam edecek, kullanmayanlarsa o maliyet, kilitlenme ve kısıtları istemiyor
Benim gibi kullanmayan biri için hâlâ iş bitiren en ucuz ve en hızlı model önemli; şu an bu rolü MiniMax M2.5 üstleniyor
Arada daha pahalı yeni modelleri de deniyorum ama sonuçlar benzer kalıyor; bu da bana yapay zeka sektörünün geneline yayılmış bir abartı olup olmadığı sorusunu düşündürüyor, sanki ilerleme sadece benchmark'larda varmış gibi
Bu hafta boyunca Anthropic Opus 4.7 hackathon'una katılıp 4.7'yi yoğun kullandım; 4.6'ya göre çok daha fazla token tüketse de oldukça etkileyiciydi
Ajan harness'iyle gerçek kod yazımı da denendi mi bilmek isterim
Kodlama yeteneği Claude Code + Opus 4.6'dan iyiyse hemen geçmeyi düşünürüm
Her gün Opus 4.6'dan daha iyi diyen yeni bir çıkış gönderisi görüyoruz ama DeepSeek bile thinking dahil ölçümlerde opus'tan daha iyi olduğunu iddia etmiyor
Dsv3, benchmark şişirmeye odaklı bir model değildi; benchmark dışı görevlerde de epey tutarlıydı ve SoTA olmasa da gayet iyiydi
Bu model de benzer görünüyor
En üst performansın hemen altında ama fark büyük değil, fiyatıysa çok daha düşük
Büyük model şu anda ds tarafından doğrudan $1.74 in / $3.48 out / $0.14 cache fiyatıyla sunuluyor; verdiği değere göre çok ucuz
Küçük model ise $0.14 in / $0.28 out / $0.028 cache; yani fiilen o kadar ucuz ki dert etmeye gerek yok denecek seviyede ve evde çalıştırmak için gerçekçi bir aday olabilir
Performans da yeterliyse haiku veya gemini-flash ailesiyle rahatça rekabet edebilir gibi
Ortalama iyileşme yaklaşık %2 civarında; bunun çok büyük mü yoksa önemsiz mi olduğu açıkçası belirsiz
Claude 4.6, uzun bağlamlı soru-cevapta, özellikle CorpusQA corpus'larında ve MRCR'nin çok turlu diyaloglarında neredeyse 10 puan daha iyiydi
Buna karşılık DSv4, IMOAnswerBench'te tam 14 puan, SimpleQA-Verified'da ise 12 puan daha yüksekti
Ağırlıkları buradan indirebilirsiniz
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
Yeni base modelin de gelmiş olması gerçekten güzel
Bu alana çok ilgiliyim ve kişisel olarak da içindeyim ama dürüst olmak gerekirse artık her şeyi takip etmeye çalışmak tükenmişlik yaratıyor
Yapay zeka gelişimini takip edebilmek için artık yapay zekanın yapay zeka gelişimini özetlemesi gereken noktayı çoktan geçmişiz gibi geliyor
Haberler gibi; gerçekten bilmen gereken bir şey olduğunda birileri zaten önce sana söylemiş olur
Spor takip eder gibi bakılabilir; zirvenin el değiştirmesini kabul edince o kadar da yorucu olmuyor
Yeni modeller çıkıyor ama hikâye hep birkaç benchmark'ta daha iyi oldukları yönünde; gerçekten kullanırken yaşanan öznel deneyimse neredeyse aynı kalıyor
O zamandan beri gerçekten şaşırtıcı çok az şey oldu; şu anda da sanki sadece meraklı çekirdek kitlenin ilgisini çekmeye devam eden bir durgunluk var
High Flyer'ın bunu yapmak için Anthropic'i açıkça taklit etmiş olmasından bile daha rahatsız edici olan şey, GAB'in bunun içine xz düzeyinde easter egg'ler yerleştirmek için fazlasıyla zaman kazandırmış olması
Az önce OpenRouter üzerinden Pi Coding agent ile denedim; read ve write araçlarını düzgün kullanamadığı durumlar sık yaşanıyor
Oldukça hayal kırıklığı yarattı; "doğrudan çağrı kullanma, her zaman sağlanan araçları kullan" gibi prompt'lar dışında daha iyi bir çözüm olup olmadığını merak ediyorum
Muhtemelen Pi ile ön testler henüz yeterince yapılmadı