DeepSeek v4: 1 milyon token bağlamı destekleyen yüksek verimli büyük dil modeli

(huggingface.co)

10 puan yazan GN⁺ 6 일 전 | 1 yorum | WhatsApp'ta paylaş

1M token bağlamı destekleyen, Mixture-of-Experts(MoE) tabanlı bir büyük dil modeli olarak duyuruldu; iki sürüm sunuluyor: Pro (1.6T parametre) ve Flash (284B parametre)
Compressed Sparse Attention(CSA) ile Heavily Compressed Attention(HCA)'yı birleştiren hibrit dikkat mimarisi sayesinde, 1 milyon token ölçütünde DeepSeek-V3.2'ye kıyasla çıkarım FLOPs'unun yalnızca %27'si, KV cache'in ise %10'u kullanılıyor
32T'nin üzerinde token ile ön eğitimden sonra, alan bazlı uzmanlar bağımsız olarak eğitilip ardından on-policy distillation ile tek bir modele entegre edilen 2 aşamalı bir sonradan eğitim hattı uygulanıyor
DeepSeek-V4-Pro-Max, LiveCodeBench 93.5, SWE Verified 80.6, Codeforces 3206 gibi kodlama benchmark'larında açık kaynakta en yüksek performansa ulaşıyor
Non-Think, Think High, Think Max olmak üzere üç çıkarım modu sunuyor; böylece günlük işlerden en zorlu akıl yürütme görevlerine kadar kullanım amacına göre seçim yapılabiliyor

Model genel bakışı ve mimari

DeepSeek-V4 serisi iki modelden oluşuyor: DeepSeek-V4-Pro (toplam 1.6T parametre, 49B aktif) ve DeepSeek-V4-Flash (toplam 284B parametre, 13B aktif)
Her iki model de 1 milyon token bağlam uzunluğunu destekliyor
Başlıca üç mimari ve optimizasyon yükseltmesi:
- Hybrid Attention Architecture: CSA ve HCA'yı birleştirerek uzun bağlam verimliliğini büyük ölçüde iyileştiriyor; 1 milyon token ölçütünde DeepSeek-V3.2'ye kıyasla tek token çıkarım FLOPs'u %27'ye, KV cache ise %10'a düşüyor
- Manifold-Constrained Hyper-Connections(mHC): mevcut residual bağlantıları güçlendirerek katmanlar arası sinyal iletim kararlılığı ile model ifade gücünü aynı anda sağlıyor
- Muon Optimizer: daha hızlı yakınsama ve daha yüksek eğitim kararlılığı sunuyor

Eğitim ve sonradan eğitim hattı

32T'nin üzerinde çeşitli ve yüksek kaliteli token ile ön eğitim gerçekleştirildi
Sonradan eğitimde 2 aşamalı paradigma uygulanıyor:
- 1. aşama: SFT ve RL (GRPO kullanılarak) ile alan bazlı uzmanlar bağımsız biçimde eğitiliyor
- 1. aşama: on-policy distillation ile farklı alanlardaki uzmanlık tek bir modelde birleştiriliyor

Çıkarım modları

Hem DeepSeek-V4-Pro hem de DeepSeek-V4-Flash, üç çıkarım modunu destekliyor:
- Non-Think: hızlı ve sezgisel yanıtlar; günlük işler veya düşük riskli kararlar için uygun
- Think High: bilinçli mantıksal analiz; karmaşık problem çözme veya planlama için uygun
- Think Max: akıl yürütme kapasitesini sınırlarına kadar genişletir; modelin çıkarım sınırlarını keşfetmek için

Benchmark performansı — Base modeller

DeepSeek-V4-Pro-Base, çoğu benchmark'ta V3.2-Base ve V4-Flash-Base'i geride bırakıyor:
- MMLU: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
- MMLU-Pro: 73.5 (V3.2-Base 65.5)
- Simple-QA Verified: 55.2 (V3.2-Base 28.3)
- FACTS Parametric: 62.6 (V3.2-Base 27.1)
- HumanEval: 76.8 (V3.2-Base 62.8)
- LongBench-V2: 51.5 (V3.2-Base 40.2)
V4-Flash-Base, yalnızca 13B aktif parametre ile V3.2-Base'in (37B aktif) verimliliğine yaklaşıyor veya bazı benchmark'larda onu geçiyor

Benchmark performansı — Instruct modelleri (V4-Pro-Max ve frontier modeller)

Kodlama benchmark'larında öne çıkıyor:
- LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
- Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
- Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
Bilgi ve akıl yürütme alanında:
- SimpleQA-Verified 57.9, Chinese-SimpleQA 84.4 ile çoğu modeli geçiyor, ancak Gemini-3.1-Pro High'ın (75.6, 85.9) gerisinde kalıyor
- GPQA Diamond 90.1, MMLU-Pro 87.5
Ajan görevleri:
- SWE Verified 80.6, MCPAtlas Public 73.6 gibi sonuçlarla üst sıralarda
- Terminal Bench 2.0 (67.9) ve HLE w/ tools (48.2) testlerinde bazı kapalı kaynak modellerin gerisinde
V4-Flash-Max, daha büyük bir thinking budget verildiğinde Pro sürümüne yakın çıkarım performansına ulaşıyor; ancak saf bilgi görevleri ve karmaşık ajan iş akışlarında parametre ölçeği farkı nedeniyle biraz geride kalıyor

Modlara göre performans karşılaştırması

Tüm benchmark'larda V4-Pro Max en yüksek performansı kaydediyor
Non-Think → Think High → Think Max yönünde performansın tutarlı biçimde arttığı bir desen görülüyor:
- Örnek: GPQA Diamond'da V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
- Örnek: LiveCodeBench'te V4-Flash Non-Think 55.2 → Max 91.6
V4-Flash Max, birçok benchmark'ta V4-Pro High ile benzer veya daha yüksek performans gösteriyor

Model indirme ve hassasiyet

Dört model sunuluyor: V4-Flash-Base, V4-Flash, V4-Pro-Base, V4-Pro
Base modeller FP8 Mixed hassasiyet, Instruct modeller ise FP4 + FP8 Mixed hassasiyet kullanıyor
- MoE uzman parametreleri FP4, geri kalanların çoğu FP8
HuggingFace ve ModelScope üzerinden indirilebiliyor

Sohbet şablonu ve yerelde çalıştırma

Jinja formatında sohbet şablonu dahil değil; bunun yerine encoding klasöründe OpenAI uyumlu formatta mesaj kodlama/ayrıştırma için Python betikleri ve test örnekleri sağlanıyor
Yerel dağıtım için önerilen örnekleme parametreleri: temperature 1.0, top_p 1.0
Think Max modunda en az 384K token bağlam penceresi öneriliyor

Lisans

Hem model ağırlıkları hem de depo için MIT License geçerli

1 yorum

GN⁺ 6 일 전

Hacker News yorumları

v4 pro gibi devasa bir modelde 1 milyon token çıktı başına fiyat yaklaşık 4 dolar; "ön saftaki laboratuvarlar çıkarımı çılgın seviyede sübvanse ederek çalıştırıyor" söyleminin gerçekten doğru olduğundan pek emin değilim
Abonelik modeli de gayet kârlı görünüyor, API fiyatlarıysa zaten ayrı bir konu
Girdi $1.74/M, çıktı ise OpenRouter'a göre $3.48/M
- Şu anda fiyatın yüksek olmasının bir açıklaması da DeepSeek'in çıkarım kartı kıtlığı
  Basın bülteninde, bu yılın ikinci yarısında Ascend 950 hesaplama kartı çıktığında Pro fiyatının ciddi biçimde düşeceğinin söylendiği aktarılıyor
- İşletme giderleri açısından kârlı olabilir, ama mevcut amortisman takvimi de dahil edilen sermaye maliyeti açısından henüz olmayabilir
  Yine de o maliyet tahminleri de son dönemde beklenenden daha yüksek çıkıyor gibi
- Ben de benzer düşünüyorum
  Abonelik hizmeti zaten kâr ediyor ve sübvansiyon söylemi sonunda kurumsal müşteri API'sinden daha yüksek marj çıkarmaya yönelik bir mantık gibi duruyor
- Bu tespit doğru, ama hâlâ bu fiyat bandını tutturabilen bir Batılı sağlayıcı yok
  Çin'de elektrik maliyetleri de daha düşük
Gösterişli basın bülteninden önce geliştirici dokümantasyonunun çıkmış olması tuhaf biçimde iç ısıtıcı
- Evet, gerçekten this is the way
- Buna açık kaynak demek istiyorsak eğitim verisi ve eğitim script'leri nerede diye sormak lazım
  Düzeltilmiş hâline bakılırsa üstteki yorumda geçen "open source" ifadesi kaldırılmış gibi
Şimdiden OpenRouter'a eklenmiş
Pro için girdi $1.74/m, çıktı $3.48/m; Flash içinse girdi $0.14/m, çıktı $0.28/m
- Bende burada Api Error çıkıyor
  Diğer tüm modeller normal çalışıyor
- https://openrouter.ai/deepseek/deepseek-v4-pro
  
  https://openrouter.ai/deepseek/deepseek-v4-flash
Çin'den gerçekten açık kaynak bir şey çıkması sevindirici
Gizli bir amaç olabilir, bunu biliyorum, ama yine de insana iyi geliyor
- ABD'li şirketler model erişimi için para alırken bile aşırı düzeyde kimlik doğrulama istiyor, verileri saklayıp analiz ve eğitim için kullanıyor, istek gelirse yetkililere de verebileceklerini açıkça söylüyor
  Çin'in gizli amacı bir varsayım; ABD tarafındakilerse açık açık ortada
- Çinli laboratuvarların neden modelleri yayımladığını anlamak için şu yazı faydalı olabilir
  http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
- Bu sadece open weights
1.6T Pro base model Hugging Face'e yüklenmiş
Burada ilk kez T ölçeğinde model ifadesi görüyorum
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

Model yayımlanmış ve oldukça etkileyici görünüyor
Ön saftaki modeller düzeyinde performans sunuyor ama maliyeti çok daha düşük; Opus 4.6'dan daha iyi hissettiriyor
- Artık modeli özellikle Opus ile kıyaslamaya gerek var mı emin değilim
  Opus kullanıcıları zaten onun en iyisi olduğuna inanmaya devam edecek, kullanmayanlarsa o maliyet, kilitlenme ve kısıtları istemiyor
  Benim gibi kullanmayan biri için hâlâ iş bitiren en ucuz ve en hızlı model önemli; şu an bu rolü MiniMax M2.5 üstleniyor
  Arada daha pahalı yeni modelleri de deniyorum ama sonuçlar benzer kalıyor; bu da bana yapay zeka sektörünün geneline yayılmış bir abartı olup olmadığı sorusunu düşündürüyor, sanki ilerleme sadece benchmark'larda varmış gibi
- Opus 4.7 ile kıyaslandığında nasıl acaba?
  Bu hafta boyunca Anthropic Opus 4.7 hackathon'una katılıp 4.7'yi yoğun kullandım; 4.6'ya göre çok daha fazla token tüketse de oldukça etkileyiciydi
- Gerçekten Opus 4.6'dan daha mı iyi, yoksa sadece benchmark optimizasyonu mu güçlü, merak ediyorum
  Ajan harness'iyle gerçek kod yazımı da denendi mi bilmek isterim
  Kodlama yeteneği Claude Code + Opus 4.6'dan iyiyse hemen geçmeyi düşünürüm
- Yine aynı hikâye gibi geliyor
  Her gün Opus 4.6'dan daha iyi diyen yeni bir çıkış gönderisi görüyoruz ama DeepSeek bile thinking dahil ölçümlerde opus'tan daha iyi olduğunu iddia etmiyor
  Dsv3, benchmark şişirmeye odaklı bir model değildi; benchmark dışı görevlerde de epey tutarlıydı ve SoTA olmasa da gayet iyiydi
  Bu model de benzer görünüyor
  En üst performansın hemen altında ama fark büyük değil, fiyatıysa çok daha düşük
  Büyük model şu anda ds tarafından doğrudan $1.74 in / $3.48 out / $0.14 cache fiyatıyla sunuluyor; verdiği değere göre çok ucuz
  Küçük model ise $0.14 in / $0.28 out / $0.028 cache; yani fiilen o kadar ucuz ki dert etmeye gerek yok denecek seviyede ve evde çalıştırmak için gerçekçi bir aday olabilir
  Performans da yeterliyse haiku veya gemini-flash ailesiyle rahatça rekabet edebilir gibi
- Yayımlanan benchmark sayılarına kabaca baktım; ikisinin de puan aldığı 20 ölçütte toplam 20.1 yüzde puanlık fark çıkıyor
  Ortalama iyileşme yaklaşık %2 civarında; bunun çok büyük mü yoksa önemsiz mi olduğu açıkçası belirsiz
  Claude 4.6, uzun bağlamlı soru-cevapta, özellikle CorpusQA corpus'larında ve MRCR'nin çok turlu diyaloglarında neredeyse 10 puan daha iyiydi
  Buna karşılık DSv4, IMOAnswerBench'te tam 14 puan, SimpleQA-Verified'da ise 12 puan daha yüksekti
Ağırlıkları buradan indirebilirsiniz
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
- https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
  https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
  
  Yeni base modelin de gelmiş olması gerçekten güzel
Bu alana çok ilgiliyim ve kişisel olarak da içindeyim ama dürüst olmak gerekirse artık her şeyi takip etmeye çalışmak tükenmişlik yaratıyor
Yapay zeka gelişimini takip edebilmek için artık yapay zekanın yapay zeka gelişimini özetlemesi gereken noktayı çoktan geçmişiz gibi geliyor
- Takip etmeye çalışma bence
  Haberler gibi; gerçekten bilmen gereken bir şey olduğunda birileri zaten önce sana söylemiş olur
- Temel oyuncular neredeyse hiç değişmiyor
  Spor takip eder gibi bakılabilir; zirvenin el değiştirmesini kabul edince o kadar da yorucu olmuyor
- Bana kalırsa GPT-4'ten sonra her şey birbirine benziyor
  Yeni modeller çıkıyor ama hikâye hep birkaç benchmark'ta daha iyi oldukları yönünde; gerçekten kullanırken yaşanan öznel deneyimse neredeyse aynı kalıyor
  O zamandan beri gerçekten şaşırtıcı çok az şey oldu; şu anda da sanki sadece meraklı çekirdek kitlenin ilgisini çekmeye devam eden bir durgunluk var
High Flyer'ın bunu yapmak için Anthropic'i açıkça taklit etmiş olmasından bile daha rahatsız edici olan şey, GAB'in bunun içine xz düzeyinde easter egg'ler yerleştirmek için fazlasıyla zaman kazandırmış olması
Az önce OpenRouter üzerinden Pi Coding agent ile denedim; read ve write araçlarını düzgün kullanamadığı durumlar sık yaşanıyor
Oldukça hayal kırıklığı yarattı; "doğrudan çağrı kullanma, her zaman sağlanan araçları kullan" gibi prompt'lar dışında daha iyi bir çözüm olup olmadığını merak ediyorum
- Daha çok yeni çıktı, biraz beklemek iyi olabilir
  Muhtemelen Pi ile ön testler henüz yeterince yapılmadı

DeepSeek v4: 1 milyon token bağlamı destekleyen yüksek verimli büyük dil modeli

Model genel bakışı ve mimari

Eğitim ve sonradan eğitim hattı

Çıkarım modları

Benchmark performansı — Base modeller

Benchmark performansı — Instruct modelleri (V4-Pro-Max ve frontier modeller)

Modlara göre performans karşılaştırması

Model indirme ve hassasiyet

Sohbet şablonu ve yerelde çalıştırma

Lisans

İlgili okumalar

1 yorum

Hacker News yorumları