DeepSeek V4 – frontier’a neredeyse ulaştı ve fiyatı çok daha ucuz
(simonwillison.net)- DeepSeek, V4 serisinin ilk modelleri olarak DeepSeek-V4-Pro ve DeepSeek-V4-Flash önizleme modellerini tanıttı; iki model de 1 milyon token context destekleyen Mixture of Experts modelleri ve MIT lisansıyla sunuluyor
- DeepSeek-V4-Pro, toplam 1.6T parametre ve 49B aktif parametreye sahip; Kimi K2.6, GLM-5.1 ve DeepSeek V3.2’den daha büyük olduğu için en büyük açık ağırlıklı model konumunda
- DeepSeek V4’ün temel farkı fiyatı: Flash için 1 milyon giriş tokenı başına $0.14 ve çıkış için $0.28, Pro için girişte $1.74 ve çıkışta $3.48; karşılaştırılan küçük ve büyük modellere göre daha düşük fiyatlandırılmış
- Düşük fiyat, uzun context verimliliği ile bağlantılı; 1 milyon token context’te Pro, DeepSeek-V3.2’ye kıyasla token başına FLOPs’u %27’ye ve KV cache’i %10’a indirirken, Flash FLOPs’u %10’a ve KV cache’i %7’ye kadar düşürüyor
- Kendi benchmark’larına göre DeepSeek-V4-Pro frontier modellerle rekabet edebiliyor, ancak GPT-5.4 ve Gemini-3.1-Pro’nun biraz gerisinde ve en ileri frontier modellere kıyasla yaklaşık 3~6 ay geriden gelen bir geliştirme çizgisi izliyor
Model duyurusu ve temel özellikler
- DeepSeek, 2025 Aralık’taki V3.2 ve V3.2 Speciale sonrasında V4 serisinin ilk modelleri olarak DeepSeek-V4-Pro ve DeepSeek-V4-Flash olmak üzere iki önizleme modeli yayımladı
- Her iki model de 1 milyon token context destekleyen Mixture of Experts modelleri ve standart MIT lisansını kullanıyor
- DeepSeek-V4-Pro toplam 1.6T parametre ve 49B aktif parametreye sahipken, DeepSeek-V4-Flash toplam 284B parametre ve 13B aktif parametreye sahip
- DeepSeek-V4-Pro, Kimi K2.6’nın 1.1T, GLM-5.1’in 754B ve DeepSeek V3.2’nin 685B değerlerinden daha büyük olduğu için yeni en büyük açık ağırlıklı model gibi görünüyor
- Hugging Face’e göre model boyutu Pro için 865GB, Flash için 160GB; hafif kuantize edilmiş Flash’ın 128GB M5 MacBook Pro üzerinde çalışabilmesi bekleniyor
- Gerekli aktif expert’ler diskten akış halinde getirilebilirse Pro modelinin de aynı makinede çalışması mümkün olabilir
-
OpenRouter ile kısa bir test
- OpenRouter ve llm-openrouter kullanılarak model şu komutla çağrıldı
-
llm install llm-openrouter llm openrouter refresh llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle' - Üretim sonucu olarak DeepSeek-V4-Flash’ın pelikan SVG’si ve DeepSeek-V4-Pro’nun pelikan SVG’si paylaşıldı
- Karşılaştırma için 2025 Aralık DeepSeek V3.2, 2025 Ağustos V3.1 ve 2025 Mart V3-0324 sürümlerinin aynı prompt’a verdiği sonuçlar da birlikte gösterildi
Fiyat, verimlilik ve performans konumu
- DeepSeek V4’te en dikkat çeken unsur fiyat; DeepSeek fiyatlandırma sayfasına göre Flash, 1 milyon giriş tokenı başına $0.14 ve 1 milyon çıkış tokenı başına $0.28 fiyatla sunuluyor
- Pro için fiyatlandırma 1 milyon giriş tokenı başına $1.74, 1 milyon çıkış tokenı başına $3.48
- Karşılaştırma tablosunda DeepSeek V4 Flash, GPT-5.4 Nano’nun girişte $0.20 ve çıkışta $1.25, Gemini 3.1 Flash-Lite’ın girişte $0.25 ve çıkışta $1.50 olan fiyatlarının altında kalarak küçük modeller arasında en ucuzu oluyor
- DeepSeek V4 Pro, Gemini 3.1 Pro’nun girişte $2 ve çıkışta $12, GPT-5.4’ün girişte $2.50 ve çıkışta $15, Claude Sonnet 4.6’nın girişte $3 ve çıkışta $15, Claude Opus 4.7’nin girişte $5 ve çıkışta $25, GPT-5.5’in girişte $5 ve çıkışta $30 olan fiyatlarının altında kalarak büyük frontier modeller arasında en ucuzu oluyor
-
Verimlilik iyileştirmeleri düşük fiyatı destekliyor
- DeepSeek makalesi, bu sürümde özellikle uzun context prompt verimliliğine büyük odak verildiğini belirtiyor
- 1 milyon token context’te DeepSeek-V4-Pro, DeepSeek-V3.2’ye kıyasla token başına FLOPs’u %27 seviyesine ve KV cache boyutunu %10 seviyesine indiriyor
- Aynı koşullarda DeepSeek-V4-Flash, DeepSeek-V3.2’ye kıyasla token başına FLOPs’u %10 seviyesine ve KV cache boyutunu %7 seviyesine kadar düşürüyor
-
Benchmark’larda frontier’a yakın, ancak zirvenin gerisinde
- DeepSeek’in kendi yayımladığı benchmark’lar, Pro modelinin diğer frontier modellerle rekabet edebildiğini gösteriyor
- Makaleye göre çıkarım token genişletmesi uygulanan DeepSeek-V4-Pro-Max, standart çıkarım benchmark’larında GPT-5.2 ve Gemini-3.0-Pro’dan daha yüksek performans gösteriyor
- Ancak GPT-5.4 ve Gemini-3.1-Pro’nun biraz gerisinde kalıyor ve en ileri frontier modellere kıyasla yaklaşık 3~6 ay geriden gelen bir geliştirme çizgisi izliyor
- huggingface.co/unsloth/models üzerinde Unsloth’un kuantize sürümlerinin yayımlanması bekleniyor; Flash modelinin yerel makinelerde ne kadar iyi çalışacağı da açık bir soru olarak kalıyor
2 yorum
Öncelikle gerçekten çok ucuz olması güzel ama asıl sorun fazla yavaş olması.... codex'in 5 dakikada yapacağı şeyi bu 20 dakikada düşünüyor. Bu yüzden geliştirme için kullanmaktan çok kod incelemesi için kullanıyorum; kod incelemesini oldukça iyi yaptığı için memnunum.
Hacker News görüşleri
Benim için en büyük fark, DeepSeek'in sadece isteneni yapması. Yakın zamanda tersine mühendislik için hem GPT'yi hem de Claude'u kullandım; ikisi de reddetti, hatta OpenAI hesabım uyarı bile aldı
Deepseek v4 pro 94%
Deepseek v4 flash - 96%
https://artificialanalysis.ai/evaluations/omniscience?models...
Çok sinir bozucuydu, eski SpongeBob'taki Patrick meme'i gibiydi. Modelleri neden kanun uygulayıcısı gibi yapmaya çalıştıklarını anlamıyorum. Yasa dışı olan şeyler zaten hâlâ yasa dışı ve suçlarla ilgilenen uzmanlar da var. Google'ın hakikatin ve adaletin hakemi olmasına gerek yok. Kolluk kuvvetlerinden bile hesap sormak zaten zor; en azından onlar bizim için çalışıyor
Geliştirici arkadaşlar, nasıl bir dünya inşa ettik? Bu delilik. Bir çekicin “vidada kullanma, sadece çivide kullan. Bir daha yaparsan kendimi imha ederim” dediğini hayal edin. Böyle yazılımlar yapmayı bıraksak keşke
OpenAI'nin 20 şirket satın aldığını ve geçmişte belirsiz bir çizgiyi bir kez aştın diye artık Figma ya da Next kullanamadığını düşün. Sorun sadece OpenAI değil; tüm ekosistemi okumak fazla zor
Gemini'ye Catch-22'den bir alıntıyı sordum; şiddet ya da cinsellik içermemesine rağmen akışın ortasında durup bunu söyleyemeyeceğini söyledi. Kitapta böyle içerikler var ama sırf bunun yüzünden tüm workspace hesabının eksi puan alabileceği hissi oluşuyor
İdeal olarak geleceğin lokal olması gerektiğini biliyorum ama önümüzdeki birkaç yılda gerçek maliyet ve güç tüketimi düşünüldüğünde bunun çoğu kişi için ne kadar gerçekçi olduğundan emin değilim. O ekosistemdeyseniz M* işlemciler belki istisna olabilir
DeepSeek v4 Pro karakter olarak Claude Opus 4.6 gibi hissettirdi ve maliyet açısından etkileyiciydi
Oldukça büyük bir TypeScript kod tabanında tek bir endpoint'e odaklanıp API, DTO, servis ve veritabanı modelini katman katman derinlemesine incelemesini, ilgili tipleri tam anlamıyla kavramasını ve geçici tipler oluşturmamasını istedim
Hangi tiplerin devreye girdiğini, hangilerinin döndürüldüğünü vb. çok kısa ama öz biçimde özetledi; sonra da hepsini sadeleştirmesini istedim
Muhtemelen iki prompt'ta da çok sayıda dosyayı taradı ama Pro sürümünün toplam maliyeti $0.09 oldu. Claude Opus olsaydı, fiyat artışından önceki deneyimlerime göre sadece bu iki prompt bile rahatlıkla $9~$13 yakardı ve getirisi de çok büyük olmazdı
Bu arada OpenRouter değil, doğrudan DeepSeek API kullandım. Çünkü OpenRouter'ın kendisi DeepSeek tarafında hız sınırına takılıyordu
Bu yüzden tree-sitter ile kodu grafik olarak parse edip modelin “bu fonksiyona bağlı tüm fonksiyonlar neler?” gibi sorular sorabildiği Prolog tabanlı bir MCP yaptım. Belirli bir endpoint'in ne yaptığını görmek için çağrı alt grafiğinin tamamını sıradan ve öngörülebilir şekilde takip edebiliyorsunuz
https://github.com/yogthos/chiasmus
Bu arada, 128GB MacBook üzerinde DeepSeek v4 Flash çalıştırılan canlı bir demo var. Video İtalyanca ama İngilizce altyazılı
https://www.youtube.com/watch?v=todMmp6AGCE
vscode copilot'a bağlayıp hem flash hem de pro kullandım. Küçük proof-of-concept'ler için flash yeterliydi, epey hızlıydı ve gerçekten ucuzdu
Birkaç kez durakladı ama bu gecikme sorunu da olabilir; yine de sonuçlar iyiydi. Pro'yu ağır işler ve planlama için kullandım, onu da gayet iyi yaptı
Küçük bir proof-of-concept için yaklaşık 10 sent ödedim ve tam prompt'ladığım gibi çalıştı. Benim için bu, ay sonunda GitHub Copilot'u iptal ettikten sonraki gerçek alternatif
Maliyeti frontier modellerden düşük olsa da, DS4 Pro ve K2.6'yı göründüğü kadar ucuz olmaktan çıkaran iki unsur var
DS4 Pro'nun resmi API'sinde indirim var; tartışmalarda bu sık sık gözden kaçıyor ya da karıştırılıyor. Simon kıyaslamasında liste fiyatını kullandığı için burada sorun yok
Diğer mesele, DS4 Pro ve K2.6'nın frontier modellere göre çok daha fazla reasoning token kullanma eğiliminde olması. Kendi testlerimde bazı patolojik örneklerde o kadar fazla token harcadılar ki istek maliyeti frontier modellerle aynı seviyeye çıkabildi. Adil olmak gerekirse DS ve Kimi'yi üçüncü taraf sağlayıcılar üzerinden kullanıyorum, dolayısıyla bu onların ayarlarından da kaynaklanıyor olabilir
Ama Artificial Analysis model sayfalarına bakarsanız, zeka benchmark'larında DSv4 Pro 190M token, K2.6 170M token kullanırken GPT 5.5 high yalnızca 45M kullandı
“Intelligence vs. Cost to Run Artificial Analysis Intelligence Index” kısmında, arayüzde “Intelligence vs Cost” görünümüne bakmanızı öneririm. Açık kaynak modeller hâlâ daha ucuz ama yalnızca token fiyatına bakınca beklediğiniz kadar değil
[0] https://artificialanalysis.ai/models/deepseek-v4-pro
[1] https://artificialanalysis.ai/models/kimi-k2-6
[2] https://artificialanalysis.ai/models/gpt-5-5-high
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
Uzun bağlam verimliliğini ve attention'ı iyileştiren oldukça yeni yöntemler olan HCA ve mCH tanıtıldı. v3.2'ye kıyasla reasoning için yalnızca %27 FLOP, KV cache için ise yalnızca %10 gerekiyor. Yani aynı hesaplama kaynağıyla 3 kattan fazla daha fazla servis verebilir ve önceki KV cache'in yalnızca %30'una ihtiyaç duyarsınız
Üstelik bu sürüm bir PREVIEW. DeepSeek gerçekten açık bir araştırma laboratuvarı; her sürümde epey şey üretmekle kalmıyor, bunları yayımlayıp paylaşıyor da. Ben bunu lokalde çalıştırıyorum
Ne kadar “ucuz” olduğuna gelirsek, v3.2'de 256k bağlamda GPU belleği yetmiyor ve sistem belleğine taşıyordu; yine de saniyede yaklaşık 7 bin token aldığı için memnundum. Bu sefer ise 1 milyon tokenlık tam bağlamın %100'ü GPU belleğine sığıyor, 2 kattan daha hızlı çalışıyor ve sonuçlar da daha iyi
Bu gerçekten ucuz. Moonshot GPU sıkıntısı yaşadığını açıkça belirtti, mesele de bu. ABD'deki gibi GPU kapasitesi olsaydı ve burada olduğu gibi modeli sübvanse etselerdi bunu bedava dağıtırlardı
Daha önce bunu Opus 4.6 ile denediğimde, ilk prompt geri dönmeden önce koyduğum $10 bütçeyi tamamen yakmıştı
Çok indirimli fiyat olsa bile tam çözüm tek haneli dolarlara mal olurdu; Opus ise tam anlamıyla hiçbir şey üretmeden çift haneli dolarlara mal olurdu
V4, bizim çok dilli benchmark'ımızda V3.2'ye göre açıkça bir basamak yukarı çıktı
Yine de iki uyarı var. OpenRouter üzerinden reasoning yaparken hızın (TPS) çok yavaş olması ve zaman zaman kararsız davranmasıyla ilgili ciddi sorunlar yaşadık. Az önce tekrar baktım; mevcut tüm sağlayıcılarda 10~30 TPS görünüyor ki DeepSeek gibi çok düşünen bir model için bu yüksek değil
Resmi DeepSeek API, ücretli kullanıcılar için bile veri gizliliğini garanti etmiyor
Azure AI Foundry üzerinden kullanırsanız bu iki sorun da olmayabilir. İkincisinin öyle olduğunu biliyorum, birincisini ise henüz test etmedim
Her hâlükârda, en yeni üst düzey modellerle bir ölçüde rekabet eden daha fazla açık ağırlıklı model görmek sevindirici
DeepSeek'in resmi API'si, aynı kod tabanıyla uzun oturumlar boyunca kullanıldığında cache hit oranı %99'un üzerine çıktığı için frontier modellere kıyasla çok daha ucuz. claude code'da 200M tokenlık bir oturum örneği var
İnsanların, özellikle model geliştiricisinin API'sini doğrudan kullanırken, bu modellerin verilerinizle herkese açık şekilde eğitildiği konusunu hiç umursamaması beni şaşırtıyor
“GitHub artık herkesin kodunu model eğitimi için varsayılan olarak opt-in yapıyor” gibi şeylere haklı olarak yüzlerce öfkeli yorum geliyor ama OpenRouter üzerinden Çinli modellerin kullanılmasından bahsedildiğinde bu nokta neredeyse hiç gündeme gelmiyor. Bunu “bunlar farklı insanlar” diye açıklayabilirsiniz ama fark o kadar keskin ki bunun tek açıklama olduğuna inanmak zor
Açık ağırlıkların en büyük avantajlarından biri bu. Ne Çin ne de ABD benim verilerimi alıyor
Sübvansiyon sirkleri bittiğinde ve herkes saf kullanım bazlı fiyatlandırmaya geçtiğinde bile, aylık $200 bütçesi olmayan sıradan insanlar için tamamen dışlayıcı olmayacağına dair umut veriyor
Biri, daha küçük modellere daha fazla zekâ sığdırmanın yollarını bulmaya devam etmemiz; yani aynı donanım özellikleri zaman geçtikçe daha fazla model kabiliyeti sunuyor
Diğeri ise donanımın iyileşmeye ve arzın talebi yakalamaya devam etmesi; böylece 1 dolarla satın alınabilen donanım özellikleri de zamanla daha iyi hâle geliyor
Bir gün bugünkü “sağlayıcı API üzerinden yapay zekâya erişim” modeline, bugün “herkesin şirket mainframe'ine bağlandığı” döneme baktığımız gibi bakmayı umuyorum
Son birkaç gündür v4 pro kullandım; kalite açısından genel olarak OpenAI 5.4 veya Opus 4.6 seviyesinde görünüyor. 4.7'yi kullanmadım
Açık olmak gerekirse son teknoloji işler yapmıyorum. Daha çok frontend geliştirme için kullandım ve o alanda pek iyi olmadığım için sadece makul görünen prototiplere ihtiyacım vardı
Benim amaçlarım için tamamen yeterli bir model ve fiyatı da makul. Yine de lokalde çalıştırılabilecek kadar küçük açık modellerin çıkmasını gerçekten bekliyorum. Başkalarının makinelerine bağımlı olmak ve bu sırada tüm verilerimin dışarı akması hoşuma gitmiyor
Bu arada ben kurucu ortaklardan biriyim. Yöntem, modeli güvenli enclave içinde çalıştırıyor ve enclave içinde çalışan açık kaynak kodun runtime attestation ile eşleştiğini doğruluyor. NVIDIA confidential computing kullanıyoruz
Dokümanlarda doğrulama süreci açıklanıyor: https://docs.tinfoil.sh/verification/verification-in-tinfoil