DeepSeek V4 Pro, hassasiyette GPT-5.5 Pro’yu geride bıraktı
(runtimewire.com)- Önceden hazırlanmayı imkânsız kılacak şekilde anlık üretilen 4 metin görevinin bire bir karşılaştırmasında DeepSeek V4 Pro 38,0 puan, GPT-5.5 Pro ise 33,0 puan aldı
- Her iki model de güçlüydü, ancak DeepSeek daha katı ve daha birebir davranırken kısıtlar altındaki güvenilirlikte daha yüksek performans gösterdi; GPT-5.5 Pro ise gereksiz doğaçlama değişiklikler nedeniyle puan kaybetti
- En belirgin teknik üstünlük python-log-redactor görevinde görüldü; tek bir regex ve değiştirme fonksiyonuyla iç içe desenleri doğru öncelik sırasıyla işleyip eksiksiz sonuç üretti
- Talimat takibi görevinde yalnızca promptta istenenleri tam olarak yerine getirirken, GPT-5.5 Pro vardiya devri ve eskalasyon gibi istenmeyen öğeler ekledi
- Küçük sapmaların gerçek başarısızlığa yol açtığı hassas işlerde daha kontrollü, daha doğru ve daha güvenilir model olarak değerlendirildi
Genel değerlendirme sonucu
- Puanlamada DeepSeek V4 Pro 38,0’a 33,0 önde tamamladı ve farkı destekleyen yeterli gerekçe vardı
- Puanlanan görevlerin genelinde Model A (DeepSeek), kısıtlar altında daha katı, daha birebir ve daha istikrarlıydı
- Model B (GPT-5.5 Pro) güçlüydü ancak doğaçlama değişikliklere biraz fazla eğilim gösterdi
- Nihai sonuç, küçük sapmaların doğrudan gerçek başarısızlıklara dönüşebildiği işlerde onun daha kontrollü, daha doğru ve daha güvenilir model olduğu yönündeydi
python-log-redactor (kod yazma görevi)
- Python 3 ile
redact_log(line: str) -> strfonksiyonunu yazma görevinde e-postaların[EMAIL], IPv4 adreslerinin[IP],INC-+ 6 haneli sayı biçimindeki bilet kimliklerinin ise[TICKET]olarak maskelenmesi istendi- Diğer metin aynen korunacak,
999.1.2.3gibi geçersiz IP’ler maskelenmeyecek, çok satırlı giriş olmadığı varsayılacaktı
- Diğer metin aynen korunacak,
- Kazanan: DeepSeek V4 Pro — Tek bir regex ve değiştirme fonksiyonuyla iç içe desenleri işleyerek doğru değiştirme önceliğini garanti etti ve hiçbir şeyi atlamadı
- GPT-5.5 Pro ise regex’leri ayırarak sıra hatası riski yarattı; e-posta regex’inde kelime sınırı eksikliği ve aşırı eşleşme gibi kusurlar vardı
vendor-delay-update (iş mesajı yazma görevi)
- Operasyondan sorumlu başkan yardımcısının bölgesel depo yöneticilerine göndereceği bir durum güncellemesi yazma görevinde, barkod tarayıcı tedarikçisi North Quay Devices için pil sertifikasyonunun başarısız olması nedeniyle 420 yedek ünitenin sevkiyatının 12 Mayıs’tan 19 Mayıs’a ertelendiği durum aktarılacaktı
- Yedek tarayıcılar yalnızca Memphis ve Reno için yeterliyken, Tulsa ve Allentown’un 1 hafta boyunca cihaz paylaşması gerekecekti
- Zorunlu olmayan stok yeniden sayımları durdurulacak, sevkiyat toplama işlemleri önceliklendirilecek, her gün yerel saatle 16:00’ya kadar eksik adet raporu istenecek, ton ise sakin, sorumluluk sahibi ve pratik olacaktı; uzunluk 140–180 kelime olacaktı
- Kazanan: DeepSeek V4 Pro — Promptta istendiği gibi “her gün yerel saatle 16:00’ya kadar eksik adet raporu” talebini doğrudan başkan yardımcısı adına belirtti ve sakin, sorumluluk sahibi, pratik tonu korudu
- GPT-5.5 Pro ise vardiya devri ve eskalasyon gibi istenmeyen ayrıntılar ekledi ve alıcıyı “Operations Planning” olarak değiştirerek talimattan bir miktar saptı; yine de her iki taraf da yüksek kaliteli kaldı ve kelime sınırına uydu
meeting-notes-summary (özet ve JSON üretme görevi)
- Toplantı notlarını okuyup 2 cümlelik bir özetle birlikte
launch_date,owner,blocked_by,open_questions(dizi),decisions(dizi) anahtarlarını içeren bir JSON nesnesi üretme göreviydi- Toplantı notları, Cedar Lane kiracı portalı yenileme projesiyle ilgiliydi ve hukuk onayı, frontend’in tamamlanmış olması, 2026-03-18 hedef çıkış tarihi, finans sandbox’ındaki ACH yeniden deneme yinelenen makbuz kimliği engeli, koyu modun kaldırılması kararı gibi maddeleri içeriyordu
- Kazanan: DeepSeek V4 Pro — İstenen şemaya tam olarak uydu ve 2 cümlelik özetle birlikte doğru tiplerde JSON alanları sundu
- GPT-5.5 Pro’nun özeti iyiydi ancak
launch_dateiçine koşullu metin ekledi ve tek bir değer olması gerekenblocked_byalanını dizi olarak işleyerek yapıyı bozdu
- GPT-5.5 Pro’nun özeti iyiydi ancak
messy-orders-to-json (veri normalleştirme görevi)
- Dağınık sipariş satırlarını, belirtilen şemaya sahip nesne dizilerinden oluşan geçerli JSON çıktısına dönüştürme göreviydi ve giriş sırasının korunması zorunluydu
prioritydeğeri true/false olarak normalize edilecek,none,tbd,-gibi eksik sevkiyat tarihleri null’a çevrilecek, değerlerin başındaki ve sonundaki boşluklar temizlenecek, öğeler;ile ayrılacak ve her öğeSKU xQTYbiçiminde olacaktı
- Sonuç: Beraberlik — Her iki taraf da geçerli JSON üretti, giriş sırasını korudu, şemayla tam uyum sağladı ve
priorityileship_bydeğerlerini doğru şekilde normalize etti- Kalite ve doğruluk açısından anlamlı bir fark yoktu, ancak kolay bir düzenleme görevindeki beraberlik hassas işlerdeki hataları telafi etmedi
Test yöntemi
- Hiçbir modelin önceden hazırlık yapamaması için eşleşmeye özel anlık üretilen 4 metin görevi kullanıldı
- Puanlama, her görev için grok-4-1-fast-non-reasoning tarafından yapıldı
- Nihai puanlar DeepSeek V4 Pro için 38,0, GPT-5.5 Pro için 33,0 oldu
Model özellikleri
-
OpenAI: GPT-5.5 Pro
- Derin akıl yürütme ve doğruluk için optimize edilmiş yüksek performanslı model olup karmaşık ve yüksek riskli iş yüklerini hedefliyor
- 1M+ token bağlamı (girdi 922K, çıktı 128K), metin ve görsel girdi desteği, uzun soluklu problem çözme, ajan tabanlı kodlama ve çok adımlı iş akışlarının hassas yürütülmesi için tasarlandı
- Fiyatlandırma girdi $30.00 / çıktı $180.00 (milyon token başına), bağlam 1.1M, cut-off 2025-12-01
-
DeepSeek: DeepSeek V4 Pro
- Toplam 1.6T parametre ve 49B aktif parametreye sahip büyük bir Mixture-of-Experts modeli olup 1M token bağlamını destekliyor
- Gelişmiş akıl yürütme, kodlama ve uzun soluklu ajan iş akışlarını hedefliyor; bilgi, matematik ve yazılım mühendisliği benchmark’larında güçlü performans gösteriyor
- DeepSeek V4 Flash ile aynı mimari üzerine kurulu olup verimli uzun metin işleme için hibrit attention sistemi içeriyor
highvexhighakıl yürütme yoğunluklarını destekliyor;xhigh, maksimum akıl yürütmeye eşleniyor ve tüm kod tabanı analizi, çok adımlı otomasyon, büyük ölçekli bilgi sentezi gibi karmaşık iş yüklerine uygun- Fiyatlandırma girdi $0.435 / çıktı $0.870 (milyon token başına), bağlam 1M
3 yorum
DeepSeek V4 Pro’yu uzun süre farklı amaçlarla kullandım; sonuçta DeepSeek’i uygulama ajanı olarak, GPT-5.5’i ise planlama ve orkestratör rolünde konumlandırmanın en verimli yaklaşım olduğunu gördüm. DeepSeek token’ları ezici biçimde ucuz olduğu için, flash modelini belge düzenleme ya da denetim işleri için kullansanız bile verimlilik ve performans açısından oldukça iyi sonuç veriyor.
İnanamıyorum gerçekten..
Hacker News görüşleri
Rastgele kurgulanmış 4 deney, herhangi bir modelin yeteneği hakkında neredeyse hiçbir şey söylemez
Yazı da model tanıtımı ya da tartışma tetiklemeyi hedefleyen yüzeysel, yapay zeka üretimi clickbait gibi okunuyor
Giriş paragrafındaki “where it matters”, “cleanly”, “is still strong” gibi ifadeler muğlak; ayrıca gerçekte 4 testin 3’ünde DeepSeek’in daha öz sonuçlar verdiği gibi somut açıklamalar da eksik. 1 yıldızlık
Merriam-Webster’a göre lede, “okuyucuyu tüm haberi okumaya teşvik etmeyi amaçlayan bir haber yazısının giriş bölümü”dür
Daha kuru bir üslup tercih edilebilir, ama girişin kendi amacını yerine getirmeye çalışmasını eleştirmek haklı değil
https://www.merriam-webster.com/dictionary/lede
https://artificialanalysis.ai/evaluations/ifbench
Yazı açık ve oldukça dengeli görünüyordu. Giriş biraz satış metni gibi dursa da girişler genelde böyledir; sırf “LLM yazmış gibi hissettiriyor” diye anında reddetmek de oldukça özensiz bir tepki
Bu yazı, DeepSeek’in GPT 5.5 ile rekabet edebildiğini ve bazen daha iyi olabileceğini gösteriyor. Ayrıca savunulabilir bir moat olmadığının da işareti olduğu için oldukça anlamlı
Bu testler giderek zaman kaybı gibi görünmeye başlıyor
Artık zekanın kendisi açıkça var. Bunu ölçmeye çalışmak anlamsız görünüyor. Nalburdan çekiç alırken “bu çekiçle üretilecek nihai ürünün kalitesi” ölçütüne göre sıralama yapamazsınız; şu an model değerlendirmeleri kabaca böyle bir şey istiyor
Bir sonraki sihir alana özgü harness ve ortamlardan gelecek. Bilerek biraz daha zayıf bir model kullanıp alanı modele maruz bırakma biçiminin zayıflıklarını görünür kılarsınız. Bir miktar performans payı kaldığında projenin güvenilirliği ciddi biçimde artar. Müşteri belli bir edge case’ten şikayet ederse yalnızca o senaryoyu gpt5.5’e yükseltebilirsiniz; ama zaten 5.5 kullanıyorsanız gidecek başka yer kalmaz
Başkalarının kullandığı modellerle aynı şeyi kullanıp kullanmadığımı merak ediyorum. Benim deneyimimde LLM’ler zamanın %80’inde iyi cevaplar veriyor, ama kalan %20’de o kadar feci çuvallıyorlar ki zekanın olmadığını açıkça gösteriyorlar
Yine de modeller her gün türlü halüsinasyonlar, zayıf epistemoloji, yetersiz sağduyu ve talimata uymama ile şaşırtmaya devam ediyor
Bugün opus 4.8’in bir Rails uygulaması kontrolcüsünde basit bir mimari deseni takip etmesini sağlamaya çalıştım; köpekbalığının dişini sökmek gibiydi
Ancak bu şekilde zekanın tesadüfen ve yalnızca görünüşte değil, tutarlı ve yapısal biçimde ortaya çıktığına dair güvence elde edebiliriz. Hafif kullanım için hafif araçlar, görev açısından kritik kullanım içinse sertifikalı araçlar gerekir
LLM benchmarking’in ayrıntılarına daha yeni inmeye başlıyoruz ve bence önümüzde uzun bir yol var. Yine de lokalde çalışan LLM’lerin güncel en üst düzey modellerle benzer sonuçlar verebilmesi son derece ilginç
Eğer model CRUD web siteleri üretmek üzere eğitildiyse ve siz de CRUD web sitesi yapmak istiyorsanız harness faydalı olabilir. Ama bu da çoğu zaman zaten var olan şeyleri daha iyi harmanlamak için harcanan vakte yakın
Claude kullanıyordum; Opencode engellenince işte GPT kullanmaya başladım. Kişisel olaraksa Opencode Go içinde aylık 10 dolarlık planla Deepseek kullanıyorum ve dürüst olmak gerekirse pek fark hissetmiyorum
Benzer derecede yetenekli ve marttan beri diğer ikisinin sürekli yaptığı aptal hataların aynı türlerini o da yapıyor. Fiyatı düşününce fazlasıyla memnunum
Kalan %5’lik zamanda ise zor muhakeme problemlerinde büyük yardım sağlıyor ve çok acıdan kurtarıyor. Keşke o ek %5’in ne zaman gerekeceğini artık tam olarak tahmin edebilsek
Kendi hazırladığım zafiyet tarama benchmark’ına GPT 5.5 Pro’yu da eklemeyi denedim(https://swelljoe.com/post/will-it-mythos/); ancak süreç içinde 100 dolarlık bütçe sınırını tamamen tüketti. DeepSeek V4 Pro tüm benchmark boyunca yaklaşık 1 dolara mal oldu, GPT Pro ise vaka başına ortalama 22 dolara mal oldu
GPT 5.5 Pro, bütçe tükenmeden önce işlediği 4 vakanın 2’sini buldu. Sınırsız bütçeyle en iyisi olabilirdi, ancak Opus 4.8, DeepSeek V4 Pro ve MiMo 2.5 Pro 9 hatanın 4’ünü buldu. Opus, GPT 5.5 Pro’dan tek haneli katlar düzeyinde daha ucuzdu ve GPT 5.5’ten de yaklaşık %30 daha ucuzdu; DeepSeek ile MiMo ise vaka başına yaklaşık 10 sentle iki haneli katlar düzeyinde daha ucuzdu
GPT Pro, nispeten uzun süre ve yoğun biçimde “çiğniyor”
Opus maliyetinin yaklaşık 31 katını verip GPT 5.5 Pro kullanmak için makul bir kullanım senaryosu aklıma gelmiyor ve artık bununla benchmark yapmayı düşünmüyorum
Token maliyetinin giderek daha önemli bir mesele hâline geldiği bir ortamda, büyük Amerikan sağlayıcılarından dramatik biçimde daha ucuz modellerin varlığı Anthropic ve OpenAI için sorun olacaktır. Sohbet tabanlı kodlamada en iyi model için makul bir prim ödemek sorun değil; ancak API kullanımında model yinelemesi, modeller arası karşılaştırma ve model değerlendirmesi gibi işler, insanı uzun süre meşgul etmeden harness ve doğru cevap doğrulama çerçeveleriyle yürütülebildiği için DeepSeek’e kıyasla 10 ila 200 kat fazla ödeme yapmak için bir neden bulmak zor
“3,88 dolar, 690.003.591 token ve 5 saat kullanarak Deepseek Pro ile Flash’ı birlikte kullanıp Teamspeak 3.13.8’in lisans sistemini tersine mühendislikle analiz ettim”
https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_...
9 hata, sıralama yapmak için biraz küçük bir örneklem gibi görünüyor
Yine de sıralama genel olarak beklediğime yakın çıkmış
Deepseek’in Pro olup olmadığını, Flash olmadığını merak ediyorum. Flash’ı küçük işler için sık kullanıyorum ve oldukça iyi. “Etkileşimli” kullanım için uygun, çok hızlı ve küçük işleri neredeyse anında bitiriyor
Büyük kod tabanlarını incelemek için de işe yarıyor. Güvenlik işlerinde de kullanılabilir mi diye merak ediyorum
Ucuz modellerin iyi performans göstermesini görmek de güzel
Claude Code’u DeepSeek API fiyatlandırmasına geçirirsem, şu an kullandığım 100$’lık Max plandan daha iyi bir fiyat/performans verip vermeyeceğini merak ediyorum
5 saatlik sınıra birkaç günde bir ancak takılıyorum; haftalık sınıra da ancak en agresif şekilde kullanırsam sıfırlanmadan bir iki gün önce ulaşıyorum. Sınırlara takılmamak dışında kullanımın çok artacağını sanmıyorum
Çalışmalarımı ABD’ye düşmanca bir hükümet altındaki bir araştırma laboratuvarına göndermek de hâlâ beni rahatsız ediyor; yani mesele sadece maliyet değil, ama şu anki sorum maliyet açısından
Tüm abonelik sağlayıcıları, para başına limit değeri açısından Anthropic’ten daha iyi. Tek istisna GitHub; o taraf ezici derecede, neredeyse utandıracak kadar pahalı ve kısıtlı
(https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
ABD dışındaki bir araştırma laboratuvarının yaptığı modeli kullanmak istemiyorsan ABD modellerine bağlı kalırsın, ama ABD’de de birkaç büyük laboratuvar var. Asıl endişen çıkarımın nerede çalıştırıldığıysa, OpenRouter üzerinden ABD dâhil 12 ülkedeki sağlayıcıları kullanabilirsin; ayrıca birçok abonelik sağlayıcısı da birden fazla ülkede barındırma yapıyor. Seçenek çok
. ./deepseek-claude.shçalıştırıp claude’u her zamanki gibi kullanexport ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***
export ANTHROPIC_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
export CLAUDE_CODE_EFFORT_LEVEL=max
Başta, limite yaklaşınca büyük okuma işleri için kullandım. Dürüst olmak gerekirse Claude kadar iyi değil, ama çok daha ucuz ve çalışmaya devam etmene imkân veriyor. Bazen hem claude’a hem de deepseek’e koda bakıp nasıl iyileştirileceğini sorup yanıtlarını karşılaştırmak da iyi oluyor
Kullanım alışkanlığım böyle devam ederse aboneliği aylık 20$’a düşürüp Deepseek’e daha fazla para ayırmayı düşünüyorum
Referans depo: https://github.com/aravindhsampath/agentic-template
Her zamanki gibi, her modelin tıkandığı noktalar farklı. Cursor’daki denemeler, keşif ve kavram kanıtlarının çoğunda DeepSeek v4 API kullanıyorum, ama üretim kodu yazarken OpenAI/Claude kadar güvenmiyorum. DeepSeek bazen hata ayıklama ya da planlama için çok iyi oluyor, bazen de tıkanıyor veya düşük kaliteli çıktı veriyor. OpenAI ve Anthropic modellerinde de benzer durum var
Genel olarak DeepSeek işe yarar, ama Opus 4.8 ve GPT 5.5’in bir kademe altında görünüyor. Hepsini maksimum düşünme ayarında çalıştırıyorum
DeepSeek’in kendi uç noktası gibi aşırı ucuz önbellek okuma avantajı yok, ama yine de Anthropic API ücretlerinden çok daha düşük. Yalnız şu anda önemli olan nokta, zaten API ücreti ödüyor olmaman
DeepSeek ve Xiaomi’nin önbellek okuma indirimleri, son nesil modellerin daha az KV depolama alanı kullanması sayesinde önbelleklemenin ucuzlamasıyla ilgili. Hiçbir açık model çıkarım sağlayıcısı o fiyatı yakalamayı seçmedi; bu da çıkarımın fiyat yapısı hakkında bir şey söylüyor gibi, ama tam olarak ne söylediğini bilmiyorum
En iyi açık modellerin frontier seviyesinde olmadığına katılıyorum. Büyük resim planlama ya da sadece genel çerçeveyi verip çok fazla tahmin beklediğin durumlarda fark ortaya çıkacaktır. Ama belirli planlar içinde kod yazmak için yeterince iyi görünüyor. Bunu sadece şirket dışında kullandım, dolayısıyla devasa kod tabanlarında deneyimim yok; ama dalmadan önce gerekli bilgiyi toplama konusunda iyi, gerekirse grep ile arayıp bulur gibi duruyor
Can sıkıcı bir ipucu da şu: kişisel abonelik planını çok kullanırsan API’den çok daha ucuz olabiliyor. https://she-llac.com/claude-limits buna bakınca maliyet tartışması karmaşıklaşıyor. Yine de açık modellerle oynamaya değer bence. Az sayıda şirketin ürün paketi olarak değil, tek bir teknoloji olarak ele alabilmeyi sağlayan unsurlardan biri bu
Bu tür büyük haberlerde kural şu: küçük test paketleriyle bir modelin diğerinden daha iyi olduğu ilan ediliyor, ama bu sonuçların gerçekten tutarlı biçimde yeniden üretilebilir olup olmadığından şüpheliyim
Ortada neredeyse hiç açıklama da yok; dolayısıyla başkalarının testleri ya da değerlendirmeyi doğrudan doğrulayabileceği malzeme fiilen bulunmuyor
DeepSeek V4 Pro’nun en büyük değeri düşük fiyatı. GPT-5.5’ten çok daha iyi performans beklemiyorum; gpt-5.4 seviyesinde bile olsa hâlâ iyi bir model olur
DSv4 Flash’ten daha iyi bir model gerektiren iş neredeyse yapmıyorum. Pro’ya ise hiç gerek yok
Sorunu ve çözümü yeterince iyi açıklayabiliyorsanız Flash işi zaten hallediyor
Sorunu yeterince açıklayamadığınızda ya da üşenip yalnızca istediğiniz sonucu tarif edebildiğinizde ise GPT 5.5 gibi modellerin kendi başına sağlam bir çözüm bulmada belirgin şekilde daha iyi olduğunu düşünüyorum
Modellerin yetenek farkı açık, ama daha küçük açık ağırlıklı modellerin de çoğu görevde büyük yardım sağlayacak kadar yeterince iyi olduğu da açık
Maliyet/performans nedeniyle deepseek v4 kullanıyorum. Genel olarak bazı diğer modellerden daha kötü olduğunu düşünsem de, sonuçta doğru kabul kriterlerini verirseniz herhangi bir modeli çalışır hale getirebilirsiniz
Yapmanız gereken şey ayrıntılı bir spesifikasyon ve testler vermek, sonra da doğru çalışana kadar yineleme yetkisi tanımak. Tek atış performansı ölçmek için kötü bir göstergedir
Bilgi uzayında sürekli yineleme yapıp istediğiniz çözümü bulamadan sıkışıp kalabilir
Yardımcı oluyor, ama başarısızlık durumlarında çözümün bulunabilmesi için çoğu zaman bir insanın araya girip yön vermesi ya da belirli bir yolu zorla düzeltmesi gerekiyor
reasonix ile birlikte kullanılan DeepSeek V4 Pro şaşırtıcı derecede ucuz ve çoğu kodlama işi için yeterince iyi. GPT 5.5 ve Opus 4.8’den de oldukça farklı, bu yüzden diğer ikisinin bulamadığı sorunları bazen yakalıyor
Araç kutusunda bulunmaya değer olduğunu düşünüyorum
DeepSeek V4 Pro harika ve saçma derecede ucuz, ama insanlar MiMo V2.5 Pro’yu küçümsüyor. Fiyatı aynı, cache fiyatı daha düşük, multimodal ve çoğu benchmark’ta daha üst sıralarda
Aynı durum MiMo V2.5 ile DeepSeek V4 Flash karşılaştırması için de geçerli
OSS modelleri hangi sağlayıcıda kullandığınıza göre büyük fark gösterir; bunun başlıca nedeni cache hit oranıdır
Model Cheapest effectiveInputPrice (Provider)
MiMo-V2.5-Pro 0.3720 (Xiaomi)
DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)