DeepSeek V4 Pro, hassasiyette GPT-5.5 Pro’yu geride bıraktı

(runtimewire.com)

7 puan yazan GN⁺ 6 일 전 | 3 yorum | WhatsApp'ta paylaş

Önceden hazırlanmayı imkânsız kılacak şekilde anlık üretilen 4 metin görevinin bire bir karşılaştırmasında DeepSeek V4 Pro 38,0 puan, GPT-5.5 Pro ise 33,0 puan aldı
Her iki model de güçlüydü, ancak DeepSeek daha katı ve daha birebir davranırken kısıtlar altındaki güvenilirlikte daha yüksek performans gösterdi; GPT-5.5 Pro ise gereksiz doğaçlama değişiklikler nedeniyle puan kaybetti
En belirgin teknik üstünlük python-log-redactor görevinde görüldü; tek bir regex ve değiştirme fonksiyonuyla iç içe desenleri doğru öncelik sırasıyla işleyip eksiksiz sonuç üretti
Talimat takibi görevinde yalnızca promptta istenenleri tam olarak yerine getirirken, GPT-5.5 Pro vardiya devri ve eskalasyon gibi istenmeyen öğeler ekledi
Küçük sapmaların gerçek başarısızlığa yol açtığı hassas işlerde daha kontrollü, daha doğru ve daha güvenilir model olarak değerlendirildi

Genel değerlendirme sonucu

Puanlamada DeepSeek V4 Pro 38,0’a 33,0 önde tamamladı ve farkı destekleyen yeterli gerekçe vardı
Puanlanan görevlerin genelinde Model A (DeepSeek), kısıtlar altında daha katı, daha birebir ve daha istikrarlıydı
- Model B (GPT-5.5 Pro) güçlüydü ancak doğaçlama değişikliklere biraz fazla eğilim gösterdi
Nihai sonuç, küçük sapmaların doğrudan gerçek başarısızlıklara dönüşebildiği işlerde onun daha kontrollü, daha doğru ve daha güvenilir model olduğu yönündeydi

python-log-redactor (kod yazma görevi)

Python 3 ile redact_log(line: str) -> str fonksiyonunu yazma görevinde e-postaların [EMAIL], IPv4 adreslerinin [IP], INC- + 6 haneli sayı biçimindeki bilet kimliklerinin ise [TICKET] olarak maskelenmesi istendi
- Diğer metin aynen korunacak, 999.1.2.3 gibi geçersiz IP’ler maskelenmeyecek, çok satırlı giriş olmadığı varsayılacaktı
Kazanan: DeepSeek V4 Pro — Tek bir regex ve değiştirme fonksiyonuyla iç içe desenleri işleyerek doğru değiştirme önceliğini garanti etti ve hiçbir şeyi atlamadı
- GPT-5.5 Pro ise regex’leri ayırarak sıra hatası riski yarattı; e-posta regex’inde kelime sınırı eksikliği ve aşırı eşleşme gibi kusurlar vardı

vendor-delay-update (iş mesajı yazma görevi)

Operasyondan sorumlu başkan yardımcısının bölgesel depo yöneticilerine göndereceği bir durum güncellemesi yazma görevinde, barkod tarayıcı tedarikçisi North Quay Devices için pil sertifikasyonunun başarısız olması nedeniyle 420 yedek ünitenin sevkiyatının 12 Mayıs’tan 19 Mayıs’a ertelendiği durum aktarılacaktı
- Yedek tarayıcılar yalnızca Memphis ve Reno için yeterliyken, Tulsa ve Allentown’un 1 hafta boyunca cihaz paylaşması gerekecekti
- Zorunlu olmayan stok yeniden sayımları durdurulacak, sevkiyat toplama işlemleri önceliklendirilecek, her gün yerel saatle 16:00’ya kadar eksik adet raporu istenecek, ton ise sakin, sorumluluk sahibi ve pratik olacaktı; uzunluk 140–180 kelime olacaktı
Kazanan: DeepSeek V4 Pro — Promptta istendiği gibi “her gün yerel saatle 16:00’ya kadar eksik adet raporu” talebini doğrudan başkan yardımcısı adına belirtti ve sakin, sorumluluk sahibi, pratik tonu korudu
- GPT-5.5 Pro ise vardiya devri ve eskalasyon gibi istenmeyen ayrıntılar ekledi ve alıcıyı “Operations Planning” olarak değiştirerek talimattan bir miktar saptı; yine de her iki taraf da yüksek kaliteli kaldı ve kelime sınırına uydu

meeting-notes-summary (özet ve JSON üretme görevi)

Toplantı notlarını okuyup 2 cümlelik bir özetle birlikte launch_date, owner, blocked_by, open_questions (dizi), decisions (dizi) anahtarlarını içeren bir JSON nesnesi üretme göreviydi
- Toplantı notları, Cedar Lane kiracı portalı yenileme projesiyle ilgiliydi ve hukuk onayı, frontend’in tamamlanmış olması, 2026-03-18 hedef çıkış tarihi, finans sandbox’ındaki ACH yeniden deneme yinelenen makbuz kimliği engeli, koyu modun kaldırılması kararı gibi maddeleri içeriyordu
Kazanan: DeepSeek V4 Pro — İstenen şemaya tam olarak uydu ve 2 cümlelik özetle birlikte doğru tiplerde JSON alanları sundu
- GPT-5.5 Pro’nun özeti iyiydi ancak launch_date içine koşullu metin ekledi ve tek bir değer olması gereken blocked_by alanını dizi olarak işleyerek yapıyı bozdu

messy-orders-to-json (veri normalleştirme görevi)

Dağınık sipariş satırlarını, belirtilen şemaya sahip nesne dizilerinden oluşan geçerli JSON çıktısına dönüştürme göreviydi ve giriş sırasının korunması zorunluydu
- priority değeri true/false olarak normalize edilecek, none, tbd, - gibi eksik sevkiyat tarihleri null’a çevrilecek, değerlerin başındaki ve sonundaki boşluklar temizlenecek, öğeler ; ile ayrılacak ve her öğe SKU xQTY biçiminde olacaktı
Sonuç: Beraberlik — Her iki taraf da geçerli JSON üretti, giriş sırasını korudu, şemayla tam uyum sağladı ve priority ile ship_by değerlerini doğru şekilde normalize etti
- Kalite ve doğruluk açısından anlamlı bir fark yoktu, ancak kolay bir düzenleme görevindeki beraberlik hassas işlerdeki hataları telafi etmedi

Test yöntemi

Hiçbir modelin önceden hazırlık yapamaması için eşleşmeye özel anlık üretilen 4 metin görevi kullanıldı
Puanlama, her görev için grok-4-1-fast-non-reasoning tarafından yapıldı
Nihai puanlar DeepSeek V4 Pro için 38,0, GPT-5.5 Pro için 33,0 oldu

Model özellikleri

OpenAI: GPT-5.5 Pro
- Derin akıl yürütme ve doğruluk için optimize edilmiş yüksek performanslı model olup karmaşık ve yüksek riskli iş yüklerini hedefliyor
- 1M+ token bağlamı (girdi 922K, çıktı 128K), metin ve görsel girdi desteği, uzun soluklu problem çözme, ajan tabanlı kodlama ve çok adımlı iş akışlarının hassas yürütülmesi için tasarlandı
- Fiyatlandırma girdi $30.00 / çıktı $180.00 (milyon token başına), bağlam 1.1M, cut-off 2025-12-01
DeepSeek: DeepSeek V4 Pro
- Toplam 1.6T parametre ve 49B aktif parametreye sahip büyük bir Mixture-of-Experts modeli olup 1M token bağlamını destekliyor
- Gelişmiş akıl yürütme, kodlama ve uzun soluklu ajan iş akışlarını hedefliyor; bilgi, matematik ve yazılım mühendisliği benchmark’larında güçlü performans gösteriyor
- DeepSeek V4 Flash ile aynı mimari üzerine kurulu olup verimli uzun metin işleme için hibrit attention sistemi içeriyor
- high ve xhigh akıl yürütme yoğunluklarını destekliyor; xhigh, maksimum akıl yürütmeye eşleniyor ve tüm kod tabanı analizi, çok adımlı otomasyon, büyük ölçekli bilgi sentezi gibi karmaşık iş yüklerine uygun
- Fiyatlandırma girdi $0.435 / çıktı $0.870 (milyon token başına), bağlam 1M

3 yorum

emptybynature 6 일 전

DeepSeek V4 Pro’yu uzun süre farklı amaçlarla kullandım; sonuçta DeepSeek’i uygulama ajanı olarak, GPT-5.5’i ise planlama ve orkestratör rolünde konumlandırmanın en verimli yaklaşım olduğunu gördüm. DeepSeek token’ları ezici biçimde ucuz olduğu için, flash modelini belge düzenleme ya da denetim işleri için kullansanız bile verimlilik ve performans açısından oldukça iyi sonuç veriyor.

shakespeares 6 일 전

İnanamıyorum gerçekten..

GN⁺ 6 일 전

Hacker News görüşleri

Rastgele kurgulanmış 4 deney, herhangi bir modelin yeteneği hakkında neredeyse hiçbir şey söylemez
Yazı da model tanıtımı ya da tartışma tetiklemeyi hedefleyen yüzeysel, yapay zeka üretimi clickbait gibi okunuyor
Giriş paragrafındaki “where it matters”, “cleanly”, “is still strong” gibi ifadeler muğlak; ayrıca gerçekte 4 testin 3’ünde DeepSeek’in daha öz sonuçlar verdiği gibi somut açıklamalar da eksik. 1 yıldızlık
- lede kavramının amacını yanlış anlamış gibi görünüyor
  Merriam-Webster’a göre lede, “okuyucuyu tüm haberi okumaya teşvik etmeyi amaçlayan bir haber yazısının giriş bölümü”dür
  Daha kuru bir üslup tercih edilebilir, ama girişin kendi amacını yerine getirmeye çalışmasını eleştirmek haklı değil
  https://www.merriam-webster.com/dictionary/lede
- Yapay zeka hakkında yapay zeka üretimi yazılar gerçekten çok iyi yazılmadıkça HN’de görmek istemiyorum
- 4 deneyin 3’ü elbette anekdotsal, ancak sonuçların kendisi daha yerleşik instruction-following benchmark’larla da bir ölçüde örtüşüyor. Yine de DeepSeek V4 Pro o benchmark’ta 1. sırada değil
  https://artificialanalysis.ai/evaluations/ifbench
  Yazı açık ve oldukça dengeli görünüyordu. Giriş biraz satış metni gibi dursa da girişler genelde böyledir; sırf “LLM yazmış gibi hissettiriyor” diye anında reddetmek de oldukça özensiz bir tepki
- Otomobil pazarında da ideal en iyi seçenekler yalnızca bir iki model olabilir, ama onlardan daha zayıf şirketler ve modeller de çeşitli nedenlerle satmaya devam eder
  Bu yazı, DeepSeek’in GPT 5.5 ile rekabet edebildiğini ve bazen daha iyi olabileceğini gösteriyor. Ayrıca savunulabilir bir moat olmadığının da işareti olduğu için oldukça anlamlı
- “Pelikanın bisiklete binmesi” metriği söz konusu olduğunda kimse buna böyle zayıf, rastgele deneyler demiyor
Bu testler giderek zaman kaybı gibi görünmeye başlıyor
Artık zekanın kendisi açıkça var. Bunu ölçmeye çalışmak anlamsız görünüyor. Nalburdan çekiç alırken “bu çekiçle üretilecek nihai ürünün kalitesi” ölçütüne göre sıralama yapamazsınız; şu an model değerlendirmeleri kabaca böyle bir şey istiyor
Bir sonraki sihir alana özgü harness ve ortamlardan gelecek. Bilerek biraz daha zayıf bir model kullanıp alanı modele maruz bırakma biçiminin zayıflıklarını görünür kılarsınız. Bir miktar performans payı kaldığında projenin güvenilirliği ciddi biçimde artar. Müşteri belli bir edge case’ten şikayet ederse yalnızca o senaryoyu gpt5.5’e yükseltebilirsiniz; ama zaten 5.5 kullanıyorsanız gidecek başka yer kalmaz
- “Zekanın açıkça var olduğu” ifadesi bana pek geçmiyor
  Başkalarının kullandığı modellerle aynı şeyi kullanıp kullanmadığımı merak ediyorum. Benim deneyimimde LLM’ler zamanın %80’inde iyi cevaplar veriyor, ama kalan %20’de o kadar feci çuvallıyorlar ki zekanın olmadığını açıkça gösteriyorlar
- Katılıyorum. sonnet 4.6 neredeyse her iş için yeterli gibi geliyor. O seviyenin ötesinde, modelin kendisinden çok orkestrasyon daha önemli görünmeye başlıyor
  Yine de modeller her gün türlü halüsinasyonlar, zayıf epistemoloji, yetersiz sağduyu ve talimata uymama ile şaşırtmaya devam ediyor
  Bugün opus 4.8’in bir Rails uygulaması kontrolcüsünde basit bir mimari deseni takip etmesini sağlamaya çalıştım; köpekbalığının dişini sökmek gibiydi
- “Açıkça var” desek bile, artık “nerede bulunuyor?” diye sormamız gerektiği ve açıkça zeki olmayan botlar gördüğümüz gerçeği, zekanın konumunu ve nedenini tanımlayıp araştırma ihtiyacı doğuruyor
  Ancak bu şekilde zekanın tesadüfen ve yalnızca görünüşte değil, tutarlı ve yapısal biçimde ortaya çıktığına dair güvence elde edebiliriz. Hafif kullanım için hafif araçlar, görev açısından kritik kullanım içinse sertifikalı araçlar gerekir
- Bunun neden zaman kaybı olduğunu anlamıyorum
  LLM benchmarking’in ayrıntılarına daha yeni inmeye başlıyoruz ve bence önümüzde uzun bir yol var. Yine de lokalde çalışan LLM’lerin güncel en üst düzey modellerle benzer sonuçlar verebilmesi son derece ilginç
- Sihir alana özgü harness ve ortamlarda olmuyor. Asıl mesele eğitim ve reinforcement learning tarafında gerçekleşiyor. Harness, modele öğretilmiş davranışların üzerine yazamaz
  Eğer model CRUD web siteleri üretmek üzere eğitildiyse ve siz de CRUD web sitesi yapmak istiyorsanız harness faydalı olabilir. Ama bu da çoğu zaman zaten var olan şeyleri daha iyi harmanlamak için harcanan vakte yakın
Claude kullanıyordum; Opencode engellenince işte GPT kullanmaya başladım. Kişisel olaraksa Opencode Go içinde aylık 10 dolarlık planla Deepseek kullanıyorum ve dürüst olmak gerekirse pek fark hissetmiyorum
Benzer derecede yetenekli ve marttan beri diğer ikisinin sürekli yaptığı aptal hataların aynı türlerini o da yapıyor. Fiyatı düşününce fazlasıyla memnunum
- Zamanın %95’inde, frontier modellerin 10 ila 100 kat daha ucuz Çin modellerine göre sunduğu ek %5’lik titizlik gerekmiyor
  Kalan %5’lik zamanda ise zor muhakeme problemlerinde büyük yardım sağlıyor ve çok acıdan kurtarıyor. Keşke o ek %5’in ne zaman gerekeceğini artık tam olarak tahmin edebilsek
- Her iki aboneliği de kullanıyorum ve gpt’nin daha iyi ve daha tutarlı olduğunu kesinlikle hissediyorum. Yine de limite takıldığında onu çok özlemiyorum
- Neyi yanlış yaptığımı bilmiyorum. Son 7 aydır Claude kullanıyorum, arada deepseek, kimi gibi modelleri de denedim ama hiçbiri Claude’a yaklaşamadı. Claude neredeyse her zaman ilk denemede çözüyor
Kendi hazırladığım zafiyet tarama benchmark’ına GPT 5.5 Pro’yu da eklemeyi denedim(https://swelljoe.com/post/will-it-mythos/); ancak süreç içinde 100 dolarlık bütçe sınırını tamamen tüketti. DeepSeek V4 Pro tüm benchmark boyunca yaklaşık 1 dolara mal oldu, GPT Pro ise vaka başına ortalama 22 dolara mal oldu
GPT 5.5 Pro, bütçe tükenmeden önce işlediği 4 vakanın 2’sini buldu. Sınırsız bütçeyle en iyisi olabilirdi, ancak Opus 4.8, DeepSeek V4 Pro ve MiMo 2.5 Pro 9 hatanın 4’ünü buldu. Opus, GPT 5.5 Pro’dan tek haneli katlar düzeyinde daha ucuzdu ve GPT 5.5’ten de yaklaşık %30 daha ucuzdu; DeepSeek ile MiMo ise vaka başına yaklaşık 10 sentle iki haneli katlar düzeyinde daha ucuzdu
GPT Pro, nispeten uzun süre ve yoğun biçimde “çiğniyor”
Opus maliyetinin yaklaşık 31 katını verip GPT 5.5 Pro kullanmak için makul bir kullanım senaryosu aklıma gelmiyor ve artık bununla benchmark yapmayı düşünmüyorum
Token maliyetinin giderek daha önemli bir mesele hâline geldiği bir ortamda, büyük Amerikan sağlayıcılarından dramatik biçimde daha ucuz modellerin varlığı Anthropic ve OpenAI için sorun olacaktır. Sohbet tabanlı kodlamada en iyi model için makul bir prim ödemek sorun değil; ancak API kullanımında model yinelemesi, modeller arası karşılaştırma ve model değerlendirmesi gibi işler, insanı uzun süre meşgul etmeden harness ve doğru cevap doğrulama çerçeveleriyle yürütülebildiği için DeepSeek’e kıyasla 10 ila 200 kat fazla ödeme yapmak için bir neden bulmak zor
- Bu da ilginç olabilir
  “3,88 dolar, 690.003.591 token ve 5 saat kullanarak Deepseek Pro ile Flash’ı birlikte kullanıp Teamspeak 3.13.8’in lisans sistemini tersine mühendislikle analiz ettim”
  https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_...
- Karşılaştırmaya GPT 5.5 non-pro da eklenebilir mi diye merak ediyorum. GPT Pro, “arada sırada biraz daha iyi sonuç için para yakılabilir” seçeneği; insanların günlük kullanım için tercih etmesi beklenen bir seçenek değil. Codex’e dahil edilmemesinin nedenlerinden biri de muhtemelen bu
- Güzel bir yazı. Yalnız Sonnet’in neden Haiku’dan kötü performans gösterdiği kafa karıştırıcı. Aranan hatalar bunlar değildi ama başka hataları oldukça fazla bulduğunu söylemiş gibiydi
  9 hata, sıralama yapmak için biraz küçük bir örneklem gibi görünüyor
  Yine de sıralama genel olarak beklediğime yakın çıkmış
  Deepseek’in Pro olup olmadığını, Flash olmadığını merak ediyorum. Flash’ı küçük işler için sık kullanıyorum ve oldukça iyi. “Etkileşimli” kullanım için uygun, çok hızlı ve küçük işleri neredeyse anında bitiriyor
  Büyük kod tabanlarını incelemek için de işe yarıyor. Güvenlik işlerinde de kullanılabilir mi diye merak ediyorum
- Güzel çalışma. Sezgim doğru gibi görünüyor. Mythos moment’ın önemli bir kısmı, uygun bir harness ve fazla saçma guardrail içermeyen sağlam bir modelle yeniden üretilebilir gibi duruyor
  Ucuz modellerin iyi performans göstermesini görmek de güzel
- DeepSeek’i nerede çalıştırıyorsunuz?
Claude Code’u DeepSeek API fiyatlandırmasına geçirirsem, şu an kullandığım 100$’lık Max plandan daha iyi bir fiyat/performans verip vermeyeceğini merak ediyorum
5 saatlik sınıra birkaç günde bir ancak takılıyorum; haftalık sınıra da ancak en agresif şekilde kullanırsam sıfırlanmadan bir iki gün önce ulaşıyorum. Sınırlara takılmamak dışında kullanımın çok artacağını sanmıyorum
Çalışmalarımı ABD’ye düşmanca bir hükümet altındaki bir araştırma laboratuvarına göndermek de hâlâ beni rahatsız ediyor; yani mesele sadece maliyet değil, ama şu anki sorum maliyet açısından
- “Fiyatını hak etmesi”ni neye göre değerlendirdiğine bağlı. Açık ağırlıklı modeller, openai/claude’dan daha iyi değil. Ama çok daha ucuzlar ve limitleri de çok daha yüksek; yani daha az parayla daha fazla iş yaptırabiliyorsun
  Tüm abonelik sağlayıcıları, para başına limit değeri açısından Anthropic’ten daha iyi. Tek istisna GitHub; o taraf ezici derecede, neredeyse utandıracak kadar pahalı ve kısıtlı
  (https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
  ABD dışındaki bir araştırma laboratuvarının yaptığı modeli kullanmak istemiyorsan ABD modellerine bağlı kalırsın, ama ABD’de de birkaç büyük laboratuvar var. Asıl endişen çıkarımın nerede çalıştırıldığıysa, OpenRouter üzerinden ABD dâhil 12 ülkedeki sağlayıcıları kullanabilirsin; ayrıca birçok abonelik sağlayıcısı da birden fazla ülkede barındırma yapıyor. Seçenek çok
- Bence doğrudan dene. deepseek.com’a 5$ yükle, bu ayarları bir kabuk betiğine koy, sonra . ./deepseek-claude.sh çalıştırıp claude’u her zamanki gibi kullan
  export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
  export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***
  export ANTHROPIC_MODEL=deepseek-v4-pro
  export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro
  export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro
  export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
  export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
  export CLAUDE_CODE_EFFORT_LEVEL=max
  Başta, limite yaklaşınca büyük okuma işleri için kullandım. Dürüst olmak gerekirse Claude kadar iyi değil, ama çok daha ucuz ve çalışmaya devam etmene imkân veriyor. Bazen hem claude’a hem de deepseek’e koda bakıp nasıl iyileştirileceğini sorup yanıtlarını karşılaştırmak da iyi oluyor
- Claude’u aylık 100$ abonelikle kullanıyorum. Opus’u mimar, Sonnet’i uygulayıcı/mühendis, deepseek-pro’yu da derin gözden geçiren ve test eden olarak kullandığım bir düzeni deniyorum; beklediğim gibi oldukça iyi gidiyor
  Kullanım alışkanlığım böyle devam ederse aboneliği aylık 20$’a düşürüp Deepseek’e daha fazla para ayırmayı düşünüyorum
  Referans depo: https://github.com/aravindhsampath/agentic-template
- Dolar başına çıktı çok daha iyi, saat başına çıktı ise biraz daha düşük
  Her zamanki gibi, her modelin tıkandığı noktalar farklı. Cursor’daki denemeler, keşif ve kavram kanıtlarının çoğunda DeepSeek v4 API kullanıyorum, ama üretim kodu yazarken OpenAI/Claude kadar güvenmiyorum. DeepSeek bazen hata ayıklama ya da planlama için çok iyi oluyor, bazen de tıkanıyor veya düşük kaliteli çıktı veriyor. OpenAI ve Anthropic modellerinde de benzer durum var
  Genel olarak DeepSeek işe yarar, ama Opus 4.8 ve GPT 5.5’in bir kademe altında görünüyor. Hepsini maksimum düşünme ayarında çalıştırıyorum
- Verileri çıkarım için dışarı göndermek seni endişelendiriyorsa, Fireworks açık modelleri iyi performansla sunarken uyumluluk ve veri saklamama konusunda düzenli çalışan şirketlerden biri. OpenCode da Fireworks ve birkaç başka sağlayıcıyı destekliyor; Cursor da Fireworks kullanıyor
  DeepSeek’in kendi uç noktası gibi aşırı ucuz önbellek okuma avantajı yok, ama yine de Anthropic API ücretlerinden çok daha düşük. Yalnız şu anda önemli olan nokta, zaten API ücreti ödüyor olmaman
  DeepSeek ve Xiaomi’nin önbellek okuma indirimleri, son nesil modellerin daha az KV depolama alanı kullanması sayesinde önbelleklemenin ucuzlamasıyla ilgili. Hiçbir açık model çıkarım sağlayıcısı o fiyatı yakalamayı seçmedi; bu da çıkarımın fiyat yapısı hakkında bir şey söylüyor gibi, ama tam olarak ne söylediğini bilmiyorum
  En iyi açık modellerin frontier seviyesinde olmadığına katılıyorum. Büyük resim planlama ya da sadece genel çerçeveyi verip çok fazla tahmin beklediğin durumlarda fark ortaya çıkacaktır. Ama belirli planlar içinde kod yazmak için yeterince iyi görünüyor. Bunu sadece şirket dışında kullandım, dolayısıyla devasa kod tabanlarında deneyimim yok; ama dalmadan önce gerekli bilgiyi toplama konusunda iyi, gerekirse grep ile arayıp bulur gibi duruyor
  Can sıkıcı bir ipucu da şu: kişisel abonelik planını çok kullanırsan API’den çok daha ucuz olabiliyor. https://she-llac.com/claude-limits buna bakınca maliyet tartışması karmaşıklaşıyor. Yine de açık modellerle oynamaya değer bence. Az sayıda şirketin ürün paketi olarak değil, tek bir teknoloji olarak ele alabilmeyi sağlayan unsurlardan biri bu
Bu tür büyük haberlerde kural şu: küçük test paketleriyle bir modelin diğerinden daha iyi olduğu ilan ediliyor, ama bu sonuçların gerçekten tutarlı biçimde yeniden üretilebilir olup olmadığından şüpheliyim
Ortada neredeyse hiç açıklama da yok; dolayısıyla başkalarının testleri ya da değerlendirmeyi doğrudan doğrulayabileceği malzeme fiilen bulunmuyor
DeepSeek V4 Pro’nun en büyük değeri düşük fiyatı. GPT-5.5’ten çok daha iyi performans beklemiyorum; gpt-5.4 seviyesinde bile olsa hâlâ iyi bir model olur
- Beklenti her zaman gerçeğe dönüşmez. Modeli bizzat kullanmak en iyisi. Dürüst olmak gerekirse ben Pro’yu bile kullanmadım, sadece Flash kullandım; PHP web geliştirme yapıyorum
DSv4 Flash’ten daha iyi bir model gerektiren iş neredeyse yapmıyorum. Pro’ya ise hiç gerek yok
Sorunu ve çözümü yeterince iyi açıklayabiliyorsanız Flash işi zaten hallediyor
Sorunu yeterince açıklayamadığınızda ya da üşenip yalnızca istediğiniz sonucu tarif edebildiğinizde ise GPT 5.5 gibi modellerin kendi başına sağlam bir çözüm bulmada belirgin şekilde daha iyi olduğunu düşünüyorum
Modellerin yetenek farkı açık, ama daha küçük açık ağırlıklı modellerin de çoğu görevde büyük yardım sağlayacak kadar yeterince iyi olduğu da açık
Maliyet/performans nedeniyle deepseek v4 kullanıyorum. Genel olarak bazı diğer modellerden daha kötü olduğunu düşünsem de, sonuçta doğru kabul kriterlerini verirseniz herhangi bir modeli çalışır hale getirebilirsiniz
Yapmanız gereken şey ayrıntılı bir spesifikasyon ve testler vermek, sonra da doğru çalışana kadar yineleme yetkisi tanımak. Tek atış performansı ölçmek için kötü bir göstergedir
- Tüm modellerin kabul kriterlerine yakınsadığını düşünmüyorum. Ajan tabanlı modelleme ve bu alandaki bilimsel modellemeyle epey çeşitli şeyler denedim; doğrulama ölçütleriniz olsa ve bir yakınsama noktasına ulaşma konusunda fikriniz bulunsa bile, bu pratikte gerçekten yakınsayacağı anlamına gelmiyor
  Bilgi uzayında sürekli yineleme yapıp istediğiniz çözümü bulamadan sıkışıp kalabilir
  Yardımcı oluyor, ama başarısızlık durumlarında çözümün bulunabilmesi için çoğu zaman bir insanın araya girip yön vermesi ya da belirli bir yolu zorla düzeltmesi gerekiyor
reasonix ile birlikte kullanılan DeepSeek V4 Pro şaşırtıcı derecede ucuz ve çoğu kodlama işi için yeterince iyi. GPT 5.5 ve Opus 4.8’den de oldukça farklı, bu yüzden diğer ikisinin bulamadığı sorunları bazen yakalıyor
Araç kutusunda bulunmaya değer olduğunu düşünüyorum
DeepSeek V4 Pro harika ve saçma derecede ucuz, ama insanlar MiMo V2.5 Pro’yu küçümsüyor. Fiyatı aynı, cache fiyatı daha düşük, multimodal ve çoğu benchmark’ta daha üst sıralarda
Aynı durum MiMo V2.5 ile DeepSeek V4 Flash karşılaştırması için de geçerli
- Yazının yazıldığı andaki https://news.ycombinator.com/item?id=48343690 bağlantısına göre MiMo V2.5 Pro’nun cache hit fiyatı daha düşüktü. Orijinal metin şöyleydi
  OSS modelleri hangi sağlayıcıda kullandığınıza göre büyük fark gösterir; bunun başlıca nedeni cache hit oranıdır
  Model Cheapest effectiveInputPrice (Provider)
  MiMo-V2.5-Pro 0.3720 (Xiaomi)
  DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)