2 puan yazan GN⁺ 2025-08-22 | 1 yorum | WhatsApp'ta paylaş
  • DeepSeek-V3.1, yeni nesil ajan çağı için ilk adım niteliğinde
  • Tek bir model içinde Think (çıkarım tabanlı) ve Non-Think (çıkarım tabanlı olmayan) olmak üzere iki modu seçmeli olarak kullanabilen hibrit çıkarım özelliğini sunuyor
  • DeepSeek-V3.1-Think modunda, önceki model DeepSeek-R1-0528'e kıyasla daha kısa sürede doğru sonuca ulaşılabiliyor ve böylece verimlilik önemli ölçüde artıyor
  • Post-training sayesinde araç kullanımı, dış sistemlerin kontrolü ve çok adımlı ajan görevleri gibi alanlarda modelin görev yerine getirme yeteneği büyük ölçüde iyileştirildi
  • Kullanıcılar, DeepSeek chatbot hizmetinde "DeepThink" düğmesi üzerinden Think/Non-Think modları arasında geçişi özgürce yapabiliyor
  • API güncellemeleri
    • SWE (Software Engineering) ve Terminal-Bench değerlendirmelerinde daha iyi sonuçlar elde edildi
    • Karmaşık arama veya çok adımlı görevlerde çok aşamalı çıkarım ve problem çözme yeteneği belirgin biçimde güçlendirildi
    • Genel çıkarım verimliliği büyük ölçüde artırıldı
  • Fiyatlandırma değişikliği (25/9'dan itibaren geçerli)
    • Girdi API'si: 1M token başına $0.07 (cache hit) / $0.56 (cache miss)
    • Çıktı API'si: 1M token başına $1.68

1 yorum

 
GN⁺ 2025-08-22
Hacker News görüşleri
  • Yerelde çalıştırmak için bir GGUF model hazırlanmış; dinamik 2bit yöntemiyle (2bit MoE, geri kalanı 6-8bit) iyi performans almak için RAM ve VRAM toplamında yaklaşık 250GB gerekiyor. SSD offloading de mümkün ama yavaş. Çalıştırma yöntemi, en uygun parametreler ve diğer ayrıntılar için resmi dokümana bakılabilir.
    • Ancak unsloth bir Python kütüphanesi olmasına rağmen apt-get komutunu sudo ile çalıştırmaya çalışması garip geliyor. Benim NixOS sistemimde bu başarısız oluyor, bu yüzden kullanması zor.
    • Bu tür dinamik 2bit sıkıştırmada, orijinal modele kıyasla performansın ne kadar düştüğüne dair benchmark sonuçlarını merak ediyorum.
  • Bilgi olarak terminal-bench lider tablosu paylaşılıyor. GPT-5, Claude 4 ve GLM-4.5 ile arasında büyük fark var ama diğer open-weight modellerle kıyaslandığında performansı görece iyi. Benchmark’lar her şeyi söylemez; gerçek sonuçları görmek için zaman geçmesi gerekir.
    • Bu benchmark’ın agent tool ile modeli birbirine karıştırdığı için sonuçlarının tutarsız olduğunu düşünüyorum. Anlamlı olması için yalnızca modeli karşılaştırıp agent tool’u sabit tutmak gerekir. Bu tür benchmark’ların güvenilirliği genelde düşüktür; modeli doğrudan kullanıp kendi probleminize uygulamak daha iyi bir yöntemdir.
    • Benim deneyimime göre çıktı kalitesi oldukça iyiydi.
    • Anthropic ve OpenAI gibi şirketler de belirli benchmark’lar için özel agent’lar geliştirme eğiliminde.
    • DeepSeek R1’in zaten yerini yeni bir modele bırakmış eski model olduğu belirtiliyor. Güncellemeleri gördüm.
    • Fiyat çok pahalı olmazsa, SOTA bir model olsa bile ilgi çekici olur.
  • Önceki düşük sezon indiriminin kalkmış olması üzücü. O dönemde çok büyük miktarda token üretirken bile maliyet neredeyse yoktu. Yine de fiyat/performans açısından hâlâ çok iyi olduğu için büyük bir şikayetim yok.
  • artificialanalysis.ai benchmark sonuçlarına göre zekâ seviyesi kabaca gpt-oss-120B ile benzer, ancak yaklaşık 10 kat daha yavaş ve 3 kat daha pahalı.
    • Verilen kaynak şu anda yalnızca tek bir provider gösteriyor. Aynı sağlayıcı üzerinden gpt-oss-120B ile deepseek-chat-v3.1 karşılaştırmak daha doğru olur. gpt-oss-120B için zaten daha fazla kurulmuş ve optimize edilmiş sağlayıcı bulunduğundan bunun sağladığı avantajı da hesaba katmak gerekir.
  • DeepSeek V3.1 hibrit bir reasoning modeli ve tool calling’de güçlü. Ancak standart JSON biçimi yerine eski tool formatını rastgele kullanması sık görülüyor; muhtemelen V3 eğitim veri setinde bu tür örnekler çoktu.
    • strict (beta) function calling’i denediniz mi diye soruluyor; bununla ilgili bir rehber var.
    • Hangi formatın kastedildiği soruluyor. JSON’un, LLM’in yapısal çıktı üretmesini zorlamak için uygun olduğu biliniyor; bu yüzden neden özellikle JSON dışına çıktığı merak ediliyor.
  • Qwen3 235B 2507 Reasoning’den (sevdiğim model) veya gpt-oss-120B’den geride görünüyor. Benchmark bağlantısı, fiyat bilgisi.
    • Qwen3 2507 ailesinin şu anda yerelde en iyi seçenek olduğunu düşünüyorum. GPU ve yaklaşık 32GB RAM ile A3B model, pair programming işleri için çok uygun.
  • Son 6 ayda kullandığım modeller arasında DeepSeek V3.1 en fazla halüsinasyon üreten model oldu.
    • Hangi context length’in kullanıldığı soruluyor.
    • Bu kez kötü veri çekmiş olabileceği ihtimali soruluyor.
  • V3 ile Qwen3 Coder arasında bir yerde duruyor. Karşılaştırma bağlantısı
    • gpt-5 Mini modelinin ücretsiz sunulup sunulmadığı soruluyor.
  • Open-weight modeller arasında rekabetçi görünüyor, ancak GPT-5 veya Claude ile kıyaslandığında arada hâlâ büyük bir fark var.
  • GLM-4.5’ten agentic coding görevlerinde daha iyi olduğuna dair henüz bir kanıt görmedim.
    • Bunun her şeyi kapsayıp kapsamadığı, başka açılardan da görülmemiş kanıt olup olmadığı tekrar soruluyor.