DeepSeek-v3.1 sürümü yayımlandı

(api-docs.deepseek.com)

2 puan yazan GN⁺ 2025-08-22 | 1 yorum | WhatsApp'ta paylaş

DeepSeek-V3.1, yeni nesil ajan çağı için ilk adım niteliğinde
Tek bir model içinde Think (çıkarım tabanlı) ve Non-Think (çıkarım tabanlı olmayan) olmak üzere iki modu seçmeli olarak kullanabilen hibrit çıkarım özelliğini sunuyor
DeepSeek-V3.1-Think modunda, önceki model DeepSeek-R1-0528'e kıyasla daha kısa sürede doğru sonuca ulaşılabiliyor ve böylece verimlilik önemli ölçüde artıyor
Post-training sayesinde araç kullanımı, dış sistemlerin kontrolü ve çok adımlı ajan görevleri gibi alanlarda modelin görev yerine getirme yeteneği büyük ölçüde iyileştirildi
Kullanıcılar, DeepSeek chatbot hizmetinde "DeepThink" düğmesi üzerinden Think/Non-Think modları arasında geçişi özgürce yapabiliyor
API güncellemeleri
- SWE (Software Engineering) ve Terminal-Bench değerlendirmelerinde daha iyi sonuçlar elde edildi
- Karmaşık arama veya çok adımlı görevlerde çok aşamalı çıkarım ve problem çözme yeteneği belirgin biçimde güçlendirildi
- Genel çıkarım verimliliği büyük ölçüde artırıldı
Fiyatlandırma değişikliği (25/9'dan itibaren geçerli)
- Girdi API'si: 1M token başına $0.07 (cache hit) / $0.56 (cache miss)
- Çıktı API'si: 1M token başına $1.68

1 yorum

GN⁺ 2025-08-22

Hacker News görüşleri

Yerelde çalıştırmak için bir GGUF model hazırlanmış; dinamik 2bit yöntemiyle (2bit MoE, geri kalanı 6-8bit) iyi performans almak için RAM ve VRAM toplamında yaklaşık 250GB gerekiyor. SSD offloading de mümkün ama yavaş. Çalıştırma yöntemi, en uygun parametreler ve diğer ayrıntılar için resmi dokümana bakılabilir.
- Ancak unsloth bir Python kütüphanesi olmasına rağmen apt-get komutunu sudo ile çalıştırmaya çalışması garip geliyor. Benim NixOS sistemimde bu başarısız oluyor, bu yüzden kullanması zor.
- Bu tür dinamik 2bit sıkıştırmada, orijinal modele kıyasla performansın ne kadar düştüğüne dair benchmark sonuçlarını merak ediyorum.
Bilgi olarak terminal-bench lider tablosu paylaşılıyor. GPT-5, Claude 4 ve GLM-4.5 ile arasında büyük fark var ama diğer open-weight modellerle kıyaslandığında performansı görece iyi. Benchmark’lar her şeyi söylemez; gerçek sonuçları görmek için zaman geçmesi gerekir.
- Bu benchmark’ın agent tool ile modeli birbirine karıştırdığı için sonuçlarının tutarsız olduğunu düşünüyorum. Anlamlı olması için yalnızca modeli karşılaştırıp agent tool’u sabit tutmak gerekir. Bu tür benchmark’ların güvenilirliği genelde düşüktür; modeli doğrudan kullanıp kendi probleminize uygulamak daha iyi bir yöntemdir.
- Benim deneyimime göre çıktı kalitesi oldukça iyiydi.
- Anthropic ve OpenAI gibi şirketler de belirli benchmark’lar için özel agent’lar geliştirme eğiliminde.
- DeepSeek R1’in zaten yerini yeni bir modele bırakmış eski model olduğu belirtiliyor. Güncellemeleri gördüm.
- Fiyat çok pahalı olmazsa, SOTA bir model olsa bile ilgi çekici olur.
Önceki düşük sezon indiriminin kalkmış olması üzücü. O dönemde çok büyük miktarda token üretirken bile maliyet neredeyse yoktu. Yine de fiyat/performans açısından hâlâ çok iyi olduğu için büyük bir şikayetim yok.
artificialanalysis.ai benchmark sonuçlarına göre zekâ seviyesi kabaca gpt-oss-120B ile benzer, ancak yaklaşık 10 kat daha yavaş ve 3 kat daha pahalı.
- Verilen kaynak şu anda yalnızca tek bir provider gösteriyor. Aynı sağlayıcı üzerinden gpt-oss-120B ile deepseek-chat-v3.1 karşılaştırmak daha doğru olur. gpt-oss-120B için zaten daha fazla kurulmuş ve optimize edilmiş sağlayıcı bulunduğundan bunun sağladığı avantajı da hesaba katmak gerekir.
DeepSeek V3.1 hibrit bir reasoning modeli ve tool calling’de güçlü. Ancak standart JSON biçimi yerine eski tool formatını rastgele kullanması sık görülüyor; muhtemelen V3 eğitim veri setinde bu tür örnekler çoktu.
- strict (beta) function calling’i denediniz mi diye soruluyor; bununla ilgili bir rehber var.
- Hangi formatın kastedildiği soruluyor. JSON’un, LLM’in yapısal çıktı üretmesini zorlamak için uygun olduğu biliniyor; bu yüzden neden özellikle JSON dışına çıktığı merak ediliyor.
Qwen3 235B 2507 Reasoning’den (sevdiğim model) veya gpt-oss-120B’den geride görünüyor. Benchmark bağlantısı, fiyat bilgisi.
- Qwen3 2507 ailesinin şu anda yerelde en iyi seçenek olduğunu düşünüyorum. GPU ve yaklaşık 32GB RAM ile A3B model, pair programming işleri için çok uygun.
Son 6 ayda kullandığım modeller arasında DeepSeek V3.1 en fazla halüsinasyon üreten model oldu.
- Hangi context length’in kullanıldığı soruluyor.
- Bu kez kötü veri çekmiş olabileceği ihtimali soruluyor.
V3 ile Qwen3 Coder arasında bir yerde duruyor. Karşılaştırma bağlantısı
- gpt-5 Mini modelinin ücretsiz sunulup sunulmadığı soruluyor.
Open-weight modeller arasında rekabetçi görünüyor, ancak GPT-5 veya Claude ile kıyaslandığında arada hâlâ büyük bir fark var.
GLM-4.5’ten agentic coding görevlerinde daha iyi olduğuna dair henüz bir kanıt görmedim.
- Bunun her şeyi kapsayıp kapsamadığı, başka açılardan da görülmemiş kanıt olup olmadığı tekrar soruluyor.

DeepSeek-v3.1 sürümü yayımlandı

İlgili okumalar

1 yorum

Hacker News görüşleri