DeepSeek-V3.2-Exp: Deneysel uzun bağlam optimizasyon modeli tanıtıldı

(github.com/deepseek-ai)

2 puan yazan GN⁺ 2025-09-30 | 1 yorum | WhatsApp'ta paylaş

V3.1-Terminus temel alınarak, uzun bağlam işleme verimliliğini artırmak için DeepSeek Sparse Attention (seyrek attention mekanizması) kullanan deneysel bir model tanıtıldı
Sparse Attention, ince taneli seyrek işlemleri destekleyerek eğitim ve çıkarım verimliliğini büyük ölçüde artırırken çıktı kalitesini mevcut düzeye yakın tutuyor
Başlıca benchmark'larda V3.1-Terminus ile benzer ya da bazı alanlarda daha iyi performans gösterdi; özellikle kodlama, matematik problemi çözme ve ajan tipi araç kullanımı senaryolarında sonuçlar öne çıktı
Araştırma ve kullanım amacıyla TileLang, DeepGEMM, FlashMLA gibi ilgili kernel'ler de birlikte açıklandı; hem okunabilir tasarım sürümleri hem de yüksek performanslı CUDA kernel'leri sunuluyor
HuggingFace, SGLang, vLLM gibi çeşitli ortamlarda doğrudan çalıştırılabildiği için, yeni nesil verimli transformer mimarileri araştırmaları ve gerçek dünya uygulamaları için temel oluşturması bekleniyor

Giriş

DeepSeek-V3.2-Exp, V3.1-Terminus temelinde geliştirilen yeni nesil mimariye geçiş öncesi bir model
Temel özelliği, uzun bağlamlarda verimli çıkarım ve eğitimi mümkün kılan DeepSeek Sparse Attention (DSA) kullanımı
Amaç, hesaplama verimliliğini iyileştirmek ve genişletilmiş metin dizisi işlemeyi optimize etmek

Başlıca sonuçlar

DSA, gelişmiş seyrek attention yaklaşımını ilk kez hayata geçirerek verimliliği artırırken modelin çıktı kalitesini koruyor
Eğitim yapılandırması, performans karşılaştırmasının güvenilirliğini sağlamak için V3.1-Terminus ile aynı tutuldu
Kamusal benchmark sonuçları:
- Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
- Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
- Genel olarak denk ya da hafif iyileşmiş sonuçlar doğrulandı

Açık kaynak kernel'ler

TileLang: araştırma amaçlı, okunabilirliği yüksek kernel örnekleri sunuyor
DeepGEMM: yüksek performanslı CUDA kernel'leri ve indexer logit kernel'leri yayımlandı
FlashMLA: sparse attention kernel'leri sunuyor

Çalıştırma yöntemi

HuggingFace: model dönüştürüldükten sonra torchrun ile etkileşimli sohbet çalıştırılabiliyor
SGLang: Docker image sunuluyor (H200, MI350 ve NPU'lar için)
vLLM: Day-0 desteği ve resmi recipe dokümantasyonu sağlanıyor

Lisans

MIT License temelinde yayımlandı

1 yorum

GN⁺ 2025-09-30

Hacker News görüşleri

İkincil etki olarak insanların pek bahsetmediği kısmın fiyat olduğuna dikkat çekiliyor; modelin hızla ölçeklenmesiyle birlikte fiyatın da düşmesi etkileyici. Bu, yapay zekanın yaygınlaşması ve model zekası kadar önemli bir unsur. Temelde fiyat düşüşünü engelleyecek bir yasa gibi bir şey olmadığı düşünülüyor. Şu anda donanım nesilleri ilerledikçe, Moore yasasına (veya AI/Nvidia çip geliştirme döngüsüne) benzer şekilde çok daha hızlı ve ucuz hale geliyor. O halde 1 yıl sonra ChatGPT-5'i yarı fiyatına kullanmak mümkün olabilir (tabii ki üst seviye modeller daha pahalıdır ama burada token başına ücret bazında konuşuluyor).
- Fiyat düşüşünün boyutu ciddi şekilde küçümseniyor. Örneğin Andreessen Horowitz araştırmasına göre GPT-3.5'in çıkışından sonraki 2 yılda çıkarım maliyeti yılda 10 kat düştü kaynak. Bu yüzden büyümenin yavaşladığı bir senaryoda bile önümüzdeki 5 yıl içinde 1.000 kat düşüş mümkün görünüyor. Mevcut fiyat düşüşü doğrudan Moore yasasına bağlı değil; model optimizasyonu, yüksek bant genişlikli bellek tedarik zinciri ve enerji altyapısı yatırımları gibi çeşitli yenilikler sayesinde gerçekleşiyor.
Çin açık kaynak modellerinin sürekli gelişip ucuzlaması memnuniyetle karşılanıyor. Zaten ucuz olan modelde API fiyatı ayrıca %50 düşürülerek Input $0.28/M, (cache hit olduğunda $0.028/M), Output $0.42/M seviyesine indirilmiş.
- Fiyatın düştüğü söylenince önceki fiyatın ne olduğu merak ediliyor. Hatta son dönemde fiyatın artmış olduğu yönünde bir izlenim bile vardı.
- Fiyat indirimi güzel ama bu seviyenin ne kadar korunacağı merak ediliyor. Çünkü eskiden çok ucuzken bir ara ciddi şekilde yükselmiş, şimdi tekrar düşmüş durumda.
Deepseek v3.2-exp model tanıtım bağlantısı
- İlginç şekilde bu modelin "veriyle eğitildiği" belirtiliyor ("bu sağlayıcı, istemleri ve çıktıları yeni modellerin eğitiminde kullanabilir. Bu sağlayıcı şu anda devre dışı ama veri politikası değişirse yeniden etkinleştirilebilir"). Genelde ücretli modeller giriş verilerini eğitimde kullanmaz; bunun Openrouter tarafında bir yanlış etiketleme mi olduğu, yoksa Deepseek'in gerçekten kullanıcı verilerini eğitimde kullanıp kullanmadığı merak ediliyor.
- Open Router'ın gerçekten açık kaynak olup olmadığı sorgulanıyor. "Ana" repo arşivlenmiş durumda ve sadece küçük projeler var. Gerçek açık kaynak kısmın yalnızca API istemci binding'leri olduğu, asıl yönlendirme servisinin kapalı olup olmadığı merak ediliyor.
Doğru anlaşıldıysa, bu model tüm attention dağılımını taklit edecek şekilde eğitilirken aynı zamanda yalnızca önemli ilk k token'ı (burada k=2048) filtreliyor. Böylece context window büyüse bile [query, key] hesaplamasının hesaplama karmaşıklığı doğrusal biçimde artmak yerine sabit kalıyor (gerçi gerçek grafikte indeksleyicinin tüm context'i kabaca bir kez taradığı bir süreç kaldığı için O(L) olarak görülebilir).
Bu tür "ucuz" modellerin büyük sorunu, sağlayıcı cache desteği vermiyorsa gerçek kullanım ortamında, özellikle agent workflow'larda, maliyetin aslında daha yüksek olabilmesi. Input/output token maliyetlerinin çok anlamlı olmadığı, asıl toplam tokenlerin büyük kısmını cache hit (yeniden kullanım) maliyetinin oluşturduğu söyleniyor. Bu durumda doğrudan GPT-5 kullanmak daha ucuz olabilir ya da benzer maliyetle daha güçlü bir model elde edilebilir.
- DeepSeek cache desteği sunuyor ve cache hit olduğunda maliyet cache miss'in onda biri. Net olarak cache hit $0.028/M, cache miss $0.28/M, output $0.42/M kaynak
- Bu modelin caching desteklediği biliniyordu; fiyat sayfasında da cache hit durumunda input token ücretinin $0.028 olduğu açıkça yazıyor.
- Ciddi bir sorun ilan edilirken bir önkoşul (IF) eklenmişti; DeepSeek API resmi olarak caching destekliyor. Olmayan yerden sorun üretilmemesi isteniyor cache rehberi
Benchmark'ların neredeyse aynı kalırken maliyetin dramatik biçimde düşmesi şaşırtıcı bulunuyor.
İlginç olan, model gelişim hızının hâlâ çok yüksek olması nedeniyle belirli modellere özel donanımların büyük ölçüde öne çıkmaması; ana ölçeklenme avantajlarının hâlâ genel amaçlı platformlarda ortaya çıkıyor olması.
- Yine de Google TPU, Groq, Cerebras gibi mimari olarak optimize edilmiş çiplerin de anılması gerektiği belirtiliyor. Bunlar tamamen özel amaçlı olmasa da daha genel yapılarda optimize edilmiş örnekler.
Deep Sparse Attention'ın kod gibi yapısal ve uzun metinli muhakeme görevlerinde gerçek fayda sağlayabileceği düşünülüyor.
Gerçekten etkileyici bulunuyor; özellikle ince farkların önemli olduğu gerçek dünya verilerinde nasıl çalıştığı merak ediliyor. Ayrıca 128K context window'dan daha büyük senaryolarda test edilip edilmediği de özellikle merak konusu.
Sparse attention'ın gerçek ortamlarda uygulanmış örneklerini görmek güzel

DeepSeek-V3.2-Exp: Deneysel uzun bağlam optimizasyon modeli tanıtıldı

Giriş

Başlıca sonuçlar

Açık kaynak kernel'ler

Çalıştırma yöntemi

Lisans

İlgili okumalar

1 yorum

Hacker News görüşleri