- V3.1-Terminus temel alınarak, uzun bağlam işleme verimliliğini artırmak için DeepSeek Sparse Attention (seyrek attention mekanizması) kullanan deneysel bir model tanıtıldı
- Sparse Attention, ince taneli seyrek işlemleri destekleyerek eğitim ve çıkarım verimliliğini büyük ölçüde artırırken çıktı kalitesini mevcut düzeye yakın tutuyor
- Başlıca benchmark'larda V3.1-Terminus ile benzer ya da bazı alanlarda daha iyi performans gösterdi; özellikle kodlama, matematik problemi çözme ve ajan tipi araç kullanımı senaryolarında sonuçlar öne çıktı
- Araştırma ve kullanım amacıyla TileLang, DeepGEMM, FlashMLA gibi ilgili kernel'ler de birlikte açıklandı; hem okunabilir tasarım sürümleri hem de yüksek performanslı CUDA kernel'leri sunuluyor
- HuggingFace, SGLang, vLLM gibi çeşitli ortamlarda doğrudan çalıştırılabildiği için, yeni nesil verimli transformer mimarileri araştırmaları ve gerçek dünya uygulamaları için temel oluşturması bekleniyor
Giriş
- DeepSeek-V3.2-Exp, V3.1-Terminus temelinde geliştirilen yeni nesil mimariye geçiş öncesi bir model
- Temel özelliği, uzun bağlamlarda verimli çıkarım ve eğitimi mümkün kılan DeepSeek Sparse Attention (DSA) kullanımı
- Amaç, hesaplama verimliliğini iyileştirmek ve genişletilmiş metin dizisi işlemeyi optimize etmek
Başlıca sonuçlar
- DSA, gelişmiş seyrek attention yaklaşımını ilk kez hayata geçirerek verimliliği artırırken modelin çıktı kalitesini koruyor
- Eğitim yapılandırması, performans karşılaştırmasının güvenilirliğini sağlamak için V3.1-Terminus ile aynı tutuldu
- Kamusal benchmark sonuçları:
- Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
- Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
- Genel olarak denk ya da hafif iyileşmiş sonuçlar doğrulandı
Açık kaynak kernel'ler
- TileLang: araştırma amaçlı, okunabilirliği yüksek kernel örnekleri sunuyor
- DeepGEMM: yüksek performanslı CUDA kernel'leri ve indexer logit kernel'leri yayımlandı
- FlashMLA: sparse attention kernel'leri sunuyor
Çalıştırma yöntemi
- HuggingFace: model dönüştürüldükten sonra
torchrun ile etkileşimli sohbet çalıştırılabiliyor
- SGLang: Docker image sunuluyor (H200, MI350 ve NPU'lar için)
- vLLM: Day-0 desteği ve resmi recipe dokümantasyonu sağlanıyor
Lisans
- MIT License temelinde yayımlandı
1 yorum
Hacker News görüşleri
İkincil etki olarak insanların pek bahsetmediği kısmın fiyat olduğuna dikkat çekiliyor; modelin hızla ölçeklenmesiyle birlikte fiyatın da düşmesi etkileyici. Bu, yapay zekanın yaygınlaşması ve model zekası kadar önemli bir unsur. Temelde fiyat düşüşünü engelleyecek bir yasa gibi bir şey olmadığı düşünülüyor. Şu anda donanım nesilleri ilerledikçe, Moore yasasına (veya AI/Nvidia çip geliştirme döngüsüne) benzer şekilde çok daha hızlı ve ucuz hale geliyor. O halde 1 yıl sonra ChatGPT-5'i yarı fiyatına kullanmak mümkün olabilir (tabii ki üst seviye modeller daha pahalıdır ama burada token başına ücret bazında konuşuluyor).
Çin açık kaynak modellerinin sürekli gelişip ucuzlaması memnuniyetle karşılanıyor. Zaten ucuz olan modelde API fiyatı ayrıca %50 düşürülerek Input $0.28/M, (cache hit olduğunda $0.028/M), Output $0.42/M seviyesine indirilmiş.
Fiyatın düştüğü söylenince önceki fiyatın ne olduğu merak ediliyor. Hatta son dönemde fiyatın artmış olduğu yönünde bir izlenim bile vardı.
Fiyat indirimi güzel ama bu seviyenin ne kadar korunacağı merak ediliyor. Çünkü eskiden çok ucuzken bir ara ciddi şekilde yükselmiş, şimdi tekrar düşmüş durumda.
Deepseek v3.2-exp model tanıtım bağlantısı
İlginç şekilde bu modelin "veriyle eğitildiği" belirtiliyor ("bu sağlayıcı, istemleri ve çıktıları yeni modellerin eğitiminde kullanabilir. Bu sağlayıcı şu anda devre dışı ama veri politikası değişirse yeniden etkinleştirilebilir"). Genelde ücretli modeller giriş verilerini eğitimde kullanmaz; bunun Openrouter tarafında bir yanlış etiketleme mi olduğu, yoksa Deepseek'in gerçekten kullanıcı verilerini eğitimde kullanıp kullanmadığı merak ediliyor.
Open Router'ın gerçekten açık kaynak olup olmadığı sorgulanıyor. "Ana" repo arşivlenmiş durumda ve sadece küçük projeler var. Gerçek açık kaynak kısmın yalnızca API istemci binding'leri olduğu, asıl yönlendirme servisinin kapalı olup olmadığı merak ediliyor.
Doğru anlaşıldıysa, bu model tüm attention dağılımını taklit edecek şekilde eğitilirken aynı zamanda yalnızca önemli ilk k token'ı (burada k=2048) filtreliyor. Böylece context window büyüse bile [query, key] hesaplamasının hesaplama karmaşıklığı doğrusal biçimde artmak yerine sabit kalıyor (gerçi gerçek grafikte indeksleyicinin tüm context'i kabaca bir kez taradığı bir süreç kaldığı için O(L) olarak görülebilir).
Bu tür "ucuz" modellerin büyük sorunu, sağlayıcı cache desteği vermiyorsa gerçek kullanım ortamında, özellikle agent workflow'larda, maliyetin aslında daha yüksek olabilmesi. Input/output token maliyetlerinin çok anlamlı olmadığı, asıl toplam tokenlerin büyük kısmını cache hit (yeniden kullanım) maliyetinin oluşturduğu söyleniyor. Bu durumda doğrudan GPT-5 kullanmak daha ucuz olabilir ya da benzer maliyetle daha güçlü bir model elde edilebilir.
DeepSeek cache desteği sunuyor ve cache hit olduğunda maliyet cache miss'in onda biri. Net olarak cache hit $0.028/M, cache miss $0.28/M, output $0.42/M kaynak
Bu modelin caching desteklediği biliniyordu; fiyat sayfasında da cache hit durumunda input token ücretinin $0.028 olduğu açıkça yazıyor.
Ciddi bir sorun ilan edilirken bir önkoşul (IF) eklenmişti; DeepSeek API resmi olarak caching destekliyor. Olmayan yerden sorun üretilmemesi isteniyor cache rehberi
Benchmark'ların neredeyse aynı kalırken maliyetin dramatik biçimde düşmesi şaşırtıcı bulunuyor.
İlginç olan, model gelişim hızının hâlâ çok yüksek olması nedeniyle belirli modellere özel donanımların büyük ölçüde öne çıkmaması; ana ölçeklenme avantajlarının hâlâ genel amaçlı platformlarda ortaya çıkıyor olması.
Deep Sparse Attention'ın kod gibi yapısal ve uzun metinli muhakeme görevlerinde gerçek fayda sağlayabileceği düşünülüyor.
Gerçekten etkileyici bulunuyor; özellikle ince farkların önemli olduğu gerçek dünya verilerinde nasıl çalıştığı merak ediliyor. Ayrıca 128K context window'dan daha büyük senaryolarda test edilip edilmediği de özellikle merak konusu.
Sparse attention'ın gerçek ortamlarda uygulanmış örneklerini görmek güzel