- DeepSeek-V3.2, yüksek hesaplama verimliliği ile çıkarım ve ajan performansını birleştiren bir açık kaynak büyük dil modelidir
- Yeni DeepSeek Sparse Attention (DSA) yapısıyla, uzun bağlamlarda dahi performansı korurken hesaplama karmaşıklığını büyük ölçüde azaltıyor
- Ölçeklenebilir pekiştirmeli öğrenme (RL) çerçevesi ile GPT-5 seviyesinde performans elde edilerek, yüksek performanslı sürüm Gemini-3.0-Pro ile eşdeğer bir çıkarım gücü sağlanıyor
- Büyük ölçekli ajan görev sentezi hattı ile 1,800 ortam ve 85,000 prompt üretilerek, karmaşık etkileşim ortamlarında genelleme ve komut uygulama yeteneği geliştiriliyor
- Açık modeller, kapalı modellerle arasındaki farkı azaltarak maliyet açısından verimli bir alternatif olarak konumlanıyor
DeepSeek-V3.2 Genel Bakış
- DeepSeek-V3.2, açık kaynak LLM'lerin çıkarım ve ajan performansı sınırlarını aşmak için tasarlanmış bir modeldir
- DeepSeek Sparse Attention (DSA), ölçeklenebilir pekiştirmeli öğrenme çerçevesi, büyük ölçekli ajan görev sentez hattı olmak üzere üç temel teknolojiyle oluşturuldu
- Yüksek performanslı sürüm DeepSeek-V3.2-Speciale, GPT-5'i geçerek Gemini-3.0-Pro ile eşdeğer seviyede çıkarım yeteneğine sahip
- 2025 Uluslararası Matematik Olimpiyatı (IMO) ve Uluslararası Bilişim Olimpiyatı (IOI) dahilindeki yarışmalarda altın madalya düzeyinde başarılar elde etti
- Açık modelin verimliliği ve performansını aynı anda artırarak kapalı modellerin performans farkını daraltıyor
Açık Modellerin Sınırlamaları ve İyileştirme Yönü
- Açık kaynak LLM'lerin kapalı modellere göre geri kalmasının üç temel nedeni belirtiliyor
- Temel dikkat yapısının verimsizliği nedeniyle uzun dizilerde hesaplama yükü artıyor
- Post-training aşamasında hesaplama kaynağı yetersizliği nedeniyle zor görevlerde performans düşüşü oluyor
- Ajan genellemesi ve komut yerine getirme yetersizliği nedeniyle gerçek uygulamalarda sınırlılık ortaya çıkıyor
- DeepSeek-V3.2 bu boşluğu kapatmak için verimli dikkat yapısı, ölçeklenebilir RL eğitimi, araç destekli çıkarımın bütünleşik hattı sunuyor
DeepSeek Sparse Attention (DSA)
- DSA, lightning indexer ve ince token seçimi mekanizmasıyla oluşur
- lightning indexer, FP8 hassasiyetinde çalışır ve her sorgu tokenının seçeceği üst k anahtar-değer çiftini belirler
- Böylece O(L²) karmaşıklığı O(Lk)'ye indirerek uzun bağlamlarda bile verimli işlemeye imkân verir
- MLA tabanlı uygulama ile önceki DeepSeek-V3.1-Terminus ile uyumluluk korunur
- İki aşamalı sürekli eğitim süreci uygulanır
- Dense Warm-up aşamasında indexer başlatılır
- Sparse Training aşamasında tüm model, DSA desenine adapte etmek için 943.7B token ile eğitilir
Performans Değerlendirmesi ve Verimlilik
- DeepSeek-V3.2-Exp, uzun bağlam işleme verimliliğini önemli ölçüde geliştirirken performans kaybı olmaksızın DeepSeek-V3.1-Terminus ile eşdeğer sonuçlar korur
- AA-LCR3 ve Fiction.liveBench gibi bağımsız benchmarklarda önceki sürüme göre geliştirilmiş çıkarım puanları kaydedildi
- H800 GPU kümesi bazında token başına maliyet ciddi biçimde azalıyor ve böylece uçtan uca hız artışı sağlanıyor
Post-Training ve Pekiştirmeli Öğrenme Mimarisi
- Specialist Distillation (Uzman Öğretme) ile Hibrit Pekiştirmeli Öğrenme (Mixed RL) birleştirildi
- Matematik, programlama, mantıksal çıkarım, genel ajan, kod ajanı ve arama ajanı olmak üzere 6 uzman alana ait modeller RL ile eğitildi
- Her uzman modelinin verisi damıtılarak nihai checkpoint oluşturuldu
- Group Relative Policy Optimization (GRPO) algoritmasıyla çıkarım, ajan ve hizalama eğitimi entegre edildi
- Ödül modeli, uzunluk cezası, dil tutarlılığı ödülü gibi bileşenler birlikte kullanıldı
- DeepSeek-V3.2-Speciale, matematiksel kanıtlama yeteneğini güçlendirmek için DeepSeekMath-V2 verisi ve ödül yöntemi eklendi
Pekiştirmeli Öğrenme Stabilizasyon Teknikleri (Scaling GRPO)
- Önyargısız KL Tahmini (Unbiased KL Estimate) ile kararlı yakınsama sağlandı
- Eski K3 tahmincisinin dengesiz gradyan problemini çözer
- Off-Policy Sequence Masking ile politika uyumsuzluğu yüksek negatif örnekler maskeleyip eğitim stabilitesi artırıldı
- Keep Routing ile Mixture-of-Experts modelinde routing tutarlılığı korunur
- Keep Sampling Mask ile top-p ve top-k örneklemede politika davranış alanı uyumsuzluğu önlenir
Araç Kullanımına Dayalı Çıkarım (Thinking in Tool-Use)
- Thinking Context Management kullanılarak araç çağrı sırasında gereksiz yeniden çıkarım engellenir
- Kullanıcı mesajı yeni eklendiğinde yalnızca önceki çıkarım içeriği silinir
- Araç çağrı geçmişi korunarak daha verimli bağlam yönetimi sağlanır
- Cold-Start aşamasında çıkarım ve ajan verileri birleştirilir
- Çıkarım verisi, <think></think> etiketleriyle çıkarım yolunu gösterir
- Araç çağrısını içeren sistem istemi ile entegre eğitim tabanı kurulur
- Büyük Ölçekli Ajan Görev Sentezi ile 1,800 ortam ve 85,000 prompt üretilir
- Gerçek web arama API'si, kod çalıştırma aracı, Jupyter Notebook gibi araçlarla gerçek ortam tabanlı RL eğitimi uygulanır
- Search Agent, çoklu ajan hattı ile soru üretimini, doğrulamayı ve ödül değerlendirmesini otomatikleştirir
- Gerçeklik güvenilirliği ve pratik kullanım için hibrit bir ödül modeli kullanılarak aynı anda optimize edilir
Sonuç
- DeepSeek-V3.2, verimli dikkat yapısı ile ölçeklenebilir RL eğitimini birleştirerek açık modelin sınırlarını aşıyor
- Çıkarım ve ajan bütünleşik performansında kapalı modellerle fark belirgin biçimde azalıyor ve maliyet açısından verimli alternatif konumuna yükseliyor
- Açık kaynak LLM'ler için sürdürülebilir yüksek performans gelişimine işaret eden bir örnek olarak değerlendiriliyor
1 yorum
Hacker News görüşü
Sürekli maliyet verimliliğini iyileştirmeleri ve gelişim sürecini açıkça paylaşmaları etkileyici.
Umarım bu çaba AI tekellerini engelleyen bir güç olur.
Açık modeller ticari modellerle rekabet edebiliyorsa, Google, Anthropic ve OpenAI gibi şirketler AI ile nasıl para kazanacak diye merak ediyorum.
Geçmişte açık kaynak başarısız oldu çünkü kalite ve özellik derinliği açısından kapalı seçeneklerin gerisindeydi; şimdi ise performans sanki durgunluk bölgesine girmiş gibi.
Sonunda uzun vadeli kazananın en ucuz enerji altyapısına sahip taraf olacağını düşünüyorum.
Örneğin Amazon’un MongoDB API’sini servis olarak sunması gibi, sonuçta para altyapı kullanım ücretinden geliyor.
Çoğu şirketin SOTA modelleri kendi başına host edecek gücü yok. İnsanların e-posta sunucularını bile kendilerinin çalıştırmadığını düşünürseniz bu anlaşılır.
Transformer’ı Google yaptı, OpenAI ise RLHF ile ChatGPT’yi başarıya ulaştırdı; ama şimdi yine Google’ın AI özetleme özelliği arama sonuçlarının üst kısmını kaplıyor.
İlgili yazı: Google “We have no moat, and neither does OpenAI”
Bu modelin sadece benchmark’larda değil, çıkarım verimliliğinde de büyük ilerleme kaydettiği söyleniyor.
İlgili bağlantı: Thomas Ip’in performans karşılaştırması
DeepSeek-V3.2’nin chat template’i büyük ölçüde değişmiş.
Başta yeni bir format yaptıklarını sandım ama sözdizimine bakınca bunun aslında Harmony formatıyla fiilen aynı olduğu görülüyor.
Öyleyse en baştan Harmony uyumlu olduğunu belirtmeleri anlamayı daha kolaylaştırırdı.
Neden 32~512GB sınıfı modellerin neredeyse hiç olmadığını ve Mac Studio M4’ün neden en fazla 128GB RAM sunduğunu merak ediyorum.
Böyle bir modelin açık kaynak olarak yayımlanması harika. Ama dört RTX 5090’lık 20.000 dolarlık bir rig ile bile yeterince hızlı çalıştırılabilir mi emin değilim.
Bu da aslında ilk yorumdaki iddiayı, yani tüketici tarafında yavaş olduğu fikrini destekliyor.
Makaledeki tablo 3’e bakıldığında DS-Speciale neredeyse tüm testlerde 1. ya da 2. sırada ama ürettiği token miktarı %50’den fazla daha yüksek.
Birden fazla çözümü paralel üretip son cevabı seçme yöntemiyle çıkarım performansını hesaplama gücüyle ölçeklemek mümkün.
Birkaç saat kullandıktan sonra şunu söyleyebilirim: Oldukça sağlam ve rekabetçi bir model. Bana göre GLM4.6’dan daha iyi, Kimi K2’den de daha iyi hissettiriyor. v4’ü merakla bekliyorum.
MIT lisansı ile yayımlanmış büyük, frontier sınıfı bir model olması ilginç.
ABD AI sektörünün değerlendirme ölçütlerini pek anlamıyorum. Çin modelleri çok daha ucuzken neredeyse aynı performansı sunuyor.
Ayrıca benchmark’lar doygunluğa ulaştığından fark küçük görünüyor olabilir ama üst seviyede %1’lik fark bile gerçekte büyük anlam taşıyor.
Hazırladığım Metabench lider tablosunda da Çin modelleri güçlü görünüyor ama üst sıradakilerle aralarında hâlâ fark var.
Yine de düşük çıkarım maliyeti sayesinde fiyat/performans alanında Çin modelleri güçlü.
ABD şirketleri yalnızca model satmıyor; aynı zamanda küresel düşük gecikmeli altyapı da satıyor. Yüksek şirket değerlemelerini açıklayan şey bu.
Bu arada Cerebras çok hızlı bir GLM 4.6 sunuyor.
Belki de perde arkasındaki varsayım, DeepSeek’in yasaklanacağı ve açık yazılımın ABD içinde engelleneceği yönünde.
Bundan sonra frontier modeller muhtemelen ayrışmayı daha çok ayrıntılı edge case’lerde gösterecek.