6 puan yazan GN⁺ 2025-12-02 | 1 yorum | WhatsApp'ta paylaş
  • DeepSeek-V3.2, yüksek hesaplama verimliliği ile çıkarım ve ajan performansını birleştiren bir açık kaynak büyük dil modelidir
  • Yeni DeepSeek Sparse Attention (DSA) yapısıyla, uzun bağlamlarda dahi performansı korurken hesaplama karmaşıklığını büyük ölçüde azaltıyor
  • Ölçeklenebilir pekiştirmeli öğrenme (RL) çerçevesi ile GPT-5 seviyesinde performans elde edilerek, yüksek performanslı sürüm Gemini-3.0-Pro ile eşdeğer bir çıkarım gücü sağlanıyor
  • Büyük ölçekli ajan görev sentezi hattı ile 1,800 ortam ve 85,000 prompt üretilerek, karmaşık etkileşim ortamlarında genelleme ve komut uygulama yeteneği geliştiriliyor
  • Açık modeller, kapalı modellerle arasındaki farkı azaltarak maliyet açısından verimli bir alternatif olarak konumlanıyor

DeepSeek-V3.2 Genel Bakış

  • DeepSeek-V3.2, açık kaynak LLM'lerin çıkarım ve ajan performansı sınırlarını aşmak için tasarlanmış bir modeldir
    • DeepSeek Sparse Attention (DSA), ölçeklenebilir pekiştirmeli öğrenme çerçevesi, büyük ölçekli ajan görev sentez hattı olmak üzere üç temel teknolojiyle oluşturuldu
  • Yüksek performanslı sürüm DeepSeek-V3.2-Speciale, GPT-5'i geçerek Gemini-3.0-Pro ile eşdeğer seviyede çıkarım yeteneğine sahip
    • 2025 Uluslararası Matematik Olimpiyatı (IMO) ve Uluslararası Bilişim Olimpiyatı (IOI) dahilindeki yarışmalarda altın madalya düzeyinde başarılar elde etti
  • Açık modelin verimliliği ve performansını aynı anda artırarak kapalı modellerin performans farkını daraltıyor

Açık Modellerin Sınırlamaları ve İyileştirme Yönü

  • Açık kaynak LLM'lerin kapalı modellere göre geri kalmasının üç temel nedeni belirtiliyor
    • Temel dikkat yapısının verimsizliği nedeniyle uzun dizilerde hesaplama yükü artıyor
    • Post-training aşamasında hesaplama kaynağı yetersizliği nedeniyle zor görevlerde performans düşüşü oluyor
    • Ajan genellemesi ve komut yerine getirme yetersizliği nedeniyle gerçek uygulamalarda sınırlılık ortaya çıkıyor
  • DeepSeek-V3.2 bu boşluğu kapatmak için verimli dikkat yapısı, ölçeklenebilir RL eğitimi, araç destekli çıkarımın bütünleşik hattı sunuyor

DeepSeek Sparse Attention (DSA)

  • DSA, lightning indexer ve ince token seçimi mekanizmasıyla oluşur
    • lightning indexer, FP8 hassasiyetinde çalışır ve her sorgu tokenının seçeceği üst k anahtar-değer çiftini belirler
    • Böylece O(L²) karmaşıklığı O(Lk)'ye indirerek uzun bağlamlarda bile verimli işlemeye imkân verir
  • MLA tabanlı uygulama ile önceki DeepSeek-V3.1-Terminus ile uyumluluk korunur
  • İki aşamalı sürekli eğitim süreci uygulanır
    • Dense Warm-up aşamasında indexer başlatılır
    • Sparse Training aşamasında tüm model, DSA desenine adapte etmek için 943.7B token ile eğitilir

Performans Değerlendirmesi ve Verimlilik

  • DeepSeek-V3.2-Exp, uzun bağlam işleme verimliliğini önemli ölçüde geliştirirken performans kaybı olmaksızın DeepSeek-V3.1-Terminus ile eşdeğer sonuçlar korur
  • AA-LCR3 ve Fiction.liveBench gibi bağımsız benchmarklarda önceki sürüme göre geliştirilmiş çıkarım puanları kaydedildi
  • H800 GPU kümesi bazında token başına maliyet ciddi biçimde azalıyor ve böylece uçtan uca hız artışı sağlanıyor

Post-Training ve Pekiştirmeli Öğrenme Mimarisi

  • Specialist Distillation (Uzman Öğretme) ile Hibrit Pekiştirmeli Öğrenme (Mixed RL) birleştirildi
    • Matematik, programlama, mantıksal çıkarım, genel ajan, kod ajanı ve arama ajanı olmak üzere 6 uzman alana ait modeller RL ile eğitildi
    • Her uzman modelinin verisi damıtılarak nihai checkpoint oluşturuldu
  • Group Relative Policy Optimization (GRPO) algoritmasıyla çıkarım, ajan ve hizalama eğitimi entegre edildi
    • Ödül modeli, uzunluk cezası, dil tutarlılığı ödülü gibi bileşenler birlikte kullanıldı
  • DeepSeek-V3.2-Speciale, matematiksel kanıtlama yeteneğini güçlendirmek için DeepSeekMath-V2 verisi ve ödül yöntemi eklendi

Pekiştirmeli Öğrenme Stabilizasyon Teknikleri (Scaling GRPO)

  • Önyargısız KL Tahmini (Unbiased KL Estimate) ile kararlı yakınsama sağlandı
    • Eski K3 tahmincisinin dengesiz gradyan problemini çözer
  • Off-Policy Sequence Masking ile politika uyumsuzluğu yüksek negatif örnekler maskeleyip eğitim stabilitesi artırıldı
  • Keep Routing ile Mixture-of-Experts modelinde routing tutarlılığı korunur
  • Keep Sampling Mask ile top-p ve top-k örneklemede politika davranış alanı uyumsuzluğu önlenir

Araç Kullanımına Dayalı Çıkarım (Thinking in Tool-Use)

  • Thinking Context Management kullanılarak araç çağrı sırasında gereksiz yeniden çıkarım engellenir
    • Kullanıcı mesajı yeni eklendiğinde yalnızca önceki çıkarım içeriği silinir
    • Araç çağrı geçmişi korunarak daha verimli bağlam yönetimi sağlanır
  • Cold-Start aşamasında çıkarım ve ajan verileri birleştirilir
    • Çıkarım verisi, <think></think> etiketleriyle çıkarım yolunu gösterir
    • Araç çağrısını içeren sistem istemi ile entegre eğitim tabanı kurulur
  • Büyük Ölçekli Ajan Görev Sentezi ile 1,800 ortam ve 85,000 prompt üretilir
    • Gerçek web arama API'si, kod çalıştırma aracı, Jupyter Notebook gibi araçlarla gerçek ortam tabanlı RL eğitimi uygulanır
    • Search Agent, çoklu ajan hattı ile soru üretimini, doğrulamayı ve ödül değerlendirmesini otomatikleştirir
    • Gerçeklik güvenilirliği ve pratik kullanım için hibrit bir ödül modeli kullanılarak aynı anda optimize edilir

Sonuç

  • DeepSeek-V3.2, verimli dikkat yapısı ile ölçeklenebilir RL eğitimini birleştirerek açık modelin sınırlarını aşıyor
  • Çıkarım ve ajan bütünleşik performansında kapalı modellerle fark belirgin biçimde azalıyor ve maliyet açısından verimli alternatif konumuna yükseliyor
  • Açık kaynak LLM'ler için sürdürülebilir yüksek performans gelişimine işaret eden bir örnek olarak değerlendiriliyor

1 yorum

 
GN⁺ 2025-12-02
Hacker News görüşü
  • Sürekli maliyet verimliliğini iyileştirmeleri ve gelişim sürecini açıkça paylaşmaları etkileyici.
    Umarım bu çaba AI tekellerini engelleyen bir güç olur.

    • Ama gerçekte maliyet verimliliğinde kimin “önde olduğunu” bilemeyiz. Çünkü her şirketin kâr-zarar yapısını bilmiyoruz.
    • Katılıyorum ama niyetlerinin tek yönlü olduğunu sanmıyorum.
    • Tek bir GPU üzerinde tam anlamıyla çalışana kadar kimse gerçek anlamda maliyet verimliliği galibi değil.
    • Rakiplerinden çok daha iyi bir model yapana kadar bu açıklığı sürdürürler gibi görünüyor. Ama gerçekten üstünlüğü ele geçirdikten sonra da açık kalmaya devam ederlerse, işte o zaman gerçekten hayran kalırım.
    • Yine de Çin Komünist Partisi tarafından desteklenen bir şirketi tamamen saf niyetli görmek bana naifçe geliyor. Bunun arkasında kesinlikle başka amaçlar vardır.
  • Açık modeller ticari modellerle rekabet edebiliyorsa, Google, Anthropic ve OpenAI gibi şirketler AI ile nasıl para kazanacak diye merak ediyorum.
    Geçmişte açık kaynak başarısız oldu çünkü kalite ve özellik derinliği açısından kapalı seçeneklerin gerisindeydi; şimdi ise performans sanki durgunluk bölgesine girmiş gibi.
    Sonunda uzun vadeli kazananın en ucuz enerji altyapısına sahip taraf olacağını düşünüyorum.

    • Google iç yazışmalarına göre “AI/LLM için hendek (moat) yok”. Ama modeli doğrudan sahiplenmeseniz bile bunu SaaS ya da MaaS olarak sunarak hâlâ büyük gelir elde edebilirsiniz.
      Örneğin Amazon’un MongoDB API’sini servis olarak sunması gibi, sonuçta para altyapı kullanım ücretinden geliyor.
      Çoğu şirketin SOTA modelleri kendi başına host edecek gücü yok. İnsanların e-posta sunucularını bile kendilerinin çalıştırmadığını düşünürseniz bu anlaşılır.
      Transformer’ı Google yaptı, OpenAI ise RLHF ile ChatGPT’yi başarıya ulaştırdı; ama şimdi yine Google’ın AI özetleme özelliği arama sonuçlarının üst kısmını kaplıyor.
      İlgili yazı: Google “We have no moat, and neither does OpenAI”
    • Şirketler OpenAI ya da Anthropic’e güveniyor. Bir şeyler ters gittiğinde sorumluluğu yükleyebilecekleri bir tarafın olması da önemli.
    • Eğer uzayda ucuz enerji elde etmek mümkün olursa, Musk AI yarışında büyük bir avantaj yakalayabilir. Ay’da AI uydu fabrikaları kurma fikrine takıntılı durumda.
    • Sonuçta mücadeleyi belirleyen şey UX, kilitlenme etkisi ve güvenin birleşimi. Kişisel verilere derin erişim sağlayan AI söz konusu olduğunda insanlar tanıdıkları markaları tercih ediyor.
    • Saf modelin kendisi kârlı değil. Asıl değer, modeli mevcut gelir üreten platformlara entegre etmekte.
  • Bu modelin sadece benchmark’larda değil, çıkarım verimliliğinde de büyük ilerleme kaydettiği söyleniyor.
    İlgili bağlantı: Thomas Ip’in performans karşılaştırması

    • Neden bu kadar verimli olduğunu merak ediyorum.
  • DeepSeek-V3.2’nin chat template’i büyük ölçüde değişmiş.
    Başta yeni bir format yaptıklarını sandım ama sözdizimine bakınca bunun aslında Harmony formatıyla fiilen aynı olduğu görülüyor.
    Öyleyse en baştan Harmony uyumlu olduğunu belirtmeleri anlamayı daha kolaylaştırırdı.

  • Neden 32~512GB sınıfı modellerin neredeyse hiç olmadığını ve Mac Studio M4’ün neden en fazla 128GB RAM sunduğunu merak ediyorum.

    • Şaka yollu ama aklıma “128GB yeter de artar” sözü geliyor. M5 Max’te daha fazla RAM bekliyorum.
  • Böyle bir modelin açık kaynak olarak yayımlanması harika. Ama dört RTX 5090’lık 20.000 dolarlık bir rig ile bile yeterince hızlı çalıştırılabilir mi emin değilim.

    • 512GB Mac Studio M3 Ultra’da saniyede yaklaşık 20 token verdiği söyleniyor. Demo videosu
    • Büyük modelleri bulutta saatlik ya da token başına ücretlendirmeyle çalıştırmak daha gerçekçi. Doğrudan bir H100 rack satın alıp çalıştırabilirsiniz ama bulut kullanmak çok daha verimli.
    • Kişisel rig’ler artık maliyet açısından verimsiz. GPU, elektrik ve soğutma maliyetleri düşünülünce RTX Pro 6000 almak daha mantıklı görünüyor.
    • OpenRouter’da DeepSeek-V3.2 sunan iki sağlayıcı da (DeepSeek dahil) yaklaşık 28 tps ile çalıştırıyor. OpenRouter bağlantısı
      Bu da aslında ilk yorumdaki iddiayı, yani tüketici tarafında yavaş olduğu fikrini destekliyor.
    • Ben de 6 adet RTX 3090 içeren bir rig kullanıyorum ama 685B parametreli modeller fazla yavaş. Rahat kullanım için 144B ve altı modelleri tercih etmek gerekiyor. GLM 4.5 Air özellikle iyiydi.
  • Makaledeki tablo 3’e bakıldığında DS-Speciale neredeyse tüm testlerde 1. ya da 2. sırada ama ürettiği token miktarı %50’den fazla daha yüksek.

    • Bazı mantıksal akıl yürütme problemleri daha uzun düşünce zincirleri gerektiriyor. Maliyeti düşük olan DeepSeek bu tarafı sonuna kadar zorlayabilmiş.
      Birden fazla çözümü paralel üretip son cevabı seçme yöntemiyle çıkarım performansını hesaplama gücüyle ölçeklemek mümkün.
  • Birkaç saat kullandıktan sonra şunu söyleyebilirim: Oldukça sağlam ve rekabetçi bir model. Bana göre GLM4.6’dan daha iyi, Kimi K2’den de daha iyi hissettiriyor. v4’ü merakla bekliyorum.

  • MIT lisansı ile yayımlanmış büyük, frontier sınıfı bir model olması ilginç.

  • ABD AI sektörünün değerlendirme ölçütlerini pek anlamıyorum. Çin modelleri çok daha ucuzken neredeyse aynı performansı sunuyor.

    • Çin modelleri çoğunlukla metin odaklı; ABD ve Avrupa modelleri ise görüntü, ses ve videoyu da kapsadığı için maliyetleri daha yüksek.
      Ayrıca benchmark’lar doygunluğa ulaştığından fark küçük görünüyor olabilir ama üst seviyede %1’lik fark bile gerçekte büyük anlam taşıyor.
      Hazırladığım Metabench lider tablosunda da Çin modelleri güçlü görünüyor ama üst sıradakilerle aralarında hâlâ fark var.
      Yine de düşük çıkarım maliyeti sayesinde fiyat/performans alanında Çin modelleri güçlü.
    • Gerçek dağıtımlarda kritik olan şey altyapı hızı. OpenRouter’da Çin modelleri Claude, GPT ve Gemini kadar hızlı değil.
      ABD şirketleri yalnızca model satmıyor; aynı zamanda küresel düşük gecikmeli altyapı da satıyor. Yüksek şirket değerlemelerini açıklayan şey bu.
      Bu arada Cerebras çok hızlı bir GLM 4.6 sunuyor.
    • Üçüncü taraf sağlayıcılar cache desteği sunmuyor. Cache etkinleşirse ABD modellerinin maliyeti 2 kat seviyesine kadar düşer ve çok daha rekabetçi hâle gelir.
    • ABD şirketlerinin değerlemeleri bugünkü sonuçlardan çok gelecek potansiyeline dayanıyor. Çin araştırmalarının yeterince anlaşılmadığı bir ortamda yapılan yatırımlar bunlar.
      Belki de perde arkasındaki varsayım, DeepSeek’in yasaklanacağı ve açık yazılımın ABD içinde engelleneceği yönünde.
    • Yine de ABD önce FOMO (bir şeyi kaçırma korkusu) ile bu yarışı ateşlememiş olsaydı, Çin’in stratejisi de bugün bu kadar iyi işlemeyebilirdi.
      Bundan sonra frontier modeller muhtemelen ayrışmayı daha çok ayrıntılı edge case’lerde gösterecek.