DSpark: Spekülatif kod çözme ile LLM çıkarımını hızlandırma [pdf]

(github.com/deepseek-ai)

1 puan yazan GN⁺ 7 시간 전 | 1 yorum | WhatsApp'ta paylaş

DSpark: yarı-otoregresif (semi-autoregressive) üretim ile güven skorlama zamanlamasını birleştiren bir spekülatif kod çözme (speculative decoding) çerçevesi
Paralel taslakçı (parallel drafter) tek bir ileri geçişte uzun token blokları önerir; ancak token’lar arası bağımlılıkların olmaması nedeniyle bloğun sonlarında kabul oranında hızlı düşüş (acceptance decay) yaşanması sorununu yarı-otoregresif yapı ve yük farkındalıklı doğrulama ile birlikte çözer
Ağır bir paralel omurgaya hafif bir sıralı modül ekleyerek blok içi bağımlılıkları enjekte eder; taslak hızını korurken sonek çöküşünü (suffix decay) azaltır
Güven başlığı (confidence head) konuma göre önek hayatta kalma olasılığını tahmin eder; donanım farkındalıklı zamanlayıcı ise motorun işleme hızı eğrisine göre her istek için doğrulama uzunluğunu dinamik olarak ayarlar
Çevrimdışı benchmark’larda otoregresif baseline’a (Eagle3) ve paralel baseline’a (DFlash) kıyasla kabul edilen uzunlukta (accepted length) tutarlı iyileşme; DeepSeek-V4 gerçek servis dağıtımında doğrulama israfını azaltma
Mevcut production baseline’ı MTP-1 ile kıyaslandığında aynı işleme hızında kullanıcı başına üretim hızında %60–85 hızlanma; katı etkileşim kısıtları altında ulaşılamayan performans aralıklarını açarak Pareto frontier’i genişletme

Problem tanımı — paralel taslakçının iki darboğazı

LLM’ler token’ları otoregresif olarak üretir; her token için önceki tüm token’lara koşullanan bir ileri geçiş gerekir. Bu nedenle çıkarım gecikmesi çıktı uzunluğuyla orantılıdır; düşük GPU kullanımı ve yüksek bekleme süresi production sunumunun başlıca darboğazlarıdır
Spekülatif kod çözmede hafif bir draft modeli aday bloğu önerir, target modeli bunu tek bir ileri geçişte doğrular; rejection sampling ile target dağılımla eşleşen en uzun önek kabul edildiğinden kalite kaybı olmadan hızlanma sağlanır
Otoregresif taslakçıların sınırı
- Her konumu önceki token’lara koşullayarak güçlü modelleme yeteneğine sahip olurlar; ancak taslak çıkarma maliyeti blok boyutuyla doğrusal orantılı olduğundan (𝑇draft ∝ 𝛾) küçük bloklar ve sığ yapılar ile sınırlanırlar
Paralel taslakçıların sınırı
- Tüm konumları aynı anda ürettikleri için taslak gecikmesi blok boyutundan neredeyse bağımsızdır; büyük bloklar (ör. 𝛾=16) kullanılabilir
- Her konumu bağımsız tahmin ettikleri için token’lar arası bağımlılıkları modelleyemez; çok modlu çarpışmaya (multi-modal collision) ve son kısımlarda kabul oranının keskin düşmesine yol açar
- Uzun blokların tamamını gelişigüzel doğrulamak işleme hızını düşürür; özellikle yüksek eşzamanlılık ortamlarında reddedilme riski yüksek token’lar batch kapasitesini işgal eder
- İdeal doğrulama uzunluğu iki eksende değişir — veri tarafında (kod gibi yapılandırılmış isteklerde kabul oranı yüksek, açık uçlu sohbetlerde düşük) ve sistem tarafında (düşük yükte ek doğrulama neredeyse ücretsiz, yüksek yükte diğer aktif isteklerin kapasitesini tüketir)

Mimari — birbirini tamamlayan iki bileşen

Token başına gecikme 𝐿 = (𝑇draft + 𝑇verify)/𝜏 şeklindedir; hızlanma 𝑇draft’ın azaltılması, 𝜏’nun artırılması ve efektif 𝑇verify’ın azaltılması şeklindeki üç kaldıraca indirgenir
Kod çözme döngüsü: ABC prompt’undan target model bir sonraki token D’yi üretir (anchor rolü) → paralel omurga ve sıralı head EFGH taslağını ve c1–c4 güven skorlarını üretir → zamanlayıcı EFG önekini tutup düşük güvenli H token’ını çıkarır → target model paralel doğrulama yapar; E ve F kabul edilip G reddedilirse düzeltme token’ı G* üretilir
Yarı-otoregresif üretim (Semi-Autoregressive Generation)
- Paralel taslakçı, “of course”/“no problem” gibi birden çok olası devamda “of problem” gibi tutarsız kombinasyonlar üretebilir; çünkü her konum gerçek örneklenmiş önceki token yerine olası tüm önceki token’lar üzerinden marjinalleştirme yapar
- Paralel aşama (Parallel stage): Paralel omurga (DFlash benimsenmiştir) tüm blok üzerinde tek bir ileri geçiş yaparak gizli durumları ve temel logit’leri üretir; anchor’ın kendisini ilk tahmin konumu olarak işleyip 𝛾 girdiyle 𝛾 logit üretir ve draft hesaplamasını azaltır
- Sıralı aşama (Sequential stage): Temel logit’lere öneke bağlı geçiş yanlılığı 𝐵𝑘 eklenir; böylece her konum blok içindeki önceki örneklenmiş token’lara koşullanır, otoregresif ayrıştırmayla nedensel blok dağılımı elde edilir. Sıralı işlendiği için paralel aşamadan yeterince hafif olmalıdır (𝑇sequential ≪ 𝑇parallel)
  - Markov head: Yalnızca hemen önceki token’a bağlı 1. derece geçişe basitleştirir; 𝑉×𝑉 tam matrisini düşük-rank ayrıştırma 𝐵 = 𝑊1𝑊2 (varsayılan 𝑟=256) ile yaklaşıklar; depolamayı ve adım başına hesaplamayı en aza indirir, “of” örneklendikten sonra “course”u güçlendirip “problem”i bastırarak modlar arası çarpışmayı azaltır
  - RNN head: Döngüsel durum 𝑠𝑘 ile blok içindeki tüm önek geçmişini biriktirir; kapılı güncelleme sayesinde hemen önceki token’dan daha eski bilgilere de erişir, ancak uygulama karmaşıklığı daha yüksek ve dağıtım özellikleri daha elverişsizdir
Güven zamanlamalı doğrulama (Confidence-Scheduled Verification)
- Draft kabul oranı domaine göre değiştiğinden (kodda yüksek, açık uçlu sohbette düşük) ve ek token doğrulama maliyeti motor yüküne bağlı olduğundan, yalnızca pozitif beklenen getirisi olan token’ları target hesaplamasına yönlendiren birleşik bir mekanizma gerekir
- Güven başlığı (Confidence Head): Her 𝑘 konumu için skaler tahmin 𝑐𝑘 ∈ (0,1) çıkarır; önceki tüm token’ların kabul edildiği koşulda 𝑘 konumundaki token’ın doğrulamayı geçme koşullu olasılığını modeller; hafif doğrusal projeksiyon + sigmoid yapısı kullanır
  - Analitik adım bazlı kabul oranı 𝑐*𝑘 = 1 − ½‖𝑝𝑑𝑘 − 𝑝𝑡𝑘‖1 (draft ve target dağılımları arasındaki total variation mesafesi) ile gözetimli öğrenme yapılır
- Sonradan kalibrasyon — Sequential Temperature Scaling (STS): Donanım farkındalıklı zamanlama kümülatif kabul olasılığının mutlak değerini gerektirir; ancak sinir ağı güven skorları aşırı güvenli (overconfident) olma eğilimindedir. Her 𝑐𝑖 koşullu olasılık olduğundan önek kümülatif çarpımıyla faktörize edilir; held-out doğrulama setinde soldan sağa ECE’yi minimize eden 1D grid search yapılır. Sıra koruyan bir dönüşüm olduğu için token sıralaması korunur
- Donanım farkındalıklı önek zamanlayıcı (Hardware-Aware Prefix Scheduler): Doğrulama uzunluğu seçimini küresel işleme hızını maksimize etme problemi olarak formüle eder; aktif 𝑅 istek için SPS(𝐵) (motor başlatılırken bir kez profillenen maliyet tablosu) kullanılır, 𝛩 = 𝜏·SPS(𝐵) maksimize edilir
  - Hayatta kalma olasılığı 𝑎𝑟,𝑗, 𝑗’ye göre monoton artmayan olduğundan küresel sıralama ve greedy seçim blok içi önek bağımlılığını doğal olarak gözetir; 𝑂(1) maliyet tablosu sorgusuyla kademeli admit yapılır
  - Kayıpsız spekülatif kod çözme non-anticipating özelliği gerektirir; Markov özellikleri önceki örneklenmiş token’a bağlı olduğundan sonradan yapılan küresel arama 𝑥𝑟,𝑘 bilgisini sızdırır ve seçim yanlılığı oluşturur
  - Erken durdurma (early-stopping) mekanizmasıyla işleme hızı düştüğünde anında durdurur; admit kararının yalnızca o adıma kadar işlenmiş öneke bağlı olmasını sağlayarak nedenselliği zorlar. Amaç 𝛩 tek tepeli (unimodal) olduğunda küresel maksimumu garanti eder

Öğrenme (Training)

Target dizilerinden çok sayıda anchor konumu rastgele örneklenerek 𝛾 token’lık bloklar eğitim verisi olarak oluşturulur
Target model tüm süreç boyunca sabitlenir (frozen); draft model embedding katmanını ve LM head’i paylaşır ve sabit tutar, yalnızca omurga taslakçı, sıralı blok ve güven başlığı güncellenir
Eğitim hedefi üç terimin ağırlıklı toplamıdır — çapraz entropi kaybı Lce, dağılım eşleştirme kaybı Ltv, güven kaybı Lconf
- Tüm terimler konum ağırlığı 𝑤𝑘 = exp(−(𝑘−1)/𝛾) ile ağırlıklandırılır; önek tabanlı doğrulamada beklenen kabul uzunluğuna daha çok katkı yapan erken konumlar vurgulanır
- Ltv total variation mesafesini cezalandırır; adım bazlı kabul olasılığı 1 − ½‖𝑝𝑑 − 𝑝𝑡‖1’e eşit olduğundan Ltv’yi minimize etmek beklenen kabul oranını maksimize etmek anlamına gelir
- Varsayılan ağırlıklar 𝛼ce = 0.1, 𝛼tv = 0.9, 𝛼conf = 1.0

Deneyler — çevrimdışı benchmark

Kurulum
- target model: Qwen3-{4B, 8B, 14B}, Gemma4-12B / karşılaştırma taslakçıları: SOTA paralel taslakçı DFlash, otoregresif taslakçı Eagle3
- Aynı çerçeve ve veriyle baştan eğitim; Eagle3’ün TTT horizon’ı (7), DFlash ve DSpark’ın blok boyutuna (7) hizalanır; draft katman sayısı Eagle3 için 1, DSpark ve DFlash için 5’tir
- Eğitim verisi: Open-PerfectBlend 1,3 milyon örnek (chat %17,6, math %39,4, code %38,9, instruction-following %4,1); yalnızca prompt’lar kullanılır, yanıtlar her target model tarafından yeniden üretilir, 10 epoch eğitim yapılır
- Değerlendirme domain’leri: matematik (GSM8K, MATH500, AIME25), kod (MBPP, HumanEval, LiveCodeBench), günlük sohbet (MT-Bench, Alpaca, Arena-Hard), örnekleme sıcaklığı 1.0, tur başına kabul uzunluğu 𝜏 raporlanır
Ana sonuçlar
- Çevrimdışı değerlendirmede güven zamanlayıcı devre dışı bırakılarak sabit bloklarla yalnızca saf draft kalitesi ayrıştırılır
- Qwen3-4B, 8B ve 14B’de Eagle3’e kıyasla makro ortalama kabul uzunluğunda %30,9 · %26,7 · %30,0 iyileşme, DFlash’e kıyasla %16,3 · %18,4 · %18,3 iyileşme; Gemma4-12B’de de tutarlı kazanımlar model aileleri arasında genellemenin doğrulandığını gösterir
- Yapılandırılmış görevlerde kabul uzunluğu açık uçlu sohbete göre daha yüksektir (Qwen3-4B bazında matematik 5.57, kod 5.12 vs sohbet 3.49); veri öngörülebilirliğindeki varyans statik doğrulama uzunluğunda israfa yol açarak güven zamanlamasının motivasyonunu oluşturur

Deney analizi

Paralel üretim neden otoregresifi geçiyor
- Paralel ve yarı-otoregresif taslakçıların tam otoregresif Eagle3’ten daha uzun kabul uzunluğu üretmesi sezgiye aykırı bir gözlem; konum bazlı koşullu kabul oranıyla analiz edilir (payda yalnızca önceki tüm konumların kabul edildiği durumları içerir)
- 1. konumun kapasite üstünlüğü: İlk konum yalnızca target bağlamına bağlıdır; Eagle3 𝑂(𝛾) gecikme nedeniyle sığ ağlarla sınırlanırken 𝑂(1) paralel taslakçı derin ağ kullanabilir. DFlash, Eagle3’ten daha yüksek başlar (matematik 0.88 vs 0.81, sohbet 0.72 vs 0.53); ilk token reddi tüm bloğu geçersiz kıldığından başlangıç üstünlüğü nihai kabul uzunluğunu büyük ölçüde etkiler
- Son konumlarda bağımsızlık sınırı: 2–7. konumlarda Eagle3 koşullu kesinlikten yararlanarak korunur veya yükselir (sohbet 0.53→0.74); DFlash keskin şekilde düşer (kod 0.87→0.78, sohbet 0.72→0.63) ve çok modlu çarpışma nedeniyle tutarsız sonekler üretir
- Yarı-otoregresif yaklaşımın sonek çöküşünü azaltması: DSpark, derin paralel omurganın yüksek ilk kabul oranını (matematikte 0.93 başlangıç) devralırken hafif sıralı head ile son kısımlardaki çöküşü bastırır; blok boyunca yüksek ve kararlı koşullu kabul oranı korur
Az miktarda otoregresyonla büyük etki
- Taslakçı derinliği: Blok boyutu 7 sabitken DSpark katman sayısı 1→5 arttıkça performans monoton artar; en büyük marjinal kazanç 1→2 katmanda görülür. 2 katmanlı DSpark, 5 katmanlı DFlash’i tüm domain’lerde geçer; bu, sıralı head’in parametre verimliliğini kanıtlar
- Öneri uzunluğu: Derinlik 5 sabitken draft uzunluğu {4,8,12,16} genişletildiğinde DSpark her uzunlukta DFlash’i geçer; 𝛾 arttıkça fark büyür (𝛾=7’de matematik %16, kod %15, sohbet %18; 𝛾=15’te %30, %26, %22). RNN head uzun uzunluklarda yalnızca küçük ek kazanım sağladığından Markov head varsayılan olarak benimsenir
- Gecikme ek yükü: Batch 128 ve bağlam uzunlukları {512,1024,2048,4096} ortalamasına göre sıralı blok gecikmesi ihmal edilebilir düzeydedir; draft uzunluğu 4→16’ya çıkarıldığında toplam tur gecikmesine yalnızca %0,2–1,3 eklerken kabul uzunluğunu %30’a kadar artırır
Güven başlığının rolü — daha uzun değil, daha akıllı doğrulama
- Qwen3-4B ile statik eşik süpürme tanısı; eşik yükseldikçe reddedilecek token’lar filtrelendiği için kabul oranı artar, etki sohbette en büyüktür (%45,7→%95,7); matematik (%76,9→%92,5) ve kodda (%67,6→%92,0) daha kademelidir
- Statik eşik sistem yükünü göz ardı ettiği için dinamik sunumda optimal değildir; güven modeli güçlü ayırt etme gücüne (ROC-AUC 0.81–0.90) sahiptir ancak aşırı güvenlidir (ECE %3–8). STS uygulandıktan sonra ortalama ECE yaklaşık %1’e düşürülerek güvenilir hayatta kalma tahmini elde edilir

Gerçek servis dağıtımı

Ölçeklenebilir eğitim
- DeepSeek-V4-Flash ve Pro preview ile birlikte dağıtıldı; paralel omurga, mHC uygulanmış 3 MoE katmanı ve sliding window attention 128’den oluşur; maksimum blok boyutu 𝛾=5 ve Markov head kullanılır, güven başlığı end-to-end eğitildikten sonra STS ile kalibre edilir
- Gizli durum iletişimi (Hidden state communication): Tüm kelime dağarcığı logit’lerini (𝑉≈10⁵) göndermek yerine yalnızca LM head öncesi gizli durum iletilir ve LM head yalnızca örnekleme konumlarında draft worker üzerinde yerel olarak çalıştırılır; token başına iletişim karmaşıklığı 𝑂(𝑑)’ye düşürülür
- Anchor sınırlı dizi paketleme (Anchor-bounded sequence packing): Sabit sayıda draft anchor’ı örneklenerek izole tahmin blokları yoğun batch’ler halinde paketlenir; token bazlı attention indeksleriyle birden çok bağımsız dizi arasında nedensel maskeleme korunur ve padding ek yükünden kaçınılır
Zamanlayıcının pratik uygulanması
- İki çatışma — algoritma pürüzsüz, tek tepeli bir kapasite eğrisi varsayar; ancak gerçek SPS(𝐵) ayrık ve basamaklı düşüşler gösterir. Adım bazlı dinamik token zamanlaması, sürekli CUDA graph replay ve Zero-Overhead Scheduling (ZOS) ile çakışır
- Asenkron zamanlama ile uyarlanır: ZOS mevcut adım bitmeden bir sonraki batch boyutunu gerektirdiğinden, iki adım önceki güven çıktısıyla doğrulama kapasitesi yaklaşık hesaplanır; mevcut adım adayları en güncel kümülatif güvene göre sıralanır, geçmiş tahminler yalnızca dinamik kesme uzunluğunu (𝐾) belirlemek için kullanılır ve dinamik top-𝐾 seçimine dönüştürülür
- Erken durdurma kaldırılarak kısıtsız küresel arama etkinleştirilir; yalnızca iki adım önceki geçmiş değerlendirildiği için mevcut token 𝑥𝑟,𝑘 gerçekleşiminden izole edilir ve nedensel bariyer oluşturur. Böylece donanım uçurumlarını aşan fiziksel işleme hızı maksimizasyonu ile doğru target dağılımının korunması birlikte sağlanır
Yüksek işleme hızlı, düşük gecikmeli çıkarım
- Production sunumu istek başına gecikmeyi ve toplam işleme hızını aynı anda optimize eder; bu dağıtımda KV-cache kapasitesi ve kullanıcı trafiği kısıtları nedeniyle efektif batch boyutu GPU doygunluk eşiğinin altında kaldığından iki hedef rekabet etmek yerine yüksek korelasyonlu hale gelerek basitleşir
- Değişken uzunluklu sorgu desteği zorluktur; sabit uzunluklu decode kernel’larında basit işlem padding ve dengesiz yük nedeniyle düşük GPU kullanımına yol açar. Tüm istek token’ları düzleştirilerek bağımsız öğeler gibi işlenir, dizi içi bağımlılıklar sparse attention’ın marker tensor’ı ile aktarılır; DeepSeek-V4’te yalnızca index-attention ve compress kernel’ları değiştirilerek değişken uzunluklu yönlendirme desteklenir
Gerçek kullanıcı trafiği performansı
- DSpark-5 (𝛾=5), V4-Flash ve Pro production motorlarında MTP-1 baseline’ı ile karşılaştırılır. MTP-1, statik çok-token taslakçıların (MTP-3/5) yüksek eşzamanlılıkta işleme hızını düşürmesi nedeniyle korunan tek-token ayarıydı ve DeepSeek-V4-preview çıkışından 2 hafta sonra DSpark ile değiştirildi
- V4-Flash: 80 tok/s/user SLA’da işleme hızı %51 artar; 120 tok/s/user’da MTP-1 operasyonel sınıra yaklaştığından nominal %661 üstünlük görülür (mutlak kat değil, etkileşim frontier’inin genişlediğinin kanıtı olarak yorumlanır); aynı işleme hızında kullanıcı başına üretim %60–85 hızlanır
- V4-Pro: 35 tok/s/user’da %52 artış, 50 tok/s/user’da nominal %406 üstünlük; aynı kapasitede %57–78 hızlanma; genel olarak throughput–interactivity frontier’i dışa kaydırılır
- Yük uyumlu davranış: Orta eşzamanlılıkta (V4-Flash 200 ve V4-Pro 150 istek altı) zamanlayıcı, MTP-1’in statik 2 token’ını istek başına yaklaşık 4–6 token’a genişleterek ileri geçiş başına kabul edilen token sayısını artırır; eşzamanlılık doygunluğunda ise doğrulama uzunluğunu yumuşakça kısaltarak düşük güvenli token’ları batch kapasitesini tüketmeden önce budar
Sınırlamalar
- Önek zamanlayıcı target doğrulama israfını minimize etse de paralel omurganın ilk 𝛾 token’lık blok üretimi için sabit bir draft maliyeti vardır; doğası gereği kabul oranı düşük olan karmaşık sorgularda bu ön hesaplama geri kazanılamaz
- Gelecekte draft modeli içinde zorluk farkındalıklı erken çıkış (difficulty-aware early exiting) ile ilgili isteğin tüm blok üretimini atlaması sağlanarak iyileştirme yapılabilir

Sonuç

Yapısal açıdan, ağır paralel omurga ile hafif sıralı head’i birleştiren yarı-otoregresif paradigma, bağımsız paralel taslakçıların keskin sonek çöküşünü azaltır
Sistem açısından, doğrulama uzunluğu seçimi küresel işleme hızını maksimize etme problemi olarak formüle edilir; kalibre edilmiş hayatta kalma olasılıkları ve gerçek zamanlı motor yüküne dayalı donanım farkındalıklı önek zamanlayıcıyla doğrulama bütçesi dinamik olarak ayarlanır
Geniş kapsamlı çevrimdışı değerlendirmelerde SOTA otoregresif ve paralel baseline’ları geçer; DeepSeek-V4 gerçek dağıtımında yüksek yük altında eşzamanlılığı sürdürme, kullanıcı başına üretimi hızlandırma ve LLM sunumunda Pareto frontier’i genişletme yoluyla pratik değerini kanıtlar

1 yorum

GN⁺ 7 시간 전

Hacker News yorumları

DeepSeek yalnızca sınırları zorlamakla kalmıyor, performans kazanımlarını nasıl elde ettiğini açıklayan harika makaleler de yayımlıyor.
Ne yazık ki ABD laboratuvarları artık bu tür paylaşımları pek yapmıyor; şu anda yapay zekadaki en ilginç işleri Çin laboratuvarları yapıyor gibi görünüyor.
- Google da hâlâ çok sayıda LLM mimarisi araştırması yayımlıyor.
  2022’de LLM’ler için spekülatif kod çözmeyi tanıttı[1], bu yıl da Gemma 4 modelinde spekülatif kod çözme yapan kodu yayımladı[2]
  
  [1] https://arxiv.org/abs/2211.17192
  
  [2] https://github.com/google-gemma/cookbook/blob/main/docs/mtp/...
- ABD’li yapay zeka şirketleri devasa yatırımların hesabını vermek zorunda; bu yüzden değerlemelerini haklı çıkaracak sihirli bir hendek arıyor gibiler.
  Bu tür optimizasyonları açıklarlarsa rekabet avantajları epey azalır.
- Belki de bu, ihtiyaçtan doğan bir açıklıktır.
  ABD laboratuvarları en ön safta yol açarken DeepSeek’in elindekileri açık kaynak yaparak oyun alanını düzleştirmeye çalıştığına dair bir tahmin bu.
- DeepSeek, ABD laboratuvarlarının yatırımcılarına para kazandırmak için dayandığı performans artışlarını metalaştırıyor.
- Artık Batı’nın da Çinlileri yalnızca “diktatörlük altında yaşayan çok kötü insanlar” olarak görme algısını bırakma zamanı geldi.
Hugging Face modeli şimdiden yüklenmiş; orijinal modele spekülatif kod çözme modülü gömülü gibi görünüyor, oldukça hoş.

Flash: https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark

Pro: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark

Yerel çıkarım için DwarfStar’a da girip girmeyeceğini merak ediyorum.
antirez 2 bit quantization’ı yayımladığından beri Flash modelini çok kullandım.
- Bunun Qwen 27B’ye de uygulanma ihtimali var mı?
Şu anki hissiyata göre DeepSeek, yalnızca benchmark’ta birinci olmayı hedeflemekten ziyade gerçekten inovasyon yapmaya çalışan neredeyse tek yapay zeka şirketi gibi.
OpenAI, Anthropic ve Google gibi yerler inovasyona devam etmekten çok birbirleriyle rekabet etmeye odaklanıyor gibi duruyor.
- Moonshot (Kimi’nin geliştiricisi) ve Z.ai (GLM’nin geliştiricisi) gibi diğer Çin araştırma laboratuvarlarını da dahil etmek gerektiğini düşünüyorum.
  Onlar da inovasyon yapıyor ve araştırmalarını açık biçimde paylaşmayı sürdürüyor.
  Bildiğim kadarıyla Moonshot’ın kurucusu, Kimi’yi ayakta tutan teknikleri anlatan 40 dakikalık bir videoyu Twitter’da da paylaşmıştı.
- ABD’deki pek çok şirket uzun zamandır stratejisini, yöntem ne olursa olsun kullanıcıyı elde tutmak üzerine kurdu.
  Kalite ve inovasyon ikinci planda; pazarı ele geçirip kullanıcıları kilitledikten sonra düzenlemeler ve lobi faaliyetleri üzerinde nüfuz kurarak güçlerini korumaya çalışıyorlar.
- O şirketler de inovasyon yoluyla birbirleriyle rekabet ediyor.
  İnovasyon müşteriye daha büyük fayda sağlıyor, sadece teknoloji açıklanmıyor.
  Ticari sırlar bir nedenle sırdır.
  
  DeepSeek’in “en inovatif” görünmesinin nedeni, dışarıdan gözlemlenebilen şeyin bu olması olabilir.
  Herkes fotoğrafını halka açık paylaşmıyor diye, yayımlanan modellerin tüm nüfus içindeki en güzel kişiler olduğu sonucuna varmaya benzer bir yanılgı bu.
- Büyük araştırma laboratuvarları bunları en az 1 yıl öncesinden beri yapıyordu.
- Qwen de aynı şekilde.
DeepSeek v4 pro’yu bir aydır Kilo Code’da kullanıyorum ve harika.
Hızlı, kararlı, context window’u büyük ve gerçekten ucuz.
Bu ay 1,5 milyar token kullandım ve 40 dolar tuttu; çoğu önbelleğe alınmış olsa da hâlâ ucuz.
- omp’de DeepSeek’i task ve quicktask ajanı olarak, Sonnet’i ise diğer işler için kullanıyorum.
  Yapay zeka harcamam ciddi biçimde azaldı; günde 40 dolardan günde 10 dolara indi.
- Hangi sağlayıcıyı kullandığını merak ediyorum.
  OpenRouter’da 40 doları hızla harcadım.
  Çok fazla gidiş-dönüş konuşma yoktu; context yaklaşık 300 bin, çıktı ise yaklaşık 15 bin satırdı.
  opencode kullanıyordum ama toplam token sayısını görünür yapmanın mümkün olup olmadığını tam bilmiyorum.
- Kilo’yu Pi veya OpenCode ile karşılaştırdın mı merak ediyorum.
  İkisine de aşinayım ama her zaman alternatif arıyorum.
- Claude Code Pro’da kaç token kullandığını görmenin bir yolu var mı?
Bu, 2022’deki spekülatif kod çözmeden daha yeni ya da daha iyi bir şey mi? https://arxiv.org/abs/2211.17192
- O makale, bu makalenin “introduction” ve “background” bölümlerinde alıntılanıyor.
  Bu makale, birkaç darboğazı kaldırarak iyileştirme yapmayı anlatıyor.
- DeepSeek ölçeğinde spekülasyonun boşa giden doğrulama işi değil, saf hız artışı getirmesi için taslak modeli ve doğrulama politikasını iyileştirmeye odaklanmış gibi görünüyor.
Zamanlama tesadüf değil gibi.
Açıklık ile sert düzenlemeleri karşı karşıya gösteriyor sanki.
- Çin = açık, ABD = sert düzenleme; tuhaf bir zaman çizelgesi.
  Yine de bu, Xi’nin hedefleriyle uyumlu olduğu için mümkün.
- Kimse Anthropic’i yeni yapay zeka modelinin risklerini büyüten bir medya atağı yapmaya zorlamadı.
  Açıkçası kendi düşen ağlamaz.
Başlık pek iyi değil.
Makalenin başlığı değil, özetin ilk satırı alınmış.
LLM çıkarımı için spekülatif kod çözme 2022’de zaten yayımlanmıştı: https://arxiv.org/abs/2211.17192

Bu makale spekülatif kod çözmenin bir iyileştirmesi gibi görünüyor ama henüz okumadım.
İsmi yüzünden başta DGX Spark ile ilgili sandım.
Tesadüfen, son zamanlarda DGX Spark’ın çıkarım performansını iyileştirmeye yönelik çok iş yapıldı ve MTP ile %50–100 hız artışı elde edildi; bu yüzden DSpark da bu amaç için epey yardımcı olacak gibi görünüyor.
Muhtemelen bu bir süredir prodüksiyonda kullanılıyordu ve bir ay önce fiyatı ciddi biçimde düşürebilmelerinin nedenlerinden biri de buydu.
- Evet.
  5. bölüm gerçek dağıtımı ele alıyor.
  5.1’de “DSpark draft models are co-deployed with the preview versions of DeepSeek-V4-Flash and DeepSeek-V4-Pro” deniyor; 5.4’te ise “MTP-1 represents the former production setup, having been superseded by DSpark two weeks following the DeepSeek-V4-preview release” ifadesi var.
- Lookahead Sparse Attention da büyük rol oynamış olmalı.
  Çünkü bellek kullanımını ciddi biçimde azaltıyor.
- İyi yakalamışsın.
  Fiyatı %75 düşürdüler; bu da hız ve çıkarım optimizasyonu kazanımlarıyla tam örtüşüyor gibi.
Yakında kullanım senaryosuna, şirkete, hatta kişiye özgü çok çeşitli spekülatif kod çözme için küçük modellerin olduğu bir dünyaya gideceğiz gibi geliyor.
- Umarım öyle olur ve donanıma ulaşmak imkânsız hale gelmez.
- Evet.
  İncelikli guardrail’lerle güçlü biçimde kısıtlanmış bir formda olacak.
  
  Kesinlikle bu yöne gidiyor.
  Dünyayı yutmaya çalışan dev modeller ise buna kıyasla ciddi biçimde azalan getirilere sahip.
- Son dönemdeki spekülatif kod çözme makalelerini belli ki okumamışsın.
  Zaten bir süredir herhangi bir model, başka bir model için spekülasyonda kullanılabiliyor.
  Geçmişte bunu engelleyen tokenization sorunu çözüldü.

DSpark: Spekülatif kod çözme ile LLM çıkarımını hızlandırma [pdf]

Problem tanımı — paralel taslakçının iki darboğazı

Otoregresif taslakçıların sınırı

Paralel taslakçıların sınırı

Mimari — birbirini tamamlayan iki bileşen

Yarı-otoregresif üretim (Semi-Autoregressive Generation)

Güven zamanlamalı doğrulama (Confidence-Scheduled Verification)

Öğrenme (Training)

Deneyler — çevrimdışı benchmark

Kurulum

Ana sonuçlar

Deney analizi

Paralel üretim neden otoregresifi geçiyor

Az miktarda otoregresyonla büyük etki

Güven başlığının rolü — daha uzun değil, daha akıllı doğrulama

Gerçek servis dağıtımı

Ölçeklenebilir eğitim

Zamanlayıcının pratik uygulanması

Yüksek işleme hızlı, düşük gecikmeli çıkarım

Gerçek kullanıcı trafiği performansı

Sınırlamalar

Sonuç

İlgili okumalar

1 yorum

Hacker News yorumları