DeepSeek-V4 makalesi okuma özeti - Noh Jeong-seok
(youtube.com)DeepSeek-V4’ün ortaya koyduğu mimari yenilikler ve frontier laboratuvarlarının yeni koordinatları: Nisan 2026’nın dördüncü haftasında GPT-5.5 ve Google Cloud Next gibi büyük duyurular peş peşe gelirken, en dikkat çekici gelişme DeepSeek-V4’ün yayımlanması oldu. R1’den yaklaşık 1 yıl 4 ay sonra gelen bu model, 600B ölçeğindeki V3’ten 1.6T ölçeğine büyüdü ve etkin parametre sayısı da bir miktar arttı. En önemlisi, Sparse Attention, mHC(Manifold-Constrained Hyper-Connections) ve Muon optimizer olmak üzere üç ayrı algoritmik değişiklik aynı anda uygulandı; ortaya çıkan sonuç da yaklaşık 40 sayfalık makalede ayrıntılı biçimde toplandı. Noh Seong-hun ve Noh Jeong-seok, bu raporun yalnızca bir performans gösterisi değil, 1 yıla yayılan sancılı deneme-yanılma sürecinin kaydı olduğunu değerlendiriyor.
Temel mimari değişiklikler
- Sparse Attention’ın tam ölçekli kullanımı: Önceki yöntemde olduğu gibi tüm geçmiş token’lara bakmak yerine, yalnızca anlamlı bazı token’lar seçilip referans alınıyor. Bu yapı; sliding window attention, 100’de 1 oranında sıkıştırılmış token’lara full attention ve 4’te 1 oranında sıkıştırmadan sonra Lightning Indexer ile top-k seçimi yapan Compressed Sparse Attention olmak üzere üç yaklaşımın birleşiminden oluşuyor.
- mHC uygulanması: Derin öğrenmenin çekirdeğindeki residual connection yolunu genişletip kısıtları gevşeten Hyper-Connections yapısının manifold üzerinde kararlı hale getirilmiş biçimi.
- Muon optimizer’ın benimsenmesi: Adam sonrasında Çin modellerinde fiilen standart gibi kullanılan bu optimizer, eğitim hızını ve veri verimliliğini birlikte artırıyor.
- MLA’nın kaldırılması: DeepSeek’in adeta simgesi haline gelen MLA terk edilerek daha sade bir Multi-Query Attention yapısına geçildi.
Avantajlar ve öne çıkan özellikler
- Uzun bağlam maliyetinde sert düşüş: V3’e göre 2.5~3 kat daha büyük bir model olmasına rağmen, token işlem compute maliyeti yaklaşık %27 seviyesine, KV cache belleği ise %10 seviyesine kadar indirildi.
- Ön eğitim aşamasından itibaren uzun bağlam eğitimi: İlk 1T token 4K~16K aralığında, sonrasındaki 30T’den fazla token ise 64K ve üstünde eğitildi. Bu yaklaşım, bağlamı sonradan artırma alışkanlığından ayrışıyor.
- Altyapı optimizasyonunda derinlik: ByteDance’in Comet sisteminden geliştirilen MoE iletişim-hesaplama overlap’i, güç throttling sınırına kadar zorlanan mega-kernel, TileLang katkıları, batch invariance kernel’inde büyük optimizasyonlar ve uzman ağırlıklarının MXFP4(4-bit) sıkıştırması gibi çok katmanlı iyileştirmeler dikkat çekiyor.
- Algoritmik liderlik: ABD’li büyük teknoloji şirketleri mimari ayrıntıları açıklamazken, yalnızca ön eğitim alanı açısından bakıldığında eşdeğer ya da kısmen önde sayılabilecek bir seviyeye ulaşıldığı yorumu yapılıyor.
Eksiler ve sınırlamalar
- Eğitim kararsızlığı: Son dönemde LLM geliştiricileri eğitimin oldukça kararlı olduğunu söylerken, DeepSeek-V4 eğitim kararsızlığı sorunlarını birçok noktada dürüstçe ortaya koyuyor. MoE gating düzeltmeleri, clamping ve hatta geçmiş zamanlı ağırlıklarla yönlendirme yapan Anticipatory Routing gibi karmaşık düzenekler devreye alınmış durumda.
- Yeniden üretim zorluğu: Sparse Attention’ı fiilen sıfırdan eğitmenin çok zor olduğu, Çin’deki diğer ekiplerin de ortak sonucuydu. DeepSeek bunu başarmış olsa da diğer ekiplerin kolayca takip etmesi zor görünüyor.
- Post-training tarafındaki eksiklik: Ön eğitimdeki sıçramaya kıyasla post-training tarafında hâlâ kullanılabilecek alan olduğu değerlendiriliyor. 4.1 ve 4.2 aşamalarında güçlendirilmeye açık bir bölüm.
- Veri konusundaki sessizlik: Yalnızca 32T token hazırlandığı belirtiliyor; sentetik veri kullanımı gibi veri bileşimine dair somut ayrıntılar ise neredeyse hiç paylaşılmıyor.
Fark yaratan noktalar
- Şeffaf paylaşım: Diğer frontier laboratuvarlarının mimariyi gizlemesine karşın, burada yapı ve deneme-yanılma süreci görece açık bir şekilde anlatılıyor.
- Ön eğitim aşamasına entegre tasarım: Uzun bağlam, Sparse Attention ve FP4 nicemlemenin sonradan eklenen işlemler yerine doğrudan ön eğitime yedirilmiş olması özellikle dikkat çekiyor.
- Donanım çeşitliliği: NVIDIA çiplerinin yanında Huawei çiplerinin de birlikte kullanıldığı belirtilerek, Çin içindeki yarı iletken alternatiflerinin güç kazandığına işaret ediliyor.
Sektör açısından anlamı
- Çin frontier laboratuvarlarında güç dengesi değişiyor: DeepSeek, Kimi, Z.ai(GLM), Tencent Hunyuan 3 ve Xiaomi MiMo dahil olmak üzere yaklaşık beş ekip aynı anda ön plana çıkmış durumda; ön eğitim açısından ABD ile eşdeğer ya da kısmen önde olunan alanların oluştuğu görüşü dile getiriliyor.
- Bir sonraki savaş alanı post-training: Ön eğitim düzeyine yaklaşan compute kaynağının yakında post-training’e de ayrılacağı, asıl farkın burada ortaya çıkabileceği düşünülüyor.
- Model güncellemelerinin sıradanlaşması: GPT-5.5, Claude Mythos, Spud ve DeepSeek-V4’ün benzer dönemde temel modellerini yenilemesiyle, model güncellemelerinin Chrome tarayıcı güncellemeleri kadar kanıksanır hale geldiğine dair bir eğilim görülüyor.
Bu DeepSeek-V4 çalışması, tek bir modelin performans göstergelerinden çok, bir ekibin 1 yıl boyunca hangi zor problemleri nasıl doğrudan aştığını gösteren bir kayıt niteliği taşıyor. Sparse Attention’ı ön eğitim aşamasından itibaren taşıma denemesi, 1.6T ölçekte uzun bağlam maliyetini tek haneli oranlara indiren altyapı çalışmaları ve eğitim kararsızlığıyla mücadele ederken devreye alınan alışılmadık düzenekler, bundan sonra Çin çıkışlı frontier modeller için yeni bir temel haline gelebilir. Aynı zamanda post-training ve veri tarafındaki açık sorunlar da belirginliğini koruyor; 4.1 ve 4.2 sürümlerinin bu farkı ne ölçüde kapatacağı, gelecek çeyreğin önemli izleme başlıklarından biri olacak gibi görünüyor.
3 yorum
No Seonghun değil, Kim Seonghyeon.
Düzelttim.
Teşekkürler. Düzeltilmesi gerekiyor.