Mixture of Experts (MoE) nedir — DeepSeek neden 1,6 trilyon parametreye rağmen ucuza çalışıyor?
(app-place-tech.com)Mixture of Experts (MoE) nedir — DeepSeek neden 1,6 trilyon parametreye rağmen ucuza çalışıyor?
Bu yazı, DeepSeek V4’ün 1,6 trilyon parametreye sahip olmasına rağmen GPT-5.5’in onda biri fiyatla hizmet verebilmesini MoE mimarisi üzerinden açıklıyor.
MoE, birden fazla uzman (Expert) alt model ile hangi uzmanın kullanılacağını belirleyen bir yönlendiriciden (router, gating network) oluşur. Temel fikir, her token için toplam parametrelerin yalnızca bir kısmının seçici biçimde etkinleştirilmesidir. Geleneksel yoğun modellerde (Dense Model) girdi ne olursa olsun tüm parametreler hesaplamaya katılır; MoE’de ise yönlendirici en uygun birkaç uzmanı seçerek işlemi onlara yaptırır.
DeepSeek V4-Pro’da toplam 1,6 trilyon parametrenin içinden token başına yalnızca 49 milyar kadarı (yaklaşık %3) etkinleşir. Yani 1,6 trilyon ölçeğinde bilgiyi barındırırken, gerçek çıkarım maliyeti pratikte 49 milyar parametreli bir modele yakın olur. Genel olarak MoE, aynı büyüklükteki yoğun modellere kıyasla fiyat/performansı 3 ila 5 kat iyileştirir.
Bunun bazı dezavantajları da vardır. Hesaplama seyrek yapılsa da tüm uzmanların parametrelerini bellekte tutmak gerektiği için VRAM gereksinimi yüksektir; ayrıca eğitim sırasında yükün belirli uzmanlarda toplanmasıyla oluşan dengesizlik sorununun da ayrıca yönetilmesi gerekir.
2026 itibarıyla GPT-4, Gemini 1.5, Mixtral ve DeepSeek serisi gibi başlıca frontier modellerin büyük bölümü MoE tabanlıdır. Yapay zeka modeli rekabetinin odağı yalnızca büyüklükten maliyet/performansa kaydıkça, MoE fiilen standart mimari haline gelmiştir.
4 yorum
2026'da GPT-4, Gemini 1.5 mi? Bu düpedüz AI slop yazısı.
En yeni modellerde iç uygulama biçimi ayrıntılı olarak açıklanmadığı için, araştırma aşamasında önceki modellerin örnek olarak öne çıktığı anlaşılıyor; ayrıca GPT-5 sonrasında çıkan modellerin büyük olasılıkla MoE yapısını devraldığı söylenebilir. Bunun nedeni, açık kaynaklı paralel modellerin MoE yapısında olmasıdır. Son dönemde kapalı modellerde ise mimari açıklanmadığı için bu, kesinleşmiş resmî bir bilgi değildir.
MoE kullanan başlıca frontier modeller arasında GPT-5.5'in MoE kullanmadığı mı söyleniyor?
49B de oldukça yüksek.