- Pangu Pro MoE, Huawei Ascend NPU ortamı için optimize edilmiş Mixture of Grouped Experts (MoGE) mimarisini kullanarak dağıtık ortamlarda uzman bazlı yük dengesizliği sorununu etkili biçimde çözüyor
- Model, toplam 72 milyar parametre ölçeğinde tasarlandı ve token başına yalnızca 16 milyar parametreyi etkinleştirerek hesaplama verimliliğini ve ölçeklenebilirliği büyük ölçüde artırıyor
- MoGE mimarisi, farklı uzman grupları arasında eşit dağıtım ve seçim kuralları uygulayarak tüm cihazlarda mükemmel yük dengesi sağlıyor; böylece çıkarım ve eğitim hızını iyileştiriyor
- Performans değerlendirme sonuçlarına göre Pangu Pro MoE, GLM-Z1-32B, Qwen3-32B gibi başlıca açık kaynak modelleri geride bırakırken Ascend 300I Duo/800I A2 platformlarında üst düzey çıkarım verimliliği ve maliyet/performans sunuyor
- Ön eğitim, ince ayar ve pekiştirmeli öğrenme yoluyla yüksek kaliteli veri kümelerine dayanan çeşitli alanlarda güçlü akıl yürütme ve genelleme yeteneği kazanıyor
Genel bakış
- Son dönemde büyük dil modellerinde (LLM) Mixture of Experts (MoE) yaklaşımı benimsenirken, hesaplama maliyetini artırmadan model parametrelerini ve eğitim kapasitesini büyütme eğilimi öne çıkıyor
- MoE yapısı, her giriş tokenı için yalnızca bazı uzmanları (Expert) etkinleştirerek işlem yükünü azaltıyor; ancak pratikte yalnızca bazı uzmanların tekrar tekrar seçildiği uzman yük dengesizliği sorunu ortaya çıkıyor
- Bu sorun, model birden fazla cihaza dağıtıldığında tüm sistemin verimliliğini düşürüyor
- Mevcut yük dengeleme sezgisel yöntemleri yalnızca kısmi iyileşme sağlıyor ve tam anlamıyla köklü bir çözüm sunmuyor
Mixture of Grouped Experts (MoGE) mimarisi tanıtımı
- MoGE, uzmanları (Expert) aynı boyutta gruplara (Group) ayırıyor ve her token için her gruptan belirli sayıda uzmanın mutlaka etkinleşmesini sağlayan grup dengeli yönlendirme stratejisi uyguluyor
- Bu sayede iş yükü tüm cihazlara eşit biçimde dağıtılıyor ve Imbalance Score (IS) tasarım gereği 0 olacak şekilde her zaman kusursuz yük dengesi elde ediliyor
- Her token için tüm uzmanların başlangıç puanları global bir Softmax yönlendirici ile hesaplandıktan sonra, her grup içinde yalnızca Top-K′ uzmanlar seçiliyor; seçilmeyen uzmanların puanı 0 oluyor
- Bu yapı özellikle dağıtık ortamdaki büyük modellerde (onlarca ila yüz milyar parametre) çıkarım ve eğitim hızını, ayrıca kaynak kullanımını en üst düzeye çıkarıyor
Pangu Pro MoE modeli ve Ascend platform optimizasyonu
- Huawei, Ascend 300I Duo ve 800I A2 NPU platformları için optimize edilmiş Pangu Pro MoE'yi (toplam 71,9 milyar parametre, token başına 16,5 milyar etkin) geliştirdi
- Kapsamlı sistem simülasyonlarına dayanarak model yapısı ve donanım (HW) paralelleştirme yapılandırmaları (tensor/uzman/pipeline/sanal pipeline paralelliği) dâhil çeşitli donanım parametreleri ayarlanarak performans en üst düzeye çıkarıldı
- Özel işlem çekirdekleri (MulAttention, SwiftGMM vb.), Ascend özelliklerine göre optimize edilerek bellek erişimi, iletişim ve hesaplama ek yükü azaltıldı; operatör bazlı darboğazlar giderildi ve bant genişliği kullanım oranı yükseltildi
- Toplu iş boyutu ve performans optimizasyonu simülasyonu sonuçları, kısıtlar altında en iyi Throughput, en düşük Latency ve en verimli iletişim performansını gösterdi
Ön eğitim ve eğitim verisi tasarımı
Veri yapısı
- Kendi tokenizer'ına dayanan 1,3 katrilyon (13 trilyon) token içeren büyük ve yüksek kaliteli bir veri kümesi oluşturuldu; veriler web, kitaplar, kod, STEM, sanayi, akıl yürütme ve sentetik veri gibi çeşitli kaynaklardan toplandı
- Tokenizer, alan dengesi odaklı bir strateji kullandığı için özel alanlarda da temsil gücü sağlıyor
Eğitim aşamaları ve stratejileri
- Ön eğitim (Pre-training) üç aşamada yürütülüyor (genel, akıl yürütme, annealing) ve her aşamada eğitim hedefi ile veri müfredatı ayarlanıyor
- Genel aşama: çeşitli alanlardan genel bilgi ve dil yeteneği kazanımı
- Akıl yürütme aşaması: STEM, kodlama ve karmaşık mantık problemleri gibi karmaşık akıl yürütme verilerinin payını en üst düzeye çıkarma
- Annealing aşaması: yüksek zorluk seviyeli veriler ve instruction tarzı verilerle ek ince ayar
- Her aşamada sekans uzunluğu, veri zorluğu, toplu iş boyutu, öğrenme oranı gibi unsurlar kademeli olarak ayarlanarak modelin genelleme ve uzmanlaşma yetenekleri geliştiriliyor
Veri değerlendirmesi
- Pangu'nun kendi seri modelleri kullanılarak model tabanlı çok alanlı değerlendirme sistemi işletiliyor; her veri için temizlik/akıcılık/eğitsel değer/zenginlik gibi başlıca puanlar atanıyor ve bu puanlar veri örnekleme ile seçim stratejilerine yansıtılıyor
- Toplam 188 kategoride ayrıntılı etiketleme yapılarak veri dağılımı ve özellikleri yönetiliyor
Ön eğitim ortamı ve optimizasyonu
- Pangu Pro MoE, Huawei Ascend 800T A2 üzerinde eğitildi ve değerlendirildi; bu çip FP16 256TFlops, INT8 512TOPS verimliliği ve 310W çok düşük güç tüketimiyle yüksek yapay zeka performansı ile maliyet verimliliği sunuyor
- Tek epoch eğitim, AdamW optimizer, 3 aşamalı cosine learning rate schedule, büyük batch yapısı gibi bileşenlerle güçlü genelleme ve hedef görevlerde uzmanlaşma imkânı sağlanıyor
Sonraki eğitim aşaması (ince ayar ve pekiştirmeli öğrenme)
Supervised Fine-tuning (SFT)
- SFT verileri 'akıl yürütme' ve 'akıl yürütme dışı' olmak üzere iki kümeye ayrılıyor; akıl yürütme oranı 3:1'e çıkarılarak matematik/kod/mantıksal çıkarım gibi karmaşık görevlere odaklanılıyor
- 2 aşamalı kademeli optimizasyon stratejisi (geniş kapsamlı basit talimatlardan karmaşık akıl yürütmeye doğru ilerleme) ile modelin adım adım akıl yürütme yeteneği ve genel dil işleme kapasitesi dengeli biçimde büyütülüyor
- SFT sürecinde ayrıca checkpoint birleştirme stratejisi uygulanarak farklı aşamalardaki ara modeller etkili biçimde entegre ediliyor; böylece dayanıklılık ve genelleme güçleniyor
Pekiştirmeli öğrenme (RL)
- Ödül tabanlı RL aşamasında Group Relative Policy Optimization (GRPO) algoritması ile ödül sinyali olmayan örnekleri yok sayan Zero-Advantage-Mask tekniği birlikte kullanılarak politika keşfi ve etkili öğrenme destekleniyor
- Doğruluk, tercih ve yardımcı ödül gibi çok katmanlı bir ödül sistemi uygulanıyor; matematik ve kodlama görevleri otomatik değerlendirme sistemiyle, açık alan görevleri ise ayrı bir LLM tabanlı değerlendirici (Preference Model) ile ölçülüyor
- Müfredat tabanlı veri karıştırma ile veri karmaşıklığı dağılımı dinamik biçimde ayarlanarak modele sürekli gelişim uyarısı veriliyor
Sistem ve altyapı optimizasyonu
Ascend NPU eğitim sistemi
- Hiyerarşik ve hibrit paralellik (Hierarchical & Hybrid Parallelism) stratejisi, EP All-to-All iletişimi, Adaptive Pipeline Overlap, operatör füzyonu gibi ileri teknikler etkin biçimde uygulanıyor
- Model hesaplama verimliliğinde (MFU) %35 artış sağlanırken, pipeline ve sanal pipeline paralelliği ile aşama bazlı hesaplama ve iletişim yükü kusursuz biçimde dağıtılarak hem ölçeklenebilirlik hem de throughput güçlendiriliyor
- Özel çekirdekler, HBM bant genişliğinin en üst düzeyde kullanımı, gereksiz iletişim ve bellek ek yükünün kaldırılması gibi yaklaşımlarla model eğitimi ve çıkarımın tüm aşamalarında performans en üst seviyeye taşınıyor
- Inference sistemi de Attention, Expert gibi modüller için esnek paralel yapılandırma (H2P stratejisi) ve özel operatör optimizasyonları sayesinde her donanım yapısına uygun en iyi Throughput ve Latency sonuçlarını gösteriyor
Performans ve benchmark sonuçları
- Pangu Pro MoE, Ascend ortamında kart başına 1148~1528 token/s çıkarım performansı sunarak benzer parametre düzeyindeki modelleri (Open dense 32B, 72B) açık farkla geride bırakıyor
- Maliyet/performans açısından da Ascend 300I Duo tabanında olağanüstü verimlilik sağlıyor
- Karar verme, mantık, kodlama, belge anlama gibi çeşitli harici benchmark'larda GLM-Z1-32B, Qwen3-32B, Gemma3-27B gibi büyük açık modellerden daha yüksek performans gösteriyor
- Deneysel olarak 100B altı parametre sınıfında en üst düzey LLM'lerden biri olduğunu ortaya koyuyor
Sonuç ve çıkarımlar
- Pangu Pro MoE, büyük ölçekli model dağıtık eğitimi ve çıkarımında uzman grubu dengeleme tasarımıyla yük dengesizliği sorununu temelden çözüyor
- Ascend'e özel platform optimizasyonu ve veri kalitesini en üst düzeye çıkaran kapsamlı çalışmalar sayesinde maliyet, hız ve genelleme performansı arasında üst düzey bir denge kuran yeni nesil büyük dil modeli olarak öne çıkıyor
- Bu yapı ve metodolojinin ileride büyük ölçekli dağıtık LLM ekosistemi ve çeşitli endüstriyel uygulamalar için önemli bir referans olmasının beklendiği belirtiliyor
1 yorum
Hacker News görüşleri
Bu mimari duyurusunu gerçekten heyecan verici kılan şey, ucuz GPU’larla küçük geliştiricilerin büyük şirketlerle rekabet edebilme ihtimali. Sonuçta bu, kitlesel kaynak kullanımına dayalı açık yapay zeka geliştirmenin teknik olarak mümkün olabileceğine işaret ediyor. Çin’in de gerçekten bu alanı araştırdığı ve monolitik modellerle rekabet edebilecek bir seviyeyi hedeflediği görülüyor. ABD yaptırımları konusunda başlangıçta şüpheliydim ama eğer bu mantıksal olarak tamamen hayata geçirilebilirse gerçekten büyük bir başarı olur
Lisans AB içinde kullanım ve kurulumu yasaklıyor; ancak “bu kısıtlama yalnızca koruma amaçlıdır, fiilen uygulanmayacaktır” gibi bir madde içeren bir lisans yazmanın mümkün olup olmadığını merak ediyorum. Buna “ayırıcı madde” (
isolating clause) denebilir gibi geliyor ama bir yargıcın bunu hukuki bir dolambaç olarak kabul edip etmeyeceğinden emin değilim. Meta’nın llama ağırlıklarını yayımladığı zamankine benzer bir bağlam gibi duruyor. Avrupa Yapay Zeka Yasası’nın özünün yapay zekanın somut kullanımını düzenlemek olduğunu düşünüyorum; yalnızca ağırlıkları ve mimariyi dağıtmak bunun kapsamına girmeyebilir. Dağıtım yasağı aslında Avrupalılara daha fazla seçenek ve rekabet sağlayacak gibi görünüyor; bunun gerçekten hukuken yasak olup olmadığını merak ediyorum. Öte yandan, open-weight bir modeli kurmanın arka kapı riski yaratabileceğini de düşünüyorum; yani belirli prompt’larla sistemi manipüle etmeyi mümkün kılan güvenlik açıkları oluşabilir. İlgili bir makalede,0?,#2!gibi sembol kombinasyonlarının bir LLM’yi birilerinin gizli bilgileri okuyabileceği bir duruma, yani prompt injection’a açık hale getirebildiğine dair bir örnek gördüğümü hatırlıyorum. Bu tür saldırıların fine-tuning veya LoRA ile önlenip önlenemeyeceğini ya da zayıflatılıp zayıflatılamayacağını, ayrıca savunma için yararlı Python kütüphaneleri olup olmadığını merak ediyorum. İndirip kurduktan ve fine-tuning ya da LoRA ile değişiklik yaptıktan sonra korunma sağlanıp sağlanamayacağını soruyorAğırlıklar gitcode üzerinden alınabiliyor
Mevcut LLM’ler ölçeklenebilirliğin sınırına, yani scaling wall’a dayanmışsa ve bundan sonra belirleyici unsur verimlilik olacaksa, belirli kullanım senaryolarına odaklanan küçük modeller için bir pazar oluşup oluşmayacağını merak ediyorum. Gerçekten de Gemini ile görüntülerden yapılandırılmış veri çıkarmada flash modeli çok etkili. NUC ve AMD APU gibi küçük cihazlarda yalnızca belirli kullanım amaçlarını karşılayan hafif modeller üretmek ne kadar emek ister merak ediyorum. Ya da belirli kullanım senaryolarına yönelik mini harici GPU stick benzeri cihazların ortaya çıkma ihtimali de ilginç. Ticari olarak dev bir pazar olmayabilir ama oldukça havalı olurdu
Yaptırımların yalnızca geçici bir çözüm olduğunu düşünüyorum. İdeal olarak amaç, yerli kapasiteyi güçlendirmek için zaman kazanmak olmalı; ama bunun yerine ABD içindeki araştırma fonlarının kesilmesi ve yabancı öğrenciyle araştırmacı girişinin baskılanması nedeniyle ABD kapasitesi zayıflarken Çin büyüme patikasına girecek gibi görünüyor
Bu haber birkaç gün eski. Tencent’in hibrit yapay zeka modelini open source yapmasıyla ilgili haber için TechInAsia bağlantısına bakılabilir, GitHub bağlantısı da paylaşılmış
Sic transit gloria nvidii (Nvidia’nın görkemi de böyle geçip gider)
invidia, Latince’de “kıskançlık” anlamına geliyornvidiaeolmalı.i,oçekimli ekSic transit gloria nvidiaeolurÇinli bir arkadaşım var. Altı yıl önce Çin’de bir donanım girişiminde kurucu mühendis olarak işe katıldı. Sonra yaptırımlar geldi. Yakın zamanda görüştüğümüzde bunun hayatındaki en iyi şey olduğunu söyledi. Çin’deki yerli şirketler artık Batı menşeli ürünleri hiç satın almaz hale geldiği için şirketleri çok büyümüş. Artık yaptırımlar herkes tarafından “normal” kabul edildiğinden, sonuç yalnızca kendi kendine yeterlilik ve büyümeye odaklanmak olmuş
Yaptırımlardan sonra bunun ne anlama geldiğini merak ediyorum. Yaptırımlarla ciddi darbe alan Huawei akıllı telefonları, şimdi kendi GPU’suyla geri dönüş fırsatı mı yakalıyor? Bu GPU’ların performansı Batı’daki en yeni GPU’larla kıyaslandığında nasıl? Bu, Huawei’nin artık bu GPU’yu ticarileştirebilecek kapasiteye sahip olduğu anlamına mı geliyor?
TSMC ve Nvidia’ya karşı denge kurabilmek için, node size açısından Huawei ve Çin’in rekabetçi bir konuma gelmesi dünya için gerekli