Huawei, Ascend GPU üzerinde eğitilmiş açık ağırlıklı modeli yayımladı

(arxiv.org)

2 puan yazan GN⁺ 2025-07-03 | 1 yorum | WhatsApp'ta paylaş

Pangu Pro MoE, Huawei Ascend NPU ortamı için optimize edilmiş Mixture of Grouped Experts (MoGE) mimarisini kullanarak dağıtık ortamlarda uzman bazlı yük dengesizliği sorununu etkili biçimde çözüyor
Model, toplam 72 milyar parametre ölçeğinde tasarlandı ve token başına yalnızca 16 milyar parametreyi etkinleştirerek hesaplama verimliliğini ve ölçeklenebilirliği büyük ölçüde artırıyor
MoGE mimarisi, farklı uzman grupları arasında eşit dağıtım ve seçim kuralları uygulayarak tüm cihazlarda mükemmel yük dengesi sağlıyor; böylece çıkarım ve eğitim hızını iyileştiriyor
Performans değerlendirme sonuçlarına göre Pangu Pro MoE, GLM-Z1-32B, Qwen3-32B gibi başlıca açık kaynak modelleri geride bırakırken Ascend 300I Duo/800I A2 platformlarında üst düzey çıkarım verimliliği ve maliyet/performans sunuyor
Ön eğitim, ince ayar ve pekiştirmeli öğrenme yoluyla yüksek kaliteli veri kümelerine dayanan çeşitli alanlarda güçlü akıl yürütme ve genelleme yeteneği kazanıyor

Genel bakış

Son dönemde büyük dil modellerinde (LLM) Mixture of Experts (MoE) yaklaşımı benimsenirken, hesaplama maliyetini artırmadan model parametrelerini ve eğitim kapasitesini büyütme eğilimi öne çıkıyor
MoE yapısı, her giriş tokenı için yalnızca bazı uzmanları (Expert) etkinleştirerek işlem yükünü azaltıyor; ancak pratikte yalnızca bazı uzmanların tekrar tekrar seçildiği uzman yük dengesizliği sorunu ortaya çıkıyor
Bu sorun, model birden fazla cihaza dağıtıldığında tüm sistemin verimliliğini düşürüyor
Mevcut yük dengeleme sezgisel yöntemleri yalnızca kısmi iyileşme sağlıyor ve tam anlamıyla köklü bir çözüm sunmuyor

Mixture of Grouped Experts (MoGE) mimarisi tanıtımı

MoGE, uzmanları (Expert) aynı boyutta gruplara (Group) ayırıyor ve her token için her gruptan belirli sayıda uzmanın mutlaka etkinleşmesini sağlayan grup dengeli yönlendirme stratejisi uyguluyor
Bu sayede iş yükü tüm cihazlara eşit biçimde dağıtılıyor ve Imbalance Score (IS) tasarım gereği 0 olacak şekilde her zaman kusursuz yük dengesi elde ediliyor
Her token için tüm uzmanların başlangıç puanları global bir Softmax yönlendirici ile hesaplandıktan sonra, her grup içinde yalnızca Top-K′ uzmanlar seçiliyor; seçilmeyen uzmanların puanı 0 oluyor
Bu yapı özellikle dağıtık ortamdaki büyük modellerde (onlarca ila yüz milyar parametre) çıkarım ve eğitim hızını, ayrıca kaynak kullanımını en üst düzeye çıkarıyor

Pangu Pro MoE modeli ve Ascend platform optimizasyonu

Huawei, Ascend 300I Duo ve 800I A2 NPU platformları için optimize edilmiş Pangu Pro MoE'yi (toplam 71,9 milyar parametre, token başına 16,5 milyar etkin) geliştirdi
Kapsamlı sistem simülasyonlarına dayanarak model yapısı ve donanım (HW) paralelleştirme yapılandırmaları (tensor/uzman/pipeline/sanal pipeline paralelliği) dâhil çeşitli donanım parametreleri ayarlanarak performans en üst düzeye çıkarıldı
Özel işlem çekirdekleri (MulAttention, SwiftGMM vb.), Ascend özelliklerine göre optimize edilerek bellek erişimi, iletişim ve hesaplama ek yükü azaltıldı; operatör bazlı darboğazlar giderildi ve bant genişliği kullanım oranı yükseltildi
Toplu iş boyutu ve performans optimizasyonu simülasyonu sonuçları, kısıtlar altında en iyi Throughput, en düşük Latency ve en verimli iletişim performansını gösterdi

Ön eğitim ve eğitim verisi tasarımı

Veri yapısı

Kendi tokenizer'ına dayanan 1,3 katrilyon (13 trilyon) token içeren büyük ve yüksek kaliteli bir veri kümesi oluşturuldu; veriler web, kitaplar, kod, STEM, sanayi, akıl yürütme ve sentetik veri gibi çeşitli kaynaklardan toplandı
Tokenizer, alan dengesi odaklı bir strateji kullandığı için özel alanlarda da temsil gücü sağlıyor

Eğitim aşamaları ve stratejileri

Ön eğitim (Pre-training) üç aşamada yürütülüyor (genel, akıl yürütme, annealing) ve her aşamada eğitim hedefi ile veri müfredatı ayarlanıyor
- Genel aşama: çeşitli alanlardan genel bilgi ve dil yeteneği kazanımı
- Akıl yürütme aşaması: STEM, kodlama ve karmaşık mantık problemleri gibi karmaşık akıl yürütme verilerinin payını en üst düzeye çıkarma
- Annealing aşaması: yüksek zorluk seviyeli veriler ve instruction tarzı verilerle ek ince ayar
Her aşamada sekans uzunluğu, veri zorluğu, toplu iş boyutu, öğrenme oranı gibi unsurlar kademeli olarak ayarlanarak modelin genelleme ve uzmanlaşma yetenekleri geliştiriliyor

Veri değerlendirmesi

Pangu'nun kendi seri modelleri kullanılarak model tabanlı çok alanlı değerlendirme sistemi işletiliyor; her veri için temizlik/akıcılık/eğitsel değer/zenginlik gibi başlıca puanlar atanıyor ve bu puanlar veri örnekleme ile seçim stratejilerine yansıtılıyor
Toplam 188 kategoride ayrıntılı etiketleme yapılarak veri dağılımı ve özellikleri yönetiliyor

Ön eğitim ortamı ve optimizasyonu

Pangu Pro MoE, Huawei Ascend 800T A2 üzerinde eğitildi ve değerlendirildi; bu çip FP16 256TFlops, INT8 512TOPS verimliliği ve 310W çok düşük güç tüketimiyle yüksek yapay zeka performansı ile maliyet verimliliği sunuyor
Tek epoch eğitim, AdamW optimizer, 3 aşamalı cosine learning rate schedule, büyük batch yapısı gibi bileşenlerle güçlü genelleme ve hedef görevlerde uzmanlaşma imkânı sağlanıyor

Sonraki eğitim aşaması (ince ayar ve pekiştirmeli öğrenme)

Supervised Fine-tuning (SFT)

SFT verileri 'akıl yürütme' ve 'akıl yürütme dışı' olmak üzere iki kümeye ayrılıyor; akıl yürütme oranı 3:1'e çıkarılarak matematik/kod/mantıksal çıkarım gibi karmaşık görevlere odaklanılıyor
2 aşamalı kademeli optimizasyon stratejisi (geniş kapsamlı basit talimatlardan karmaşık akıl yürütmeye doğru ilerleme) ile modelin adım adım akıl yürütme yeteneği ve genel dil işleme kapasitesi dengeli biçimde büyütülüyor
SFT sürecinde ayrıca checkpoint birleştirme stratejisi uygulanarak farklı aşamalardaki ara modeller etkili biçimde entegre ediliyor; böylece dayanıklılık ve genelleme güçleniyor

Pekiştirmeli öğrenme (RL)

Ödül tabanlı RL aşamasında Group Relative Policy Optimization (GRPO) algoritması ile ödül sinyali olmayan örnekleri yok sayan Zero-Advantage-Mask tekniği birlikte kullanılarak politika keşfi ve etkili öğrenme destekleniyor
Doğruluk, tercih ve yardımcı ödül gibi çok katmanlı bir ödül sistemi uygulanıyor; matematik ve kodlama görevleri otomatik değerlendirme sistemiyle, açık alan görevleri ise ayrı bir LLM tabanlı değerlendirici (Preference Model) ile ölçülüyor
Müfredat tabanlı veri karıştırma ile veri karmaşıklığı dağılımı dinamik biçimde ayarlanarak modele sürekli gelişim uyarısı veriliyor

Sistem ve altyapı optimizasyonu

Ascend NPU eğitim sistemi

Hiyerarşik ve hibrit paralellik (Hierarchical & Hybrid Parallelism) stratejisi, EP All-to-All iletişimi, Adaptive Pipeline Overlap, operatör füzyonu gibi ileri teknikler etkin biçimde uygulanıyor
Model hesaplama verimliliğinde (MFU) %35 artış sağlanırken, pipeline ve sanal pipeline paralelliği ile aşama bazlı hesaplama ve iletişim yükü kusursuz biçimde dağıtılarak hem ölçeklenebilirlik hem de throughput güçlendiriliyor
Özel çekirdekler, HBM bant genişliğinin en üst düzeyde kullanımı, gereksiz iletişim ve bellek ek yükünün kaldırılması gibi yaklaşımlarla model eğitimi ve çıkarımın tüm aşamalarında performans en üst seviyeye taşınıyor
Inference sistemi de Attention, Expert gibi modüller için esnek paralel yapılandırma (H2P stratejisi) ve özel operatör optimizasyonları sayesinde her donanım yapısına uygun en iyi Throughput ve Latency sonuçlarını gösteriyor

Performans ve benchmark sonuçları

Pangu Pro MoE, Ascend ortamında kart başına 1148~1528 token/s çıkarım performansı sunarak benzer parametre düzeyindeki modelleri (Open dense 32B, 72B) açık farkla geride bırakıyor
Maliyet/performans açısından da Ascend 300I Duo tabanında olağanüstü verimlilik sağlıyor
Karar verme, mantık, kodlama, belge anlama gibi çeşitli harici benchmark'larda GLM-Z1-32B, Qwen3-32B, Gemma3-27B gibi büyük açık modellerden daha yüksek performans gösteriyor
Deneysel olarak 100B altı parametre sınıfında en üst düzey LLM'lerden biri olduğunu ortaya koyuyor

Sonuç ve çıkarımlar

Pangu Pro MoE, büyük ölçekli model dağıtık eğitimi ve çıkarımında uzman grubu dengeleme tasarımıyla yük dengesizliği sorununu temelden çözüyor
Ascend'e özel platform optimizasyonu ve veri kalitesini en üst düzeye çıkaran kapsamlı çalışmalar sayesinde maliyet, hız ve genelleme performansı arasında üst düzey bir denge kuran yeni nesil büyük dil modeli olarak öne çıkıyor
Bu yapı ve metodolojinin ileride büyük ölçekli dağıtık LLM ekosistemi ve çeşitli endüstriyel uygulamalar için önemli bir referans olmasının beklendiği belirtiliyor

1 yorum

GN⁺ 2025-07-03

Hacker News görüşleri

Bu mimari duyurusunu gerçekten heyecan verici kılan şey, ucuz GPU’larla küçük geliştiricilerin büyük şirketlerle rekabet edebilme ihtimali. Sonuçta bu, kitlesel kaynak kullanımına dayalı açık yapay zeka geliştirmenin teknik olarak mümkün olabileceğine işaret ediyor. Çin’in de gerçekten bu alanı araştırdığı ve monolitik modellerle rekabet edebilecek bir seviyeyi hedeflediği görülüyor. ABD yaptırımları konusunda başlangıçta şüpheliydim ama eğer bu mantıksal olarak tamamen hayata geçirilebilirse gerçekten büyük bir başarı olur
- Yaptırımların, alaycı bir anlamda söylemiyorum, pek çok açıdan dünyayı daha iyi bir yöne götürebileceğini düşünüyorum. Hesaplama çeşitliliği, üretimin dağıtılması gibi çeşitli iyileştirmeleri teşvik ediyor
- Deepseek-R1 zaten GPT 4.1’e benzer seviyede. Open-weight, open source olarak sunuluyor ve hatta çıkarım kodu da açık kaynak olarak yayımlandı
- SETI@Home benzeri eşten eşe açık GPU eğitim ağı fikri benim de ilgimi çekiyor
- Kitlesel kaynaklı açık yapay zekanın teknik olarak mümkün olup olmadığı sorusuna, bunun zaten mümkün olduğuna örnek olarak PrimeIntellect.ai’nin Intellect-2 bağlantısı paylaşılmış
- Bunun ilginç bir gelişme olduğunu düşünüyorum. Ama bunun iyi bir şey olup olmadığı, yapay zeka teknolojisinin insanlığın varlığına yönelik bir tehdit oluşturup oluşturmayacağına bağlı. Abartılı gelebilir ama bunu gerçekten çok ciddi biçimde düşünen pek çok insan var
Lisans AB içinde kullanım ve kurulumu yasaklıyor; ancak “bu kısıtlama yalnızca koruma amaçlıdır, fiilen uygulanmayacaktır” gibi bir madde içeren bir lisans yazmanın mümkün olup olmadığını merak ediyorum. Buna “ayırıcı madde” (isolating clause) denebilir gibi geliyor ama bir yargıcın bunu hukuki bir dolambaç olarak kabul edip etmeyeceğinden emin değilim. Meta’nın llama ağırlıklarını yayımladığı zamankine benzer bir bağlam gibi duruyor. Avrupa Yapay Zeka Yasası’nın özünün yapay zekanın somut kullanımını düzenlemek olduğunu düşünüyorum; yalnızca ağırlıkları ve mimariyi dağıtmak bunun kapsamına girmeyebilir. Dağıtım yasağı aslında Avrupalılara daha fazla seçenek ve rekabet sağlayacak gibi görünüyor; bunun gerçekten hukuken yasak olup olmadığını merak ediyorum. Öte yandan, open-weight bir modeli kurmanın arka kapı riski yaratabileceğini de düşünüyorum; yani belirli prompt’larla sistemi manipüle etmeyi mümkün kılan güvenlik açıkları oluşabilir. İlgili bir makalede, 0?,#2! gibi sembol kombinasyonlarının bir LLM’yi birilerinin gizli bilgileri okuyabileceği bir duruma, yani prompt injection’a açık hale getirebildiğine dair bir örnek gördüğümü hatırlıyorum. Bu tür saldırıların fine-tuning veya LoRA ile önlenip önlenemeyeceğini ya da zayıflatılıp zayıflatılamayacağını, ayrıca savunma için yararlı Python kütüphaneleri olup olmadığını merak ediyorum. İndirip kurduktan ve fine-tuning ya da LoRA ile değişiklik yaptıktan sonra korunma sağlanıp sağlanamayacağını soruyor
- Huawei’nin AB vatandaşlarının davranışlarını kontrol etme hakkı yok ve aslında böyle bir kısıtı eklemelerine de gerek yoktu. Bir AB vatandaşı olarak yasayı bizzat öğrenip riskli modellerden kaçınmanın kişinin kendini korumasının yolu olduğunu düşünüyorum
- Güvenlik açısından, LLM’in ürettiği hiçbir koda güvenilmemeli; mutlaka gözden geçirilmesi gerekir
- “Ayırıcı madde”ye benzer bir koşul olarak Alliance for Open Media’nın codec lisansı örnek veriliyor. İlgili codec telifsiz olsa da, lisans şartlarına göre formatın kullanımıyla ilgili hukuki dava açılırsa kullanım hakkı geri çekiliyor
Ağırlıklar gitcode üzerinden alınabiliyor
- Ancak lisansa göre AB içinde erişim, indirme, kurulum, çalıştırma, dağıtım, entegrasyon, değiştirme ve diğer tüm kullanımlar açıkça engelleniyor. İlgili lisans bağlantısı burada
- “Open source” yerine “open-weight” gibi daha isabetli bir ifadenin kullanılması güzel. Ama open-weight’in gerçekten neden ilginç olduğunu merak ediyorum. Bu, modelin önyargılarını ya da önyargısızlığını anlamayı sağlar mı? Rakip modellerin eğitiminde kullanılabilir mi? Open source ile open-weight arasındaki farkları, artılarını ve eksilerini merak ediyorum; ayrıca LLM çağında “ağırlıklar kaynağın kendisidir” sözünün ne kadar geçerli olduğunu da öğrenmek istiyorum
Mevcut LLM’ler ölçeklenebilirliğin sınırına, yani scaling wall’a dayanmışsa ve bundan sonra belirleyici unsur verimlilik olacaksa, belirli kullanım senaryolarına odaklanan küçük modeller için bir pazar oluşup oluşmayacağını merak ediyorum. Gerçekten de Gemini ile görüntülerden yapılandırılmış veri çıkarmada flash modeli çok etkili. NUC ve AMD APU gibi küçük cihazlarda yalnızca belirli kullanım amaçlarını karşılayan hafif modeller üretmek ne kadar emek ister merak ediyorum. Ya da belirli kullanım senaryolarına yönelik mini harici GPU stick benzeri cihazların ortaya çıkma ihtimali de ilginç. Ticari olarak dev bir pazar olmayabilir ama oldukça havalı olurdu
- “Belirli kullanım senaryolarına odaklanan küçük modeller” konusu HN’de zaten önemli bir tartışma başlığı: "Small language models are the future of agentic AI"
- Adlandırılmış varlık çıkarımı için model ararken dslim/bert-base-NER modelini öğrendim. 108 milyon parametresi var
- Bu yönelim zaten “model distillation” adıyla var: büyük LLM’in ürettiği etiketler ve bunlarla çalışan, çıkarımı 1000 kat daha ucuz olan küçük özel model
- USB portuna ASIC takıp Bitcoin kazılan eski günleri hatırlatıyor
Yaptırımların yalnızca geçici bir çözüm olduğunu düşünüyorum. İdeal olarak amaç, yerli kapasiteyi güçlendirmek için zaman kazanmak olmalı; ama bunun yerine ABD içindeki araştırma fonlarının kesilmesi ve yabancı öğrenciyle araştırmacı girişinin baskılanması nedeniyle ABD kapasitesi zayıflarken Çin büyüme patikasına girecek gibi görünüyor
Bu haber birkaç gün eski. Tencent’in hibrit yapay zeka modelini open source yapmasıyla ilgili haber için TechInAsia bağlantısına bakılabilir, GitHub bağlantısı da paylaşılmış
Sic transit gloria nvidii (Nvidia’nın görkemi de böyle geçip gider)
- Dilbilim notu: invidia, Latince’de “kıskançlık” anlamına geliyor
- Beş yıllık Latince çalışmasının işe yaradığı an
- Küçük bir düzeltme ama tekil tamlayan hali nvidiae olmalı. i, o çekimli ek
- Doğru biçim Sic transit gloria nvidiae olur
- Bugün okuduğum en iyi şey, bravo
Çinli bir arkadaşım var. Altı yıl önce Çin’de bir donanım girişiminde kurucu mühendis olarak işe katıldı. Sonra yaptırımlar geldi. Yakın zamanda görüştüğümüzde bunun hayatındaki en iyi şey olduğunu söyledi. Çin’deki yerli şirketler artık Batı menşeli ürünleri hiç satın almaz hale geldiği için şirketleri çok büyümüş. Artık yaptırımlar herkes tarafından “normal” kabul edildiğinden, sonuç yalnızca kendi kendine yeterlilik ve büyümeye odaklanmak olmuş
- Etkinin sektöre göre değiştiği açık. Yaptırımlardan önce Synopsys gibi büyük EDA şirketleri karşısında dev teknik fark nedeniyle zar zor ayakta kalan küçük EDA yazılım şirketleri, şimdi riskten kaçınma talebi sayesinde çok sayıda yeni müşteri kazanıyor. Buna “hormesis” deniyor
Yaptırımlardan sonra bunun ne anlama geldiğini merak ediyorum. Yaptırımlarla ciddi darbe alan Huawei akıllı telefonları, şimdi kendi GPU’suyla geri dönüş fırsatı mı yakalıyor? Bu GPU’ların performansı Batı’daki en yeni GPU’larla kıyaslandığında nasıl? Bu, Huawei’nin artık bu GPU’yu ticarileştirebilecek kapasiteye sahip olduğu anlamına mı geliyor?
- Huawei sanılandan çok daha devasa bir şirket. Sadece 5G baz istasyonlarında değil, telefonlardan elektrikli araçlara kadar pek çok alanda çok büyük
- “Geri dönüş fırsatı” ifadesine karşılık olarak, Huawei’nin telefon satışları Çin’de zaten Apple’ı geçmiş durumda. Ayrıntılı pazar payı verisi bağlantısı
- Donanım tarafında Huawei yeterince rekabetçi telefonlar yapabiliyor. Ancak Google uygulama mağazası olmadan satın almayı gerekçelendirmek zor
- Huawei’nin genel durumunu anlatan YouTube video bağlantısı öneriliyor
TSMC ve Nvidia’ya karşı denge kurabilmek için, node size açısından Huawei ve Çin’in rekabetçi bir konuma gelmesi dünya için gerekli
- Jeopolitik meseleler bir kenara bırakılırsa bu çok iyi bir senaryo olurdu. Ancak yapay zeka çift taraflı bir kılıç ve tüketici alanındaki rekabetin hızla silahlanma yarışına dönüşme ihtimali yüksek. Çin’in üretim gücü ve işçilik maliyetleri düşünüldüğünde sonunda Çin’in galip gelme ihtimali yüksek görünüyor. Ama bunun gerçekleşmesi için önce ASML’in bir eşdeğerinin üretilmesi gerekir; bu da yakın gelecekte gerçekçi görünmüyor
- ABD çip ihracat kısıtlamalarını kaldırsa bile, Çin hükümetinin tersine ithalat kısıtlaması getirmesi muhtemel gibi geliyor. Çünkü Nvidia/TSMC/Apple/Google’a karşı gerçek bir rakip yetiştirmenin getirisi çok daha büyük

Huawei, Ascend GPU üzerinde eğitilmiş açık ağırlıklı modeli yayımladı

Genel bakış

Mixture of Grouped Experts (MoGE) mimarisi tanıtımı

Pangu Pro MoE modeli ve Ascend platform optimizasyonu

Ön eğitim ve eğitim verisi tasarımı

Veri yapısı

Eğitim aşamaları ve stratejileri

Veri değerlendirmesi

Ön eğitim ortamı ve optimizasyonu

Sonraki eğitim aşaması (ince ayar ve pekiştirmeli öğrenme)

Supervised Fine-tuning (SFT)

Pekiştirmeli öğrenme (RL)

Sistem ve altyapı optimizasyonu

Ascend NPU eğitim sistemi

Performans ve benchmark sonuçları

Sonuç ve çıkarımlar

İlgili okumalar

1 yorum

Hacker News görüşleri