- Huawei’nin Qwen ve DeepSeek büyük yapay zeka modellerini kopyaladıktan sonra bunları ‘Pangu’ adlı kendi ürünüymüş gibi sunduğuna dair şirket içinden bir ifşa ortaya atıldı
- Pangu ekibindeki bir çalışanın ifadesine göre, bazı fiili modeller doğrudan geliştirilmeyip dış açık kaynak modellere dayanıyor ve yalnızca adları değiştirilmiş durumda
- Gerçekten de 135B V2 ve Pro MoE 72B gibi başlıca modellerin Qwen ve DeepSeek’in yapılarıyla önemli ölçüde örtüştüğü teknik olarak ortaya kondu
- Şirket içinde bu tür uygulamaların araştırmacıların moralini bozduğu ve ekipten ayrılmalara yol açtığı, idari verimsizlik ve şeffaf olmayan insan kaynakları politikalarının da sorunu ağırlaştırdığı belirtildi
- Gerçek anlamda bağımsız geliştirilen modeller (Pangu V3 gibi) de bulunuyor; ancak klonlama pratiği ve takdir görmeyen araştırma kültürü, organizasyonun genel güvenilirliğinde derin bir yara bıraktı
- İfşayı yapan kişi, gerçeği kendi adıyla açıklamaya karar verdiğini ve organizasyonu özeleştiri ile değişime çağırdığını söyledi
Pangu’nun trajedisi: Huawei Noah Ark Lab’in Pangu büyük modelinin acı verici iç yüzü
İfşacının tanıtımı ve sahadaki atmosfer
- Yazar, Huawei Noah Pangu büyük model ekibine bağlı olduğunu, başlıca organizasyon-proje yapısı ile liderlik düzenini şirket içi bilgilerle eşleştirerek kimliğini doğruladığını belirtiyor
- Pangu projesi gerçekte bir araştırma organizasyonundan çok bir teslimat organizasyonuna yakındı; tekrar eden teslim tarihleri, aşırı çalışma, bitmek bilmeyen değerlendirme ve raporlama baskısıyla yürütülüyordu
- İş yükü ve bürokrasi son derece ağırdı; aileden uzun süre ayrı kalınan lojman hayatı ve sık hafta sonu çalışmaları yaşanıyordu
- Fiiliyatta araştırmanın özerkliği ve yaratıcılığından çok, her ürün hattının (Cloud, ICT vb.) teslim tarihi ve performansına odaklanan şirket kültürü hakimdi
Uykusuz geceler, ezilen yaratıcılık bilinci
- Qwen modeline yönelik intihal tartışmasının ardından bazı araştırmacılar aynı anda utanç, öfke ve çaresizlik hissetti
- İfşacı, dev bir şirketten ve şirket içi ağların misillemesinden korktuğunu; ancak daha fazla gerçeği gizlemeye ve dışarıya yalan tanıtım yapmaya dayanamadığı için vicdani bir itirafta bulunmaya karar verdiğini söylüyor
Teknik zorluklar ve intihalin başlangıcı
- İlk Pangu modeli, Huawei Ascend NPU üzerinde bağımsız eğitim denemeleri yaptı; ancak tokenizer verimliliği ve model performansındaki yetersizlik gibi ciddi deneme-yanılma sorunları yaşadı
- Rakiplerin (Alibaba, Zhipu) GPU tabanlı modellerinin gerisinde kalındı ve şirketin kendi 230B dense model eğitim girişimi başarısızlıkla sonuçlandı
- Bunun üzerine küçük model laboratuvarı, bunu “bağımsız geliştirme” diye sundu; gerçekte ise Qwen-1.5 (110B) modelini klonlayıp küçük değişiklikler ekleyerek 135B V2 üretti ve dağıttı; şirket içinde de kod ve yapı benzerliği ortaya çıktı
- Başlıca liderlik kadrosu ve yöneticiler bu durumu bilmelerine rağmen, dış performans ve sonuç baskısını gerekçe göstererek buna göz yumdu
Gerçek teknik başarı: Pangu V3
- Ekip, büyük bir çabanın ardından tamamen sıfırdan kendi geliştirdiği Pangu V3 (135B Ultra) modelini Ascend üzerinde bağımsız olarak eğitti
- Tokenizer birliği, loss eğrisinin istikrara kavuşturulması gibi çeşitli teknik zorluklar aşıldı ve rakiplere benzer bir performans elde edildi
- Bu başarı, intihalin değil özgün büyük model geliştirme yeteneğinin kanıtıydı ve araştırmacıların gurur kaynağı oldu
İş bölümünün arkasındaki takdir görmeyen emek
- Küçük model laboratuvarı sürekli olarak veri, kod ve çıktıları alıp modelleri kolayca değiştirerek/dağıttı; başarı ve ödüller ise çoğunlukla bu organizasyona gitti
- Bunun sonucunda özverili araştırmacılar organizasyondan ayrıldı ya da bunu kariyerlerinde silinmeyecek bir leke olarak gördüklerini ironik biçimde dile getirdi
224B MoE/718B klonu gibi ikinci intihal vakaları
- Yeni 718B MoE modelinin geliştirilmesi sürecinde de, DeepSeekv3 neredeyse olduğu gibi klonlanıp ardından Pangu Pro MoE 72B adıyla dağıtıldı
- Şirket içinde bu tür uygulamalar biliniyordu; ancak herkesin kendi hayatta kalma kaygısı ve gerçeği ifşa etme korkusu nedeniyle üstü örtülen bir atmosfer hakimdi
Çarpık idari yönetim
- Gerçek araştırmacılara sıkı süreç, model soy ağacı ve denetim sistemi uygulanıyor, bu da geliştirme hızını yavaşlatıyordu
- Ancak klon modeller söz konusu olduğunda “yukarıdan gelirse her şey geçer” anlayışına dayanan çifte standart kökleşmiş durumdaydı
İfşanın nedeni ve istifa kararı
- HonestAGI olayının ardından şirket çapında kriz yönetimi ve iç örtbas girişimleri başladı
- İfşacı, “sahte raporlara” ve şirket içi ortaklığa artık katılamayacağını belirterek ekip listeleri ile raporlardan adının çıkarılmasını ve gönüllü ayrılma niyetini açıkladı
Son çağrı ve çalışma arkadaşlarına duyulan bağlılık
- Çalışma arkadaşlarının ByteDance, DeepSeek, Tencent, Kuaishou gibi başka şirketlere geçmesi, Huawei’de ciddi bir yetenek kaybı yaşandığını gösteriyor
- İnovasyon, uygun ortam ve daha az siyasi engel olsaydı dünya seviyesinde büyük model ve çip geliştirme başarısının da mümkün olacağı vurgulandı
- Yazar, bu anlatılanların doğruluğu ve ek ifşalar nedeniyle kendisi ile ailesinin güvenliğinin tehdit altına girebileceğini bilse de bunu göze aldığını ifade etti
Ek durum açıklamaları
- 135B V2 klon vakasında küçük model laboratuvarı ödül ve teşvik gibi faydaları toplarken, downstream destek ve bakım yükü asıl geliştirme ekibine (4th brigade) yıkıldı
- Pangu teknik raporunun yazar listesinde de, model geliştirmeye kritik katkı sunan kişiler dışlanırken küçük model laboratuvarından katkı sunmamış kişilerin dahil edilmesi gibi adaletsiz akademik uygulamaların yaygın olduğu belirtildi
1 yorum
Hacker News yorumu