2 puan yazan GN⁺ 2025-07-07 | 1 yorum | WhatsApp'ta paylaş
  • Huawei’nin Qwen ve DeepSeek büyük yapay zeka modellerini kopyaladıktan sonra bunları ‘Pangu’ adlı kendi ürünüymüş gibi sunduğuna dair şirket içinden bir ifşa ortaya atıldı
  • Pangu ekibindeki bir çalışanın ifadesine göre, bazı fiili modeller doğrudan geliştirilmeyip dış açık kaynak modellere dayanıyor ve yalnızca adları değiştirilmiş durumda
  • Gerçekten de 135B V2 ve Pro MoE 72B gibi başlıca modellerin Qwen ve DeepSeek’in yapılarıyla önemli ölçüde örtüştüğü teknik olarak ortaya kondu
  • Şirket içinde bu tür uygulamaların araştırmacıların moralini bozduğu ve ekipten ayrılmalara yol açtığı, idari verimsizlik ve şeffaf olmayan insan kaynakları politikalarının da sorunu ağırlaştırdığı belirtildi
  • Gerçek anlamda bağımsız geliştirilen modeller (Pangu V3 gibi) de bulunuyor; ancak klonlama pratiği ve takdir görmeyen araştırma kültürü, organizasyonun genel güvenilirliğinde derin bir yara bıraktı
  • İfşayı yapan kişi, gerçeği kendi adıyla açıklamaya karar verdiğini ve organizasyonu özeleştiri ile değişime çağırdığını söyledi

Pangu’nun trajedisi: Huawei Noah Ark Lab’in Pangu büyük modelinin acı verici iç yüzü

İfşacının tanıtımı ve sahadaki atmosfer

  • Yazar, Huawei Noah Pangu büyük model ekibine bağlı olduğunu, başlıca organizasyon-proje yapısı ile liderlik düzenini şirket içi bilgilerle eşleştirerek kimliğini doğruladığını belirtiyor
  • Pangu projesi gerçekte bir araştırma organizasyonundan çok bir teslimat organizasyonuna yakındı; tekrar eden teslim tarihleri, aşırı çalışma, bitmek bilmeyen değerlendirme ve raporlama baskısıyla yürütülüyordu
  • İş yükü ve bürokrasi son derece ağırdı; aileden uzun süre ayrı kalınan lojman hayatı ve sık hafta sonu çalışmaları yaşanıyordu
  • Fiiliyatta araştırmanın özerkliği ve yaratıcılığından çok, her ürün hattının (Cloud, ICT vb.) teslim tarihi ve performansına odaklanan şirket kültürü hakimdi

Uykusuz geceler, ezilen yaratıcılık bilinci

  • Qwen modeline yönelik intihal tartışmasının ardından bazı araştırmacılar aynı anda utanç, öfke ve çaresizlik hissetti
  • İfşacı, dev bir şirketten ve şirket içi ağların misillemesinden korktuğunu; ancak daha fazla gerçeği gizlemeye ve dışarıya yalan tanıtım yapmaya dayanamadığı için vicdani bir itirafta bulunmaya karar verdiğini söylüyor

Teknik zorluklar ve intihalin başlangıcı

  • İlk Pangu modeli, Huawei Ascend NPU üzerinde bağımsız eğitim denemeleri yaptı; ancak tokenizer verimliliği ve model performansındaki yetersizlik gibi ciddi deneme-yanılma sorunları yaşadı
  • Rakiplerin (Alibaba, Zhipu) GPU tabanlı modellerinin gerisinde kalındı ve şirketin kendi 230B dense model eğitim girişimi başarısızlıkla sonuçlandı
  • Bunun üzerine küçük model laboratuvarı, bunu “bağımsız geliştirme” diye sundu; gerçekte ise Qwen-1.5 (110B) modelini klonlayıp küçük değişiklikler ekleyerek 135B V2 üretti ve dağıttı; şirket içinde de kod ve yapı benzerliği ortaya çıktı
  • Başlıca liderlik kadrosu ve yöneticiler bu durumu bilmelerine rağmen, dış performans ve sonuç baskısını gerekçe göstererek buna göz yumdu

Gerçek teknik başarı: Pangu V3

  • Ekip, büyük bir çabanın ardından tamamen sıfırdan kendi geliştirdiği Pangu V3 (135B Ultra) modelini Ascend üzerinde bağımsız olarak eğitti
  • Tokenizer birliği, loss eğrisinin istikrara kavuşturulması gibi çeşitli teknik zorluklar aşıldı ve rakiplere benzer bir performans elde edildi
  • Bu başarı, intihalin değil özgün büyük model geliştirme yeteneğinin kanıtıydı ve araştırmacıların gurur kaynağı oldu

İş bölümünün arkasındaki takdir görmeyen emek

  • Küçük model laboratuvarı sürekli olarak veri, kod ve çıktıları alıp modelleri kolayca değiştirerek/dağıttı; başarı ve ödüller ise çoğunlukla bu organizasyona gitti
  • Bunun sonucunda özverili araştırmacılar organizasyondan ayrıldı ya da bunu kariyerlerinde silinmeyecek bir leke olarak gördüklerini ironik biçimde dile getirdi

224B MoE/718B klonu gibi ikinci intihal vakaları

  • Yeni 718B MoE modelinin geliştirilmesi sürecinde de, DeepSeekv3 neredeyse olduğu gibi klonlanıp ardından Pangu Pro MoE 72B adıyla dağıtıldı
  • Şirket içinde bu tür uygulamalar biliniyordu; ancak herkesin kendi hayatta kalma kaygısı ve gerçeği ifşa etme korkusu nedeniyle üstü örtülen bir atmosfer hakimdi

Çarpık idari yönetim

  • Gerçek araştırmacılara sıkı süreç, model soy ağacı ve denetim sistemi uygulanıyor, bu da geliştirme hızını yavaşlatıyordu
  • Ancak klon modeller söz konusu olduğunda “yukarıdan gelirse her şey geçer” anlayışına dayanan çifte standart kökleşmiş durumdaydı

İfşanın nedeni ve istifa kararı

  • HonestAGI olayının ardından şirket çapında kriz yönetimi ve iç örtbas girişimleri başladı
  • İfşacı, “sahte raporlara” ve şirket içi ortaklığa artık katılamayacağını belirterek ekip listeleri ile raporlardan adının çıkarılmasını ve gönüllü ayrılma niyetini açıkladı

Son çağrı ve çalışma arkadaşlarına duyulan bağlılık

  • Çalışma arkadaşlarının ByteDance, DeepSeek, Tencent, Kuaishou gibi başka şirketlere geçmesi, Huawei’de ciddi bir yetenek kaybı yaşandığını gösteriyor
  • İnovasyon, uygun ortam ve daha az siyasi engel olsaydı dünya seviyesinde büyük model ve çip geliştirme başarısının da mümkün olacağı vurgulandı
  • Yazar, bu anlatılanların doğruluğu ve ek ifşalar nedeniyle kendisi ile ailesinin güvenliğinin tehdit altına girebileceğini bilse de bunu göze aldığını ifade etti

Ek durum açıklamaları

  • 135B V2 klon vakasında küçük model laboratuvarı ödül ve teşvik gibi faydaları toplarken, downstream destek ve bakım yükü asıl geliştirme ekibine (4th brigade) yıkıldı
  • Pangu teknik raporunun yazar listesinde de, model geliştirmeye kritik katkı sunan kişiler dışlanırken küçük model laboratuvarından katkı sunmamış kişilerin dahil edilmesi gibi adaletsiz akademik uygulamaların yaygın olduğu belirtildi

1 yorum

 
GN⁺ 2025-07-07
Hacker News yorumu
  • Orijinal yazının yazarının biraz saf bir bakış açısı sergilediğini düşünen bir görüş. Ascend ekibi başlangıçta (1. nesil 910A NPU ölçütünde) Nvidia'ya kıyasla performans olarak gerideydi ve bu gayet doğal bir sonuçtu. Yönetim, hemen ticarileştirilebilecek GPU tabanlı alternatifi takip eden ekibi destekledi ve şirket içi siyaset bu yönü kalıcı hale getirdi. Ascend ekibi sonunda teknik sorunları çözmeyi başardı, ancak adaletsiz muamele, bürokratik kayırma ve takdir eksikliği gibi nedenlerle birçok üye ya tükendi ya da diğer Çinli yapay zeka şirketlerine geçti. HW'nin (muhtemelen Huawei) uzun süredir 1. kademe yetenekleri aşırı çalıştırmaya dayalı bir strateji ve kültürü vardı; 90'larda da Çin telekom şirketleri Nortel, Siemens ve Lucent'ten yetenek çekiyordu, ancak Batı tarzı iş kültürüne alışkın Çin kökenli çalışanlar gerçek Çin şirket kültürüne uyum sağlamakta zorlanıp tükeniyordu. Buna rağmen HW, agresif çalışma kültürü sayesinde sonunda sektöre hakim oldu. Şimdi ise yaptırımlar sonrası stratejik bir şirket haline gelerek yarı iletkenler, yerli çipler ve yapay zeka sayesinde değeri büyük ölçüde arttı. Mevcut uluslararası ortamda HW, pazar hakimiyeti için ne gerekiyorsa yapabilecek bir konum elde etmiş durumda. Bu istifa mektubuna bakılırsa HW, sonunda yeterli insan gücü yatırımıyla Ascend'i çalışır seviyeye getirmiş ve ileride Nvidia ile rekabet edecek kadar daha fazla yeteneğe yatırım yapması mümkün. Yazar gibi çoğu çalışan da personele adil ücret ve iyi çalışma koşulları sağlanmasının zorunlu olduğu yönünde sezgisel bir görüşe sahip. Ama HW son 30 yıldır çok sayıda zeki insana (vatanseverler dahil) devasa maaşlar verip onları sorun çözmeye koşturuyor, insanlar tükenene kadar yüklüyor ve bu şekilde kazanıyor
  • LLM'lerin yapısı telif hakkıyla hiç uyumlu değil. Zaten başkalarının verileriyle tek kuruş ödemeden eğitim yapılabiliyorsa, kopyalamanın da serbest olduğu mantığı devreye giriyor. Sonuçta bunun kopyalamanın bumerang etkisi olduğu görüşü var
    • Safça bakıldığında uyumsuz görünüyor ama avukatların bir şekilde bunu yasallaştırmanın yolunu bulacağı düşünülüyor
  • Geçmişte harita yayıncıları telif ihlalini kolayca tespit etmek için sahte sokaklar eklerdi. Bunun LLM'lere de uygulanıp uygulanamayacağı merak ediliyor
    • Malwarebytes'ta çalışırken IOBit'in DB'yi çaldığından şüphelenilmişti. Açık kanıt vardı, ancak sıradan insanların da kolayca anlayabilmesi için yalnızca tek bir makinede var olan yeni bir program üretildi ve onun imzası DB'ye eklendi. Bu program gerçekte dağıtılamayacak zararsız bir örnekti; karşı taraf bunu DB'ye ekleyince blogda yayımlandı ve büyük yankı uyandırdı. İlgili vaka: IOBit hırsızlık olayı
    • Temsilî örneklerden biri, bilgisayar çiplerine kasıtlı olarak çok küçük ve zararsız kusurlar ya da anomaliler yerleştirme yöntemi. Çin'in ürettiği pek çok ürün TI gibi başka şirketlerin tersine mühendislik sonuçları olduğundan bu tür kusurlar sık görülüyor. Hatta Çin içinde bile birbirlerine karşı bunu yapıyorlar. Herkes bunu aynı tür bir kısa yol olarak görüyor
    • OML 1.0: Fingerprinting adlı proje örneğini görmüş biri var. Bu, LLM sahipliğini tespit etmek ve yetkisiz kullanımı önlemek için modele parmak izi yerleştiren bir araç
    • YouTuber Jay Foreman'ın haritalardaki sahte sokaklarla ilgili videosu örnek veriliyor
    • Orijinal Çince ihbar yazısında şu ifade yer alıyordu: Honestagi analizinin, çok uzun ek eğitimden geçmiş bir model olmasına rağmen yüksek benzerlik göstermesi şaşırtıcıydı. Bu modelin parametrelerini aklamak için harcanan hesaplama kaynağı, aynı seviyede yeni bir model üretmeye yetecek düzeydeydi. Bir meslektaşın anlattığına göre Qwen'in watermark'ını silmek için kirli verilerle kasıtlı eğitim yapmak dahil çeşitli denemeler de yapılmış. Bu yöntem ileride model soy araştırmaları alanında emsalsiz bir vaka olarak kalacak ve yeni araştırma metodolojilerini doğrularken örnek olarak kullanılabilecek
  • Apple, Qwen2.5-Coder-7B'yi temel alıp kendi fikirlerini eklediği bir LLM sundu. Başlıca değişiklik, Apple'ın kendi kod örnekleriyle özel eğitim verilmiş olması; sıcaklık artırıldığında birden fazla kod bloğunu sırayı önemsemeden üretebiliyor. İlgili haberler: Apple LLM haberi HN tartışması
  • Çin usulü verimlilik vurgusu. Batı'nın geçmişten kalan telif yasalarına takılıp kaldığı görüşü dile getiriliyor
  • Çok insani ve dürüst bir rapor olduğu söyleniyor. Büyük şirket içindeki kaosu ve yönetimin dürüst olmayan ekiplere daha avantajlı baskı uyguladığı yapıyı gösteriyor. Yazarı şirketten ayrılmış ve iyi karakterli biri olarak değerlendiriliyor
    • Aslında bu raporun, son dönemde Çin'de art arda çıkan diğer istifa mektuplarıyla birlikte okunması gerektiği söyleniyor. Yakın zamanda 15 yıllık bir Alibaba çalışanının istifa yazısı da büyük şirket kültüründeki çöküşün rekabet gücü kaybı ve yeni ürün başarısızlıklarının nedeni olduğunu eleştiriyordu. Raporun odak noktaları şöyle özetleniyor: 1. Huawei'nin yetenekleri hakkında ulusal ölçekte yanlış beyanlar 2. Ücretli müşterilere yönelik yanlış beyanlar 3. KPI takıntılı yönetim sistemi altında performans göstergelerinin manipüle edilmesinin fiilen hoş görülmesi ya da teşvik edilmesi (ve yazarın idealleriyle güven kaybının raporun özü olması)
  • "Cumartesi aslında bir iş günüydü ama bazen öğleden sonra çay saati, hatta karides yemeği bile oluyordu" cümlesinde şiirsel bir duygu bulanlar var. Bu durumda kerevit servis edilmesinin özel bir nedeni olup olmadığı merak ediliyor
    • "Cumartesi çalışmasına rağmen bazen atıştırmalık dağıtılıyordu ve kerevit de o kadar popüler olabilir, ya da çeviri hatası olabilir" diye tahmin ediliyor
  • "Biz 'Dördüncü Saha Ordusu' projesine bağlıyız; çekirdek dil LLM'i 4. tugay, Wang Yunhe'nin küçük model grubu ise 16. tugay" şeklindeki organizasyon açıklaması insanlara garip geliyor. Bunun gerçekten Komünist Parti ordusuna bağlı bir yapı olup olmadığı sorgulanıyor
    • Gerçek Dördüncü Saha Ordusu'nun 1955'ten sonra artık var olmadığı, bunun LLM projesi için kullanılan bir kod adı olabileceği görüşü var
    • Huawei'nin askeri tarz şirket kültüründen söz ediliyor. Yeni çalışan oryantasyonu bile askeri eğitim mezuniyet töreni gibi yürütülüyor. Kaynak: Huawei'nin askeri tarz kültürü
  • Asıl temel modeli gerçekte kimin yaptığı sorusu gündeme getiriliyor
  • Geçmişte bir Huawei Lab üyesinin model eğitimini gerçekten sabote ettiği ve sonrasında kovulduğu bir vaka olduğu, bunun da bu ihbarı yapan kişi olabileceği düşünülüyor
    • Muhtemelen kastedilen olay, bir ByteDance stajyerinin yapay zeka modellerine kötü amaçlı kod yerleştirdikten sonra kovulması vakası. İlgili haber: bytedance-intern-fired