Rio de Janeiro’nun “kurum içinde geliştirildiği” söylenen LLM’si mevcut modellerin birleştirilmiş hali gibi görünüyor
(github.com/nex-agi)- GitHub durumu Open ve a778c1ec4e21180ee55c3ea016a348e549e75f09 README metninde modelin
Nex-N2-ProileQwen3.5-397B-A17Bbirleştirilerek oluşturulduğu, daha güçlü modelin On-Policy Distillation sürecinden geçtiği ve önceki sürümde nihai distilled model yerine base merged version’ın yanlışlıkla yüklendiğinin yazdığı belirtiliyor - Temel itiraz,
prefeitura-rio/Rio-3.5-Open-397Bmodelinin IplanRIO tarafından eğitilmiş özgün bir 397B model olarak sunulmasına rağmen, ağırlıklarının Nex ve Qwen’in yaklaşık 0.6/0.4 doğrudan eleman bazlı birleştirmesi olması ve kuruma ait eğitim yapıldığına dair kanıt bulunmaması - Sabit kodlanmış “You are Rio” sistem promptu kaldırılıp
rio-397bmodeline 120 kimlik sorusu gönderildiğinde,Nexyanıtı %79.2(95/120),Nex-AGIyanıtı %73.3(88/120),Rioyanıtı ise %0.0(0/120)olarak ölçüldü - Prompt kaldırılmış durumdaki yanıt örneklerinde “I am Nex, from Nex-AGI”, “Nex-AGI is a large-model ecosystem alliance” ve “Shanghai Innovation Institute” ifadeleri yer aldı; bu ifadelerin Nex kimlik verilerindeki kuruluş açıklamasını neredeyse aynen yeniden ürettiği aktarıldı
- Ağırlık analizi,
(Rio − Qwen) = α × (Nex − Qwen)ilişkisini tensor bazında ölçtü ve bağımsız modellerdecos_fitdeğerinin≈ 0, birleştirilmiş modellerde ise≈ 1olmasını ölçüt alarak collinearity karşılaştırması yaptı - Ölçüm sonuçları routed experts için
α = 0.571 ± 0.0016,cos_fit = 0.993;lm_headiçinα = 0.574,cos_fit = 0.991; attention içinα ≈ 0.585,cos_fit ≈ 0.986; linear-attention projections için iseα ≈ 0.586,cos_fit ≈ 0.984olarak verildi - README düzeltmesinin paylaşılmasının ardından 00INDEX, bunun söz konusu atfın bir saat önce güncellenmiş olduğu anlamına gelip gelmediğini sordu; yhcc ise ertesi gün modele neyin yükleneceğinin görülmesi gerektiği yönünde tepki verdi
- Kamu fonu kullanılıp kullanılmadığı ayrı bir tartışma başlığına dönüştü; bir yorumda “No public funds were used” yazan bir X bağlantısı paylaşılırken, başka bir yorumda belediye başkanının açıklamasını içeren bir X bağlantısı verildi; daha sonra paylaşılan alıntı görselinde “no public money was spent on this model training” ifadesi yer aldı
1 yorum
Hacker News yorumları
Bir kuruma bağlı değilim ama olan biten bana şöyle görünüyor: 1) Resmî modelin Qwen 397B tabanlı olduğu iddia edildi ve Nex de aynı taban modeli kullandığı için Nex Pro’nun hiç açıklanmamış olması muhtemel 2) iyileştirmenin, ağırlık birleştirmeye on-policy distillation eklenmesiyle gelmiş olması gerekirdi, ancak yüklenen modelde hiç distillation olmadığı için kafa karışıklığı çıktı
3) Bu model, iki gün önce Reddit’e yüklenmesi dışında tanıtılmadı ve hafta sonunda Brezilya’nın Dünya Kupası’ndaki ilk maçıyla çakışınca doğal biçimde yayıldı. Rio belediye başkanının ücretsiz görünürlüğü kullandığı doğru ama bunu araştırmacılarla birlikte yapmadı
4) Eğer sadece iki model birleştirildiyse, Qwen 397B tabanlı olarak yayımlayıp hatta SwiReasoning makalesinden de bahsederken sadece Nex’i gizlemek için bir neden varmış gibi görünmüyor
5) Her hâlükârda doğru model yüklenirse bu iddia kolayca doğrulanabilir
Gerçekten daha yüksek performanslı modeli “yanlışlıkla” yükleyemedilerse, şu ana kadar doğru dosyayı yükleyebilirlerdi
Rio’nun yüklenicisi iddia edildiği gibi kendi post-training’ini yaptıysa bunun nasıl mümkün olduğu şüpheli: https://x.com/tenobrus/status/2066243352211996728/photo/1
“Rio’daki tüm ağırlık tensörleri, binlerce standart sapma düzeyinde Nex ve Qwen’in 0.6/0.4 karışımıyla aynı ve bu 60 katman ile ağın tüm bileşenlerinde geçerli. Başka bir fine-tuning interpolasyonla açıklanamaz” kısmına bakınca, günümüz derin öğrenme modellerinin sağlamlığı şaşırtıcı
Tüm ağırlıkları basitçe doğrusal olarak birleştirmişler ama performans bozulmak yerine hatta artmış deniyor
Sonuçta düğmeleri rastgele çevirip benchmark’ta bir kez daha iyi sonuç çıkınca yayımlama oyunu. HuggingFace’te belirli testlerde daha iyi görünen çok sayıda fine-tune model ve chimera model var ama başka kullanım amaçlarında genelde daha kötü oluyorlar
Sansürü kaldırmak için değiştirilmiş modellerde de bu sık görülüyor. Önceden sansürlenen çıktıları üretmeyi başarıyorlar ama genel çıktı kalitesi düşüyor
Farklı pretraining geçmişine sahip iki LLM’de bu yöntemin işe yarayacağını sanmıyorum. İşe yarasa bile iç aktivasyon biçimlerinin, boyutların, expert sayısının ve token sözlüğünün tam olarak aynı olması gerekir; bu yüzden pratikte fine-tuning ya da akademik deneyler dışında neredeyse hiç görülmez
O kadar iyi çalışıyor ki birçok durumda eğitim sürecinin açık bir parçası hâline geliyor. Birden fazla eğitim dalı oluşturup bunları birleştiriyor, ardından eğitime devam ediyorsunuz
Neden bu kadar iyi çalıştığı ise hâlâ anlaşılmış değil
Yine de bu kadar basit bir yöntemin çalışması hâlâ şaşırtıcı
Rio de Janeiro belediyesi, IT şirketi IplanRIO aracılığıyla Rio-3.5-Open-397B modelini yayımladı ve bunu, benzer açık modelleri benchmark’larda geçen, kendi geliştirdiği bir Qwen3.5 fine-tune modeli olarak tanıttı
Bağlantı verilen issue ise bunun gerçekte, yaklaşık 1 hafta önce yayımlanan Nex-N2 de dahil olmak üzere, yaklaşık %60 Nex-N2 Pro + yaklaşık %40 Qwen3.5-397B-A17B ağırlık birleşimi olduğunu düşünüyor
Vergi israfı gibi görünüyor
Birilerinin kaynak göstermeden başkalarının emeğinden kâr sağladığını duymak, ne büyük sürpriz!
Tartışmanın özü, sonucu iyileştiren bir post-training yaptıklarını iddia ederek yayımlamış olmaları. Ama gerçekte yüklenen modelin iddia edildiği gibi post-training uygulanmış model olmadığı ortaya çıktı
Şu anda HuggingFace sayfasında bunun bir model merge olduğu yazıyor ama önce yoktu. Bunlar yanlış modeli yanlışlıkla HuggingFace’e yüklediklerini ve yakında gerçek modeli yükleyeceklerini iddia etmeye hazırlanıyorlar
Özetle, iki açık ağırlıklı modeli birleştirip ekibin olağanüstü bir post-training başarısı gösterdiğini iddia edebileceklerini sandılar ama diğer araştırmacıların, aslında post-training olmadığını anlayacak kadar zeki olduğunu hesaba katmadılar
Eğer kastedilen, gerçek ürüne giren emeğin %0.00001’ini yapmış olmalarıysa, o zaman evet
Bu, Linux dağıtımını fork’layıp birkaç tema ve font ekledikten sonra bir başkasının o dağıtımı tekrar fork’layıp başka bir tema eklemesinden şikâyet etmeye daha çok benziyor
Birleştirilmiş bir modeli yayımlamadan bunu “kendi geliştirdikleri” diye yeniden markalama eğilimi endişe verici.
Bu, açık kaynak yapay zeka geliştirmeye duyulan güveni zedeliyor; bu yüzden model yayımlarında daha iyi kaynak izlenebilirliği ve şeffaflık standartlarına ihtiyaç var.
Model birleştirmenin nasıl çalıştığını anlatan bir açıklama ya da bağlantı olsa iyi olurdu.
Gerçekten ağırlıkların matematiksel olarak birleştirilmesi mi, yoksa damıtma gibi bir yöntem mi olduğunu merak ediyorum. Yazıdaki gibi hiç eğitim yapılmadıysa muhtemelen damıtma değildir.
Genel olarak birleştirme, farklı modellerin ağırlıklarını doğrudan matematiksel olarak karıştırma tekniğini ifade eder. Yaklaşık 2 yıl önce çok popülerdi ve sıralama listelerinde çok sayıda sözde Frankenmodel görünüyordu.
Ben kişisel olarak birleştirmeyi, “abliteration” gibi şeylerle aynı kategoride görüyorum. Bunlar, geleneksel eğitim/ince ayar döngüsü olmadan model ağırlıklarını cerrahi biçimde değiştiren teknikler. Bu alan ilgini çekiyorsa Maxime Labonne takip etmeye değer.
Model A: A_1, …, A_n
Model B: B_1, …, B_n
C_i = A_i * p + B_i * (1 - p)
Yani yapılan şey, farklı modellerin ağırlıklarını konum bazında doğrusal olarak birleştirmekten ibaret.
En başta model yapmayı denemiş olmaları bile şaşırtıcı.
Yine de belediyenin BT departmanının buna kalkışacak cesareti göstermiş olması olumlu bir işaret olabilir.
“Şey, Steve(Jobs), bence bu daha çok ikimizin de Xerox adında zengin bir komşusu olduğu ve ben eve girip televizyonu çalmaya çalıştığımda senin onu benden önce çaldığını fark ettiğim bir duruma benziyor.”
— Bill Gates
Sonu daha da ilginç: “Apple, 1988’de Microsoft’a karşı büyük bir telif hakkı davası açtı, ancak sonunda teknik gerekçelerle kaybetti. Yargıç, Apple’ın Kasım 1985’te Mac kullanıcı arayüzü için Microsoft’a dikkatsizce kalıcı lisans verdiğine hükmetti.”
Microsoft, Apple’ın GUI’sini çalmadı; Apple onu adeta teslim etti.