1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • GitHub durumu Open ve a778c1ec4e21180ee55c3ea016a348e549e75f09 README metninde modelin Nex-N2-Pro ile Qwen3.5-397B-A17B birleştirilerek oluşturulduğu, daha güçlü modelin On-Policy Distillation sürecinden geçtiği ve önceki sürümde nihai distilled model yerine base merged version’ın yanlışlıkla yüklendiğinin yazdığı belirtiliyor
  • Temel itiraz, prefeitura-rio/Rio-3.5-Open-397B modelinin IplanRIO tarafından eğitilmiş özgün bir 397B model olarak sunulmasına rağmen, ağırlıklarının Nex ve Qwen’in yaklaşık 0.6/0.4 doğrudan eleman bazlı birleştirmesi olması ve kuruma ait eğitim yapıldığına dair kanıt bulunmaması
  • Sabit kodlanmış “You are Rio” sistem promptu kaldırılıp rio-397b modeline 120 kimlik sorusu gönderildiğinde, Nex yanıtı %79.2 (95/120), Nex-AGI yanıtı %73.3 (88/120), Rio yanıtı ise %0.0 (0/120) olarak ölçüldü
  • Prompt kaldırılmış durumdaki yanıt örneklerinde “I am Nex, from Nex-AGI”, “Nex-AGI is a large-model ecosystem alliance” ve “Shanghai Innovation Institute” ifadeleri yer aldı; bu ifadelerin Nex kimlik verilerindeki kuruluş açıklamasını neredeyse aynen yeniden ürettiği aktarıldı
  • Ağırlık analizi, (Rio − Qwen) = α × (Nex − Qwen) ilişkisini tensor bazında ölçtü ve bağımsız modellerde cos_fit değerinin ≈ 0, birleştirilmiş modellerde ise ≈ 1 olmasını ölçüt alarak collinearity karşılaştırması yaptı
  • Ölçüm sonuçları routed experts için α = 0.571 ± 0.0016, cos_fit = 0.993; lm_head için α = 0.574, cos_fit = 0.991; attention için α ≈ 0.585, cos_fit ≈ 0.986; linear-attention projections için ise α ≈ 0.586, cos_fit ≈ 0.984 olarak verildi
  • README düzeltmesinin paylaşılmasının ardından 00INDEX, bunun söz konusu atfın bir saat önce güncellenmiş olduğu anlamına gelip gelmediğini sordu; yhcc ise ertesi gün modele neyin yükleneceğinin görülmesi gerektiği yönünde tepki verdi
  • Kamu fonu kullanılıp kullanılmadığı ayrı bir tartışma başlığına dönüştü; bir yorumda “No public funds were used” yazan bir X bağlantısı paylaşılırken, başka bir yorumda belediye başkanının açıklamasını içeren bir X bağlantısı verildi; daha sonra paylaşılan alıntı görselinde “no public money was spent on this model training” ifadesi yer aldı

1 yorum

 
GN⁺ 4 시간 전
Hacker News yorumları
  • Bir kuruma bağlı değilim ama olan biten bana şöyle görünüyor: 1) Resmî modelin Qwen 397B tabanlı olduğu iddia edildi ve Nex de aynı taban modeli kullandığı için Nex Pro’nun hiç açıklanmamış olması muhtemel 2) iyileştirmenin, ağırlık birleştirmeye on-policy distillation eklenmesiyle gelmiş olması gerekirdi, ancak yüklenen modelde hiç distillation olmadığı için kafa karışıklığı çıktı
    3) Bu model, iki gün önce Reddit’e yüklenmesi dışında tanıtılmadı ve hafta sonunda Brezilya’nın Dünya Kupası’ndaki ilk maçıyla çakışınca doğal biçimde yayıldı. Rio belediye başkanının ücretsiz görünürlüğü kullandığı doğru ama bunu araştırmacılarla birlikte yapmadı
    4) Eğer sadece iki model birleştirildiyse, Qwen 397B tabanlı olarak yayımlayıp hatta SwiReasoning makalesinden de bahsederken sadece Nex’i gizlemek için bir neden varmış gibi görünmüyor
    5) Her hâlükârda doğru model yüklenirse bu iddia kolayca doğrulanabilir

      1. maddeyle ilgili olarak https://news.ycombinator.com/item?id=48529544 var
    • HN’de Rio de Janeiro’nun kendi LLM’i başlığını göreceğimi gerçekten hiç düşünmezdim; olayın kendisi bile şaşırtıcı
    • Eğer taban model başka bir laboratuvarın ince ayar yapılmış modeliyle birleştirildiyse, iyileşme o diğer modelin ince ayarlanmış ağırlıklarının bir kısmından gelmiş olabilir
      Gerçekten daha yüksek performanslı modeli “yanlışlıkla” yükleyemedilerse, şu ana kadar doğru dosyayı yükleyebilirlerdi
    • Dünya Kupası debut’u tam olarak ne demek anlamadım. Brezilya zaten 5 kez şampiyon olmadı mı?
    • Benim anladığım kadarıyla hiç distillation yapılmadı ve tüm ağırlıklar Qwen ile Nex’in 60/40 eleman bazlı ortalaması
      Rio’nun yüklenicisi iddia edildiği gibi kendi post-training’ini yaptıysa bunun nasıl mümkün olduğu şüpheli: https://x.com/tenobrus/status/2066243352211996728/photo/1
  • “Rio’daki tüm ağırlık tensörleri, binlerce standart sapma düzeyinde Nex ve Qwen’in 0.6/0.4 karışımıyla aynı ve bu 60 katman ile ağın tüm bileşenlerinde geçerli. Başka bir fine-tuning interpolasyonla açıklanamaz” kısmına bakınca, günümüz derin öğrenme modellerinin sağlamlığı şaşırtıcı
    Tüm ağırlıkları basitçe doğrusal olarak birleştirmişler ama performans bozulmak yerine hatta artmış deniyor

    • Bazı benchmark’larda daha iyi olduğu söylenebilir
      Sonuçta düğmeleri rastgele çevirip benchmark’ta bir kez daha iyi sonuç çıkınca yayımlama oyunu. HuggingFace’te belirli testlerde daha iyi görünen çok sayıda fine-tune model ve chimera model var ama başka kullanım amaçlarında genelde daha kötü oluyorlar
      Sansürü kaldırmak için değiştirilmiş modellerde de bu sık görülüyor. Önceden sansürlenen çıktıları üretmeyi başarıyorlar ama genel çıktı kalitesi düşüyor
    • Bunun mümkün olmasının nedeni, Nex’in zaten Qwen3.5’in fine-tune edilmiş bir sürümü olması: https://huggingface.co/nex-agi/Nex-N2-Pro
      Farklı pretraining geçmişine sahip iki LLM’de bu yöntemin işe yarayacağını sanmıyorum. İşe yarasa bile iç aktivasyon biçimlerinin, boyutların, expert sayısının ve token sözlüğünün tam olarak aynı olması gerekir; bu yüzden pratikte fine-tuning ya da akademik deneyler dışında neredeyse hiç görülmez
    • Buna linear mode connectivity deniyor ve neredeyse tüm büyük modellerde çalışıyor gibi görünüyor
      O kadar iyi çalışıyor ki birçok durumda eğitim sürecinin açık bir parçası hâline geliyor. Birden fazla eğitim dalı oluşturup bunları birleştiriyor, ardından eğitime devam ediyorsunuz
      Neden bu kadar iyi çalıştığı ise hâlâ anlaşılmış değil
    • Bu aslında iyi bilinen bir fikir: https://arxiv.org/abs/2203.05482
      Yine de bu kadar basit bir yöntemin çalışması hâlâ şaşırtıcı
    • Bu ağırlıklarda ya da daha küçük modellerde, Fable gibi şeylerden çok daha iyi zekâ simülasyonu üretebilecek “gizli” bir ayar kümesi olabileceği fikri ilginç
  • Rio de Janeiro belediyesi, IT şirketi IplanRIO aracılığıyla Rio-3.5-Open-397B modelini yayımladı ve bunu, benzer açık modelleri benchmark’larda geçen, kendi geliştirdiği bir Qwen3.5 fine-tune modeli olarak tanıttı
    Bağlantı verilen issue ise bunun gerçekte, yaklaşık 1 hafta önce yayımlanan Nex-N2 de dahil olmak üzere, yaklaşık %60 Nex-N2 Pro + yaklaşık %40 Qwen3.5-397B-A17B ağırlık birleşimi olduğunu düşünüyor

    • Bu tür bir model merge’ün mümkün olduğunu bilmiyordum. Saf yazılım açısından elbette mümkün ama işe yaraması şaşırtıcı
    • Sorun, Qwen kaynağının belirtilmemesi değil de Nex-N2 Pro’dan bahsedilmemesi mi yani?
    • Rio, LLM’lere zaman harcıyorsa, zaten dünya çapında en iyi IT altyapısı ve yazılımına sahip olmalı
      Vergi israfı gibi görünüyor
  • Birilerinin kaynak göstermeden başkalarının emeğinden kâr sağladığını duymak, ne büyük sürpriz!

    • Bu, başka açık ağırlıklı modelleri temel alan açık ağırlıklı bir model
      Tartışmanın özü, sonucu iyileştiren bir post-training yaptıklarını iddia ederek yayımlamış olmaları. Ama gerçekte yüklenen modelin iddia edildiği gibi post-training uygulanmış model olmadığı ortaya çıktı
      Şu anda HuggingFace sayfasında bunun bir model merge olduğu yazıyor ama önce yoktu. Bunlar yanlış modeli yanlışlıkla HuggingFace’e yüklediklerini ve yakında gerçek modeli yükleyeceklerini iddia etmeye hazırlanıyorlar
      Özetle, iki açık ağırlıklı modeli birleştirip ekibin olağanüstü bir post-training başarısı gösterdiğini iddia edebileceklerini sandılar ama diğer araştırmacıların, aslında post-training olmadığını anlayacak kadar zeki olduğunu hesaba katmadılar
    • Önemli olan kaynak belirtmek değil, araştırma enstitüsünün yetkinliği hakkında yalan söylemek
    • Devletin ya da devlet yüklenicisinin gerçekte hiçbir şey yapmadığı hâlde çok iş yapmış gibi konuşmasına insanlar nasıl bakıyor, merak ediyorum
    • Bu, vergi parasıyla yapılan düpedüz dolandırıcılık. Başka ne beklenirdi ki?
    • “Onların işi” demek de pek doğru değil; önce asıl içerik üreticileri işin %99.99’unu yaptı, sonra Amerikan şirketleri bunu paketleyip son teknoloji LLM hâline getirdi, ardından “onlar” da bu Amerikan modellerini temel alarak kendi modellerini yapma “işini” yaptı
      Eğer kastedilen, gerçek ürüne giren emeğin %0.00001’ini yapmış olmalarıysa, o zaman evet
      Bu, Linux dağıtımını fork’layıp birkaç tema ve font ekledikten sonra bir başkasının o dağıtımı tekrar fork’layıp başka bir tema eklemesinden şikâyet etmeye daha çok benziyor
  • Birleştirilmiş bir modeli yayımlamadan bunu “kendi geliştirdikleri” diye yeniden markalama eğilimi endişe verici.
    Bu, açık kaynak yapay zeka geliştirmeye duyulan güveni zedeliyor; bu yüzden model yayımlarında daha iyi kaynak izlenebilirliği ve şeffaflık standartlarına ihtiyaç var.

  • Model birleştirmenin nasıl çalıştığını anlatan bir açıklama ya da bağlantı olsa iyi olurdu.
    Gerçekten ağırlıkların matematiksel olarak birleştirilmesi mi, yoksa damıtma gibi bir yöntem mi olduğunu merak ediyorum. Yazıdaki gibi hiç eğitim yapılmadıysa muhtemelen damıtma değildir.

    • Başlangıç için şu belge iyi: https://huggingface.co/docs/peft/developer_guides/model_merg...
      Genel olarak birleştirme, farklı modellerin ağırlıklarını doğrudan matematiksel olarak karıştırma tekniğini ifade eder. Yaklaşık 2 yıl önce çok popülerdi ve sıralama listelerinde çok sayıda sözde Frankenmodel görünüyordu.
      Ben kişisel olarak birleştirmeyi, “abliteration” gibi şeylerle aynı kategoride görüyorum. Bunlar, geleneksel eğitim/ince ayar döngüsü olmadan model ağırlıklarını cerrahi biçimde değiştiren teknikler. Bu alan ilgini çekiyorsa Maxime Labonne takip etmeye değer.
    • Okunacak pek bir şey yok.
      Model A: A_1, …, A_n
      Model B: B_1, …, B_n
      C_i = A_i * p + B_i * (1 - p)
      Yani yapılan şey, farklı modellerin ağırlıklarını konum bazında doğrusal olarak birleştirmekten ibaret.
  • En başta model yapmayı denemiş olmaları bile şaşırtıcı.
    Yine de belediyenin BT departmanının buna kalkışacak cesareti göstermiş olması olumlu bir işaret olabilir.

    • Birleştirme ve ince ayar, biraz para harcayabilen bireylerin bile yapabileceği düzeyde; dolayısıyla yerel yönetimler de rahatlıkla yapabilir.
    • Silinmiş yorumdaki varsayımda olduğu gibi, hükümete devasa bir LLM eğitim bütçesi önerip paranın çoğunu cebe indirdikten sonra zimmeti meşrulaştırmak için ucuz bir birleştirilmiş model yayımladıkları ihtimali daha inandırıcı geliyor.
  • “Şey, Steve(Jobs), bence bu daha çok ikimizin de Xerox adında zengin bir komşusu olduğu ve ben eve girip televizyonu çalmaya çalıştığımda senin onu benden önce çaldığını fark ettiğim bir duruma benziyor.”
    — Bill Gates

    • O alıntının önceki kısmı daha da komik: “Bill Gates bir şekilde tek başına ortaya çıktı ve etrafı 10 Apple çalışanıyla çevrildi. … Steve, Bill’e neden anlaşmayı bozduğunu bağırmaya başladı.”
      Sonu daha da ilginç: “Apple, 1988’de Microsoft’a karşı büyük bir telif hakkı davası açtı, ancak sonunda teknik gerekçelerle kaybetti. Yargıç, Apple’ın Kasım 1985’te Mac kullanıcı arayüzü için Microsoft’a dikkatsizce kalıcı lisans verdiğine hükmetti.”
      Microsoft, Apple’ın GUI’sini çalmadı; Apple onu adeta teslim etti.
    • Keşke bu gerçekten birebir bir alıntı olsa. Gerçekten çok sert.