3 puan yazan GN⁺ 2025-09-13 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Qwen3-Next, büyük ölçekli modellerin gelecekteki iki ana eğilimi olan bağlam uzunluğunun genişlemesi ve toplam parametre sayısının artmasını desteklemek için geliştirilen yeni bir model mimarisi olup, eğitim ve çıkarım verimliliğini en üst düzeye çıkaran özellikler sunuyor
  • Hibrit attention mekanizması ve son derece seyrek MoE yapısı kullanılarak uzun bağlam ve büyük parametreli kurulumlarda performans artırılıyor
  • Eğitim kararlılığı optimizasyonu ve çoklu token tahmin mekanizması ile çıkarım hızı hızlandırılıyor
  • Qwen3-Next-80B-A3B-Base modeli, eğitim maliyetini %10'un altına indirirken Qwen3-32B modeliyle aynı veya daha iyi performans elde ediyor
  • Bu modelin yayımlanması, açık kaynak topluluğuna ileri mimari gelişmeler sunuyor ve Qwen3.5 geliştirmesine uzanan zeka ve üretkenlik artışı için temel hazırlıyor

Giriş

  • Geleceğin büyük ölçekli modellerindeki başlıca eğilimler olan bağlam uzunluğunun genişlemesi ve toplam parametre sayısının artması doğrultusunda, uzun bağlam ve büyük parametreli kurulumlarda eğitim ve çıkarım verimliliğini artırmak için Qwen3-Next adlı yeni bir model mimarisi tasarlandı
  • Qwen3'ün MoE yapısıyla karşılaştırıldığında hibrit attention mekanizması, son derece seyrek MoE yapısı, eğitim kararlılığı optimizasyonu ve daha hızlı çıkarım için çoklu token tahmin mekanizması gibi birçok temel iyileştirme getirildi
  • Bu mimariye dayanarak Qwen3-Next-80B-A3B-Base modeli eğitildi; bu, 80 milyar parametreli bir model olup çıkarım sırasında yalnızca 3 milyar parametreyi etkinleştiriyor
  • Bu temel model, dense türü Qwen3-32B modeliyle aynı veya biraz daha iyi performans elde ederken eğitim maliyetinde (GPU süresi) %10'dan az kullanıyor
  • Özellikle 32K token üzerindeki bağlam uzunluklarında 10 kattan fazla throughput sunarak eğitim ve çıkarımda aşırı verimlilik sağlıyor
  • Qwen3-Next-80B-A3B-Base temel alınarak iki adet sonradan eğitilmiş sürüm, Qwen3-Next-80B-A3B-Instruct ve Qwen3-Next-80B-A3B-Thinking geliştirildi ve yayımlandı
  • Hibrit attention ve yüksek seyrekliğe sahip MoE mimarisi sayesinde pekiştirmeli öğrenme (RL) eğitimindeki uzun süredir devam eden kararlılık ve verimlilik sorunları çözülerek hem RL eğitim hızı hem de nihai performans iyileştirildi
  • Qwen3-Next-80B-A3B-Instruct, amiral gemisi model Qwen3-235B-A22B-Instruct-2507 ile aynı düzeyde performans gösteriyor ve en fazla 256K tokenlık ultra uzun bağlam görevlerinde belirgin üstünlük sergiliyor
  • Qwen3-Next-80B-A3B-Thinking, karmaşık akıl yürütme görevlerinde öne çıkıyor; daha yüksek maliyetli modeller olan Qwen3-30B-A3B-Thinking-2507 ve Qwen3-32B-Thinking'i geride bırakıyor, kapalı kaynak Gemini-2.5-Flash-Thinking'i birçok benchmark'ta aşıyor ve en üst seviye model Qwen3-235B-A22B-Thinking-2507 performansına yaklaşıyor
  • Qwen3-Next, Hugging Face ve ModelScope üzerinde zaten yayımlandı; ayrıca herkes Alibaba Cloud Model Studio ve NVIDIA API Catalog üzerinden Qwen3-Next hizmetini kullanabiliyor

Temel özellikler

  • Hibrit mimari: Gated DeltaNet + Gated Attention ile lineer attention'ın standart attention'ın karesel karmaşıklığını kırarak uzun bağlamda daha verimli olmasından yararlanılıyor
    • Lineer attention hızlı olsa da recall açısından zayıf, standart attention ise maliyetli ve yavaş olduğundan; sistematik deneyler sonucunda Gated DeltaNet'in Sliding Window Attention veya Mamba2 gibi yaygın yöntemlerden daha güçlü in-context learning yeteneği sunduğu doğrulandı
    • Gated DeltaNet, standart attention ile 3:1 oranında karıştırıldı (%75 katmanda Gated DeltaNet, %25 katmanda standart attention korunuyor) ve böylece tekil bir mimariye kıyasla tutarlı biçimde daha iyi performans ve verimlilik elde edildi
    • Standart attention katmanlarında çıktı gating mekanizması benimsenerek attention'ın düşük rank sorunları azaltıldı ve attention head başına boyut 128'den 256'ya çıkarıldı
    • Rotary positional encoding, daha uzun dizilere ekstrapolasyonu iyileştirmek için yalnızca konumsal boyutun ilk %25'ine uygulandı
  • Ultra seyrek MoE: parametrelerin yalnızca %3,7'si etkin; Qwen3-Next, toplam 80B parametrenin çıkarım adımı başına yaklaşık 3B'sini etkinleştiren yüksek seyrekliğe sahip bir MoE tasarımını benimsiyor
    • Deneyler, küresel yük dengelemesiyle etkin uzmanlar sabit tutulurken toplam uzman parametreleri arttıkça eğitim kaybının istikrarlı biçimde düştüğünü gösteriyor
    • Qwen3'ün MoE yapısıyla (toplam 128 uzman, 8 routing) karşılaştırıldığında Qwen3-Next, toplam 512 uzmana ölçekleniyor ve 10 routing uzmanı + 1 paylaşımlı uzman birleşimiyle kaynak kullanımını en üst düzeye çıkarırken performansı düşürmüyor
  • Eğitim kararlılığına uygun tasarım sayesinde attention çıktı gating mekanizması, Attention Sink ve Massive Activation gibi sorunları ortadan kaldırarak model genelinde sayısal kararlılığı güvence altına alıyor
    • Qwen3'te kullanılan QK-Norm'da bazı katman norm ağırlıklarının anormal biçimde büyüdüğü tespit edildiğinden, Qwen3-Next Zero-Centered RMSNorm'u benimsiyor ve norm ağırlıklarına weight decay uygulayarak sınırsız büyümeyi önlüyor
    • MoE router parametreleri başlatma sırasında normalize edilerek eğitimin ilk aşamasında her uzmanın önyargısız biçimde seçilmesi sağlanıyor ve rastgele başlatmadan kaynaklanan gürültü azaltılıyor
    • Kararlılık odaklı bu tasarımlar, küçük ölçekli deneyleri daha güvenilir hâle getiriyor ve büyük ölçekli eğitimi sorunsuz şekilde yürütüyor
  • Çoklu token tahmini ile Qwen3-Next, speculative decoding için yüksek kabul oranına sahip MTP modülleri üretmekle kalmayıp genel performansı da artıran yerel bir çoklu token tahmin (MTP) mekanizması sunuyor
    • Qwen3-Next, özellikle MTP'nin çok aşamalı çıkarım performansını optimize ediyor ve eğitim ile çıkarım arasındaki tutarlılığı koruyan çok aşamalı eğitim sayesinde gerçek senaryolarda speculative decoding kabul oranını daha da iyileştiriyor

Ön eğitim

  • Ön eğitim verimliliği ve çıkarım hızı: Qwen3-Next, Qwen3'ün 36T tokenlık ön eğitim korpusundan eşit biçimde örneklenmiş bir alt küme (15T token) üzerinde eğitildi
    • Qwen3-30A-3B için gereken GPU süresinin %80'inden azını kullanırken ve Qwen3-32B'nin hesaplama maliyetinin yalnızca %9,3'ünü tüketirken daha iyi performans elde ederek olağanüstü eğitim verimliliği ve değer sundu
    • Hibrit mimari sayesinde çıkarımda da öne çıkıyor; prefill aşamasında 4K bağlam uzunluğunda Qwen3-32B'den neredeyse 7 kat daha yüksek throughput sağlıyor
    • 32K üzerindeyse 10 kattan fazla daha hızlı
    • Decode aşamasında 4K bağlamda neredeyse 4 kat daha yüksek throughput gösteriyor ve 32K üzerinde de 10 kattan fazla hız avantajını koruyor
  • Temel model performansı: Qwen3-Next-80B-A3B-Base, Qwen3-32B-Base'in embedding dışı parametrelerinin yalnızca onda birini etkinleştirmesine rağmen çoğu benchmark'ta onu geride bırakıyor ve Qwen3-30B-A3B'yi açık farkla aşıyor; böylece olağanüstü verimlilik ve güçlü performansını kanıtlıyor

Sonraki eğitim

  • Instruct modeli performansı: Qwen3-Next-80B-A3B-Instruct, Qwen3-30B-A3B-Instruct-2507 ve Qwen3-32B-Non-thinking'i açık biçimde geride bırakıyor ve amiral gemisi Qwen3-235B-A22B-Instruct-2507 ile neredeyse aynı sonuçlara ulaşıyor
    • RULER'da Qwen3-Next-80B-A3B-Instruct, daha fazla attention katmanına sahip Qwen3-30B-A3B-Instruct-2507'i tüm uzunluklarda geride bırakıyor ve toplam katman sayısı daha fazla olan Qwen3-235B-A22B-Instruct-2507'i 256K bağlam içinde aşıyor; bu da uzun bağlam görevlerinde Gated DeltaNet + Gated Attention hibrit tasarımının gücünü gösteriyor
  • Thinking modeli performansı: Qwen3-Next-80B-A3B-Thinking, daha yüksek maliyetli modeller olan Qwen3-30B-A3B-Thinking-2507 ve Qwen3-32B-Thinking'i geride bırakıyor
    • Birçok benchmark'ta kapalı kaynak Gemini-2.5-Flash-Thinking'i aşıyor ve temel metriklerde en yeni amiral gemisi model Qwen3-235B-A22B-Thinking-2507'e yaklaşıyor

Qwen3 ile geliştirin

  • Hugging Face Transformers ile Qwen3-Next kodu, Hugging Face transformers'ın ana dalına birleştirildi
    • Önceki sürümlerde hatalar oluşabilir
    • Verilen girdiye dayanarak modelin ürettiği içeriği örnekleyen bir kod parçacığı yer alıyor
    • Çoklu token tahmini (MTP), Hugging Face Transformers'ta genel kullanıma açık değil
    • Verimlilik veya throughput iyileştirmeleri büyük ölçüde uygulamaya bağlı
    • Çıkarım işleri için SGLang ve vLLM gibi özel çıkarım framework'lerinin kullanılması öneriliyor
    • flash-linear-attention ve causal-conv1d kullanıldığında, çıkarım kurulumuna bağlı olarak daha iyi verimlilik gözlemlenebilir
    • Ayrıntılı yönergeler ve gereksinimler için ilgili bağlantılara bakılabilir
    • Dağıtım için en güncel sglang veya vllm kullanılarak OpenAI uyumlu API endpoint'i oluşturulabilir
  • SGLang, büyük dil modelleri ve görsel-dil modelleri için hızlı bir serving framework'ü olup OpenAI uyumlu API hizmetine sahip bir sunucu başlatabilir
    • SGLang, Qwen3-Next'i ana dalda destekliyor ve kaynaktan kurulabiliyor
    • 4 GPU üzerinde tensor parallel kullanarak en fazla 256K token bağlam uzunluğuyla http://localhost:30000/v1 adresinde API endpoint'i oluşturan komut veriliyor
    • MTP için önerilen komut da diğer ayarlar aynı kalacak şekilde sunuluyor
    • Şu anda SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 ortam değişkeni gerekiyor
    • Varsayılan bağlam uzunluğu 256K; sunucu başlatma başarısız olursa 32768 gibi daha küçük bir değere düşürmek düşünülebilir
  • vLLM, LLM'ler için yüksek throughput ve bellek verimli bir çıkarım ve serving motoru olup OpenAI uyumlu API hizmetine sahip bir sunucu başlatabilir
    • vLLM, Qwen3-Next'i ana dalda destekliyor ve kaynaktan kurulabiliyor
    • 4 GPU üzerinde tensor parallel kullanarak en fazla 256K token bağlam uzunluğuyla http://localhost:8000/v1 adresinde API endpoint'i oluşturan komut veriliyor
    • MTP için önerilen komut da diğer ayarlar aynı kalacak şekilde sunuluyor
    • Şu anda VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 ortam değişkeni gerekiyor
    • Varsayılan bağlam uzunluğu 256K; sunucu başlatma başarısız olursa 32768 gibi daha küçük bir değere düşürmek düşünülebilir
  • Ajan tabanlı kullanım: Qwen3, araç çağırma yeteneğinde öne çıkıyor ve Qwen3'ün ajan yeteneklerinden tam yararlanmak için Qwen-Agent kullanılması öneriliyor
    • Qwen-Agent, araç çağırma şablonlarını ve araç çağırma ayrıştırıcısını dahili olarak kapsülleyerek kodlama karmaşıklığını büyük ölçüde azaltıyor
    • Kullanılabilir araçları tanımlamak için MCP yapılandırma dosyası kullanılabilir, Qwen-Agent'ın entegre araçları kullanılabilir veya kendi entegre araçlarınız eklenebilir
  • Ultra uzun metin işleme: Qwen3-Next, yerel olarak en fazla 262,144 tokenlık bağlam uzunluğunu destekliyor
    • Girdi ve çıktı dâhil toplam uzunluğu bu sınırı ciddi biçimde aşan diyaloglar için, YaRN gibi RoPE ölçekleme teknikleri kullanılarak uzun metinlerin etkili biçimde işlenmesi öneriliyor
    • YaRN kullanılarak 1 milyon tokena kadar bağlam uzunluğunda model performansı doğrulandı
    • YaRN şu anda transformers, vllm, sglang gibi çeşitli çıkarım framework'lerinde destekleniyor
    • Desteklenen framework'lerde YaRN'ı etkinleştirmek için iki yaklaşım bulunuyor: model dosyasını değiştirmek veya komut satırı argümanı vermek
    • config.json dosyasına rope_scaling alanı ekleniyor
    • vllm için komut satırı argümanı kullanılıyor
    • sglang için komut satırı argümanı kullanılıyor
    • Dikkate değer tüm açık kaynak framework'leri statik YaRN uyguluyor; bu nedenle giriş uzunluğundan bağımsız olarak ölçekleme faktörü sabit kalıyor ve kısa metin performansı üzerinde potansiyel etkiler doğurabiliyor
    • rope_scaling ayarının yalnızca uzun bağlam işleme gerektiğinde eklenmesi öneriliyor
    • factor değerinin ihtiyaca göre ayarlanması öneriliyor; örneğin uygulamanın tipik bağlam uzunluğu 524,288 tokensa factor değeri 2.0 olarak ayarlanabilir

Özet

  • Qwen3-Next, attention mekanizmasında yenilik getiren lineer attention ve attention gating'i içeren, ayrıca MoE tasarımında seyrekliğin artırıldığı önemli bir model mimarisi sıçramasını temsil ediyor
  • Qwen3-Next-80B-A3B, hem thinking hem de non-thinking modlarında daha büyük Qwen3-235B-A22B-2507 ile eşdeğer performans sunarken uzun bağlam senaryolarında belirgin biçimde daha hızlı çıkarım sağlıyor
  • Bu sürümle birlikte açık kaynak topluluğunda ileri mimari gelişmelerin güçlendirilmesi ve en güncel mimari ilerlemelerle birlikte evrilme hedefleniyor

Henüz yorum yok.

Henüz yorum yok.