3 puan yazan GN⁺ 2025-09-13 | 1 yorum | WhatsApp'ta paylaş
  • Qwen3-Next, büyük ölçekli modellerin gelecekteki iki ana eğilimi olan bağlam uzunluğunun genişlemesi ve toplam parametre sayısının artmasını desteklemek için geliştirilen yeni bir model mimarisi olup, eğitim ve çıkarım verimliliğini en üst düzeye çıkaran özellikler sunuyor
  • Hibrit attention mekanizması ve son derece seyrek MoE yapısı kullanılarak uzun bağlam ve büyük parametreli kurulumlarda performans artırılıyor
  • Eğitim kararlılığı optimizasyonu ve çoklu token tahmin mekanizması ile çıkarım hızı hızlandırılıyor
  • Qwen3-Next-80B-A3B-Base modeli, eğitim maliyetini %10'un altına indirirken Qwen3-32B modeliyle aynı veya daha iyi performans elde ediyor
  • Bu modelin yayımlanması, açık kaynak topluluğuna ileri mimari gelişmeler sunuyor ve Qwen3.5 geliştirmesine uzanan zeka ve üretkenlik artışı için temel hazırlıyor

Giriş

  • Geleceğin büyük ölçekli modellerindeki başlıca eğilimler olan bağlam uzunluğunun genişlemesi ve toplam parametre sayısının artması doğrultusunda, uzun bağlam ve büyük parametreli kurulumlarda eğitim ve çıkarım verimliliğini artırmak için Qwen3-Next adlı yeni bir model mimarisi tasarlandı
  • Qwen3'ün MoE yapısıyla karşılaştırıldığında hibrit attention mekanizması, son derece seyrek MoE yapısı, eğitim kararlılığı optimizasyonu ve daha hızlı çıkarım için çoklu token tahmin mekanizması gibi birçok temel iyileştirme getirildi
  • Bu mimariye dayanarak Qwen3-Next-80B-A3B-Base modeli eğitildi; bu, 80 milyar parametreli bir model olup çıkarım sırasında yalnızca 3 milyar parametreyi etkinleştiriyor
  • Bu temel model, dense türü Qwen3-32B modeliyle aynı veya biraz daha iyi performans elde ederken eğitim maliyetinde (GPU süresi) %10'dan az kullanıyor
  • Özellikle 32K token üzerindeki bağlam uzunluklarında 10 kattan fazla throughput sunarak eğitim ve çıkarımda aşırı verimlilik sağlıyor
  • Qwen3-Next-80B-A3B-Base temel alınarak iki adet sonradan eğitilmiş sürüm, Qwen3-Next-80B-A3B-Instruct ve Qwen3-Next-80B-A3B-Thinking geliştirildi ve yayımlandı
  • Hibrit attention ve yüksek seyrekliğe sahip MoE mimarisi sayesinde pekiştirmeli öğrenme (RL) eğitimindeki uzun süredir devam eden kararlılık ve verimlilik sorunları çözülerek hem RL eğitim hızı hem de nihai performans iyileştirildi
  • Qwen3-Next-80B-A3B-Instruct, amiral gemisi model Qwen3-235B-A22B-Instruct-2507 ile aynı düzeyde performans gösteriyor ve en fazla 256K tokenlık ultra uzun bağlam görevlerinde belirgin üstünlük sergiliyor
  • Qwen3-Next-80B-A3B-Thinking, karmaşık akıl yürütme görevlerinde öne çıkıyor; daha yüksek maliyetli modeller olan Qwen3-30B-A3B-Thinking-2507 ve Qwen3-32B-Thinking'i geride bırakıyor, kapalı kaynak Gemini-2.5-Flash-Thinking'i birçok benchmark'ta aşıyor ve en üst seviye model Qwen3-235B-A22B-Thinking-2507 performansına yaklaşıyor
  • Qwen3-Next, Hugging Face ve ModelScope üzerinde zaten yayımlandı; ayrıca herkes Alibaba Cloud Model Studio ve NVIDIA API Catalog üzerinden Qwen3-Next hizmetini kullanabiliyor

Temel özellikler

  • Hibrit mimari: Gated DeltaNet + Gated Attention ile lineer attention'ın standart attention'ın karesel karmaşıklığını kırarak uzun bağlamda daha verimli olmasından yararlanılıyor
    • Lineer attention hızlı olsa da recall açısından zayıf, standart attention ise maliyetli ve yavaş olduğundan; sistematik deneyler sonucunda Gated DeltaNet'in Sliding Window Attention veya Mamba2 gibi yaygın yöntemlerden daha güçlü in-context learning yeteneği sunduğu doğrulandı
    • Gated DeltaNet, standart attention ile 3:1 oranında karıştırıldı (%75 katmanda Gated DeltaNet, %25 katmanda standart attention korunuyor) ve böylece tekil bir mimariye kıyasla tutarlı biçimde daha iyi performans ve verimlilik elde edildi
    • Standart attention katmanlarında çıktı gating mekanizması benimsenerek attention'ın düşük rank sorunları azaltıldı ve attention head başına boyut 128'den 256'ya çıkarıldı
    • Rotary positional encoding, daha uzun dizilere ekstrapolasyonu iyileştirmek için yalnızca konumsal boyutun ilk %25'ine uygulandı
  • Ultra seyrek MoE: parametrelerin yalnızca %3,7'si etkin; Qwen3-Next, toplam 80B parametrenin çıkarım adımı başına yaklaşık 3B'sini etkinleştiren yüksek seyrekliğe sahip bir MoE tasarımını benimsiyor
    • Deneyler, küresel yük dengelemesiyle etkin uzmanlar sabit tutulurken toplam uzman parametreleri arttıkça eğitim kaybının istikrarlı biçimde düştüğünü gösteriyor
    • Qwen3'ün MoE yapısıyla (toplam 128 uzman, 8 routing) karşılaştırıldığında Qwen3-Next, toplam 512 uzmana ölçekleniyor ve 10 routing uzmanı + 1 paylaşımlı uzman birleşimiyle kaynak kullanımını en üst düzeye çıkarırken performansı düşürmüyor
  • Eğitim kararlılığına uygun tasarım sayesinde attention çıktı gating mekanizması, Attention Sink ve Massive Activation gibi sorunları ortadan kaldırarak model genelinde sayısal kararlılığı güvence altına alıyor
    • Qwen3'te kullanılan QK-Norm'da bazı katman norm ağırlıklarının anormal biçimde büyüdüğü tespit edildiğinden, Qwen3-Next Zero-Centered RMSNorm'u benimsiyor ve norm ağırlıklarına weight decay uygulayarak sınırsız büyümeyi önlüyor
    • MoE router parametreleri başlatma sırasında normalize edilerek eğitimin ilk aşamasında her uzmanın önyargısız biçimde seçilmesi sağlanıyor ve rastgele başlatmadan kaynaklanan gürültü azaltılıyor
    • Kararlılık odaklı bu tasarımlar, küçük ölçekli deneyleri daha güvenilir hâle getiriyor ve büyük ölçekli eğitimi sorunsuz şekilde yürütüyor
    Reklam
  • Çoklu token tahmini ile Qwen3-Next, speculative decoding için yüksek kabul oranına sahip MTP modülleri üretmekle kalmayıp genel performansı da artıran yerel bir çoklu token tahmin (MTP) mekanizması sunuyor
    • Qwen3-Next, özellikle MTP'nin çok aşamalı çıkarım performansını optimize ediyor ve eğitim ile çıkarım arasındaki tutarlılığı koruyan çok aşamalı eğitim sayesinde gerçek senaryolarda speculative decoding kabul oranını daha da iyileştiriyor

Ön eğitim

  • Ön eğitim verimliliği ve çıkarım hızı: Qwen3-Next, Qwen3'ün 36T tokenlık ön eğitim korpusundan eşit biçimde örneklenmiş bir alt küme (15T token) üzerinde eğitildi
    • Qwen3-30A-3B için gereken GPU süresinin %80'inden azını kullanırken ve Qwen3-32B'nin hesaplama maliyetinin yalnızca %9,3'ünü tüketirken daha iyi performans elde ederek olağanüstü eğitim verimliliği ve değer sundu
    • Hibrit mimari sayesinde çıkarımda da öne çıkıyor; prefill aşamasında 4K bağlam uzunluğunda Qwen3-32B'den neredeyse 7 kat daha yüksek throughput sağlıyor
    • 32K üzerindeyse 10 kattan fazla daha hızlı
    • Decode aşamasında 4K bağlamda neredeyse 4 kat daha yüksek throughput gösteriyor ve 32K üzerinde de 10 kattan fazla hız avantajını koruyor
  • Temel model performansı: Qwen3-Next-80B-A3B-Base, Qwen3-32B-Base'in embedding dışı parametrelerinin yalnızca onda birini etkinleştirmesine rağmen çoğu benchmark'ta onu geride bırakıyor ve Qwen3-30B-A3B'yi açık farkla aşıyor; böylece olağanüstü verimlilik ve güçlü performansını kanıtlıyor

Sonraki eğitim

  • Instruct modeli performansı: Qwen3-Next-80B-A3B-Instruct, Qwen3-30B-A3B-Instruct-2507 ve Qwen3-32B-Non-thinking'i açık biçimde geride bırakıyor ve amiral gemisi Qwen3-235B-A22B-Instruct-2507 ile neredeyse aynı sonuçlara ulaşıyor
    • RULER'da Qwen3-Next-80B-A3B-Instruct, daha fazla attention katmanına sahip Qwen3-30B-A3B-Instruct-2507'i tüm uzunluklarda geride bırakıyor ve toplam katman sayısı daha fazla olan Qwen3-235B-A22B-Instruct-2507'i 256K bağlam içinde aşıyor; bu da uzun bağlam görevlerinde Gated DeltaNet + Gated Attention hibrit tasarımının gücünü gösteriyor
    Reklam
  • Thinking modeli performansı: Qwen3-Next-80B-A3B-Thinking, daha yüksek maliyetli modeller olan Qwen3-30B-A3B-Thinking-2507 ve Qwen3-32B-Thinking'i geride bırakıyor
    • Birçok benchmark'ta kapalı kaynak Gemini-2.5-Flash-Thinking'i aşıyor ve temel metriklerde en yeni amiral gemisi model Qwen3-235B-A22B-Thinking-2507'e yaklaşıyor

Qwen3 ile geliştirin

  • Hugging Face Transformers ile Qwen3-Next kodu, Hugging Face transformers'ın ana dalına birleştirildi
    • Önceki sürümlerde hatalar oluşabilir
    • Verilen girdiye dayanarak modelin ürettiği içeriği örnekleyen bir kod parçacığı yer alıyor
    • Çoklu token tahmini (MTP), Hugging Face Transformers'ta genel kullanıma açık değil
    • Verimlilik veya throughput iyileştirmeleri büyük ölçüde uygulamaya bağlı
    • Çıkarım işleri için SGLang ve vLLM gibi özel çıkarım framework'lerinin kullanılması öneriliyor
    • flash-linear-attention ve causal-conv1d kullanıldığında, çıkarım kurulumuna bağlı olarak daha iyi verimlilik gözlemlenebilir
    • Ayrıntılı yönergeler ve gereksinimler için ilgili bağlantılara bakılabilir
    • Dağıtım için en güncel sglang veya vllm kullanılarak OpenAI uyumlu API endpoint'i oluşturulabilir
  • SGLang, büyük dil modelleri ve görsel-dil modelleri için hızlı bir serving framework'ü olup OpenAI uyumlu API hizmetine sahip bir sunucu başlatabilir
    • SGLang, Qwen3-Next'i ana dalda destekliyor ve kaynaktan kurulabiliyor
    • 4 GPU üzerinde tensor parallel kullanarak en fazla 256K token bağlam uzunluğuyla http://localhost:30000/v1 adresinde API endpoint'i oluşturan komut veriliyor
    • MTP için önerilen komut da diğer ayarlar aynı kalacak şekilde sunuluyor
    • Şu anda SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 ortam değişkeni gerekiyor
    • Varsayılan bağlam uzunluğu 256K; sunucu başlatma başarısız olursa 32768 gibi daha küçük bir değere düşürmek düşünülebilir
    Reklam
  • vLLM, LLM'ler için yüksek throughput ve bellek verimli bir çıkarım ve serving motoru olup OpenAI uyumlu API hizmetine sahip bir sunucu başlatabilir
    • vLLM, Qwen3-Next'i ana dalda destekliyor ve kaynaktan kurulabiliyor
    • 4 GPU üzerinde tensor parallel kullanarak en fazla 256K token bağlam uzunluğuyla http://localhost:8000/v1 adresinde API endpoint'i oluşturan komut veriliyor
    • MTP için önerilen komut da diğer ayarlar aynı kalacak şekilde sunuluyor
    • Şu anda VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 ortam değişkeni gerekiyor
    • Varsayılan bağlam uzunluğu 256K; sunucu başlatma başarısız olursa 32768 gibi daha küçük bir değere düşürmek düşünülebilir
  • Ajan tabanlı kullanım: Qwen3, araç çağırma yeteneğinde öne çıkıyor ve Qwen3'ün ajan yeteneklerinden tam yararlanmak için Qwen-Agent kullanılması öneriliyor
    • Qwen-Agent, araç çağırma şablonlarını ve araç çağırma ayrıştırıcısını dahili olarak kapsülleyerek kodlama karmaşıklığını büyük ölçüde azaltıyor
    • Kullanılabilir araçları tanımlamak için MCP yapılandırma dosyası kullanılabilir, Qwen-Agent'ın entegre araçları kullanılabilir veya kendi entegre araçlarınız eklenebilir
  • Ultra uzun metin işleme: Qwen3-Next, yerel olarak en fazla 262,144 tokenlık bağlam uzunluğunu destekliyor
    • Girdi ve çıktı dâhil toplam uzunluğu bu sınırı ciddi biçimde aşan diyaloglar için, YaRN gibi RoPE ölçekleme teknikleri kullanılarak uzun metinlerin etkili biçimde işlenmesi öneriliyor
    • YaRN kullanılarak 1 milyon tokena kadar bağlam uzunluğunda model performansı doğrulandı
    • YaRN şu anda transformers, vllm, sglang gibi çeşitli çıkarım framework'lerinde destekleniyor
    • Desteklenen framework'lerde YaRN'ı etkinleştirmek için iki yaklaşım bulunuyor: model dosyasını değiştirmek veya komut satırı argümanı vermek
    • config.json dosyasına rope_scaling alanı ekleniyor
    • vllm için komut satırı argümanı kullanılıyor
    • sglang için komut satırı argümanı kullanılıyor
    • Dikkate değer tüm açık kaynak framework'leri statik YaRN uyguluyor; bu nedenle giriş uzunluğundan bağımsız olarak ölçekleme faktörü sabit kalıyor ve kısa metin performansı üzerinde potansiyel etkiler doğurabiliyor
    • rope_scaling ayarının yalnızca uzun bağlam işleme gerektiğinde eklenmesi öneriliyor
    • factor değerinin ihtiyaca göre ayarlanması öneriliyor; örneğin uygulamanın tipik bağlam uzunluğu 524,288 tokensa factor değeri 2.0 olarak ayarlanabilir

Özet

  • Qwen3-Next, attention mekanizmasında yenilik getiren lineer attention ve attention gating'i içeren, ayrıca MoE tasarımında seyrekliğin artırıldığı önemli bir model mimarisi sıçramasını temsil ediyor
  • Qwen3-Next-80B-A3B, hem thinking hem de non-thinking modlarında daha büyük Qwen3-235B-A22B-2507 ile eşdeğer performans sunarken uzun bağlam senaryolarında belirgin biçimde daha hızlı çıkarım sağlıyor
  • Bu sürümle birlikte açık kaynak topluluğunda ileri mimari gelişmelerin güçlendirilmesi ve en güncel mimari ilerlemelerle birlikte evrilme hedefleniyor

1 yorum

 
GN⁺ 2025-09-13
Hacker News görüşleri
  • Qwen3-Next’in en havalı yanı, linear attention sonrasında MTP’yi (Multi-Token Prediction) eklerken ilave bir un-embedding matrix getirmemesi. DeepSeek R1’de de 61. katmanda MTP uygulanıyor, ancak embed_tokens ve shared_head.head adlı büyük tensorler (FP8’de yaklaşık 2 GB) eklendiği için, Qwen3-Next çok daha az aktif parametreyle MTP’yi işleyip GB düzeyinde bellek tasarrufu sağlıyor. Bu sayede çıkarım hızı ciddi biçimde artıyor.
    • MTP’nin çıkarım aşamasında pratikte ne fayda sağladığını merak ediyorum; yoksa bu sadece pretraining verimliliğiyle mi ilgili?
    • MTP ile Medusa heads arasındaki farkın ne olduğunu ve bu modelin speculative decoding’i “yerel” olarak destekleyip desteklemediğini merak ediyorum. Bu modeli vllm’de çalıştırırsam MTP zaten uygulanmış olacağı için speculative decoding’in avantajını doğrudan elde edebilir miyim, bunu bilmek istiyorum.
    • Bu terimlerin hepsini tek seferde kolay anlaşılır biçimde açıklayan bir kaynak varsa paylaşılması iyi olur.
  • Alibaba gerçekten etkileyici modeller çıkarmayı sürdürüyor. Qwen chat’te Qwen3-Next-80B-A3B’yi denedim; çok hızlı ve kalite olarak da Qwen3-235B-A22B’ye benzer görünüyor. Bunu bu seviyede nasıl başardıkları etkileyici. Benchmark sonuçlarının Artificial Analysis’e gelmesini de bekliyorum. Qwen Chat’e göre Qwen3-Next’in sınırları en fazla 262.144 token context length ve en fazla 32.768 token summary generation. Bu, Qwen3-235B-A22B’ye kıyasla context’te 2 kat, summary’de 4 kat demek. Uzun bağlamı anlama ve karmaşık görevleri işleme güçlü tarafı. Yine de ben Qwen2.5-Turbo kullanmaya devam edeceğim; 1M token context destekleyen az sayıdaki modelden biri olduğu için, büyük PDF’ler yükleyip bölümler arası sorular sorduğum kullanımım için daha uygun.
    • Frontier modeller uzun context desteklese bile, pratikte context uzadıkça doğruluğun ciddi biçimde düştüğü çok oluyor gibi geliyor. 10M context desteklediğini söylese bile, context’i sonuna kadar doldurunca düzgün çalışmaması gerçeği var. Başkalarının görüşlerini de merak ediyorum.
    • Model kartına biraz bakılırsa Qwen3-Next’in de YaRN kullanarak en fazla 1M context length’e kadar genişletilebildiği görülüyor. Resmî ifadeye göre Qwen3-Next varsayılan olarak 262.144 token’a kadar context destekliyor ve giriş+çıkış token’larının toplamı bunu ciddi biçimde aştığında RoPE scaling veya YaRN yöntemleriyle 1M token’a kadar işleme doğrulanmış. Kaynak
    • Alibaba’nın kapalı modelleri de gerçekten çok iyi ve şaşırtıcı derecede az biliniyor. Benchmark’larda da neredeyse hiç görünmüyorlar. Qwen3-coder-plus, açık kaynak qwen3’ten çok daha iyi; Qwen3 max de SOTA modellerle yarışacak seviyede.
    • PDF verisini Qwen’e vermeden önce nasıl hazırladığını merak ediyorum.
  • llm komutuyla Qwen3-Next-80B-A3B-Thinking’den “spongebob’un ASCII’si”ni istedim, ama oldukça temel bir şekil verdi. Qwen3-Coder-480B-A35B-Instruct ise çok daha tamamlanmış bir Spongebob ASCII üretiyor. Gece birkaç kez denediğimde Qwen3-coder’da birçok ASCII’de bacak kısmı eksik kalıyor ve bitiriş düzgün olmuyordu, ama sabah aynı istemle tek seferde kusursuz çıktı. Kaynakların (sunucu, API) doluluğu ya da durumu yanıt kalitesini etkiliyor mu, yoksa tamamen şans mı diye merak ettim. Birkaç dakika sonra tekrar deneyince başarısız oldu; demek ki muhtemelen 10 denemede 1 kez çıkan bir şey ve Qwen3-next’te neredeyse hiç olmuyor.
    • SpongeBob ASCII sanki modele bütünüyle ezberletilmiş gibi.
    • Kimi K2 ile Qwen Coder (veya ilişkili başka modeller) arasında distillation ya da eğitim verisi paylaşımı olduğunu düşünüyorum. Çoğu LLM’yi kullandım ama yalnızca Kimi K2’de Qwen3-coder ile aynı SpongeBob ASCII çıktı. Kimi K2 kullanırken de SpongeBob ASCII tamamen aynı şekilde üretiliyor.
    • SpongeBob ASCII testi Qwen’in resmî sosyal medya hesabından alınmış; özünde enjekte edilmiş ezber gücünü (rote memorization) ölçen bir probe. Büyük dense modeller bunu parametre kapasitesiyle bütünüyle ezberleyebilir, ancak Qwen3’ün sparse-MoE yapısında expert seçimi ya da token sampling gibi çeşitli gürültüler eklendiğinden, ince çizilmiş bir görselin hizası daha kolay bozulabilir. Üstüne gated-attention ve multi-token head gibi yeni yapılar da eklenince, tek bir talihsiz expert routing bile çizimin yerleşimini bozabilir. Ayrıca Qwen3-coder bunun için özel olarak eğitildiği için karşılaştırma adil değil. Qwen3 ailesindeki diğer modellerin ASCII çıktılarıyla da karşılaştırdım; oldukça farklı sonuçlar veriyorlar.
  • Qwen sayesinde MoE’nin gerçekten ne kadar yol katettiğini görmek şaşırtıcı. Qwen3-Next mevcut 72B dense modeli açıkça geçiyor ve VRAM ile CPU iyi offload edilirse 14B modelden bile hızlı çalışıyor. Bu düzeyde verimlilik gerçekten etkileyici.
    • LLM alanındaki ilerleme Qwen sayesinde olmuyor; SOTA LLM’ler GPT-4’ten beri zaten MoE. HN’nin trendlere çok geriden gelmesi yüzünden AI konularında gereksiz yorumların çoğalması üzücü.
    • Geriye dönüp bakınca, geçen yıl Meta’nın dense 405B modeli eğitmek için muazzam kaynak harcamış olması biraz komik geliyor. Model sadece büyük, ama gerçek performansı kendisinin onda biri büyüklüğündeki modellerden bile kötü; üstelik pratikte hiçbir donanımda işe yarar bir hızda çalıştırılamıyor.
  • Qwen3 Next’i Brokk Power Ranking open round’a (kodlama benchmark’ı) ekledim. Performans olarak GPT-OSS-20b’ye benziyor. Tüm açık kaynak model performans sonuçlarına buradan bakabilirsiniz.
    • Daha fazla dil eklenirse çok daha faydalı bir benchmark olur gibi geliyor. Şu anda yalnızca Java değerlendiriliyor, ama gerçek hayatta ben çoğunlukla Java değil başka diller kullanıyorum; bu yüzden benchmark sonuçları gerçek deneyimimle uyuşmuyor.
    • Listelenen Kimi K2’nin en güncel sürüm mü yoksa eski Kimi k2 mi olduğunu merak ediyorum.
  • Oracle bu hafta veri merkezi talebinin keskin biçimde artacağını öngördü ve hissesi yükseliyor. Eğer LLM verimliliğinde 10 katlık artış gerçekten doğruysa, Nvidia, Oracle, Coreweave gibi şirketlere olan talep azalabilir.
    • Jevons paradoksu gibi ekonomik olguları düşünmek gerekir.
    • Oracle’ın öngörüsünden bağımsız olarak, verimlilik artışının doğrudan talep düşüşüne yol açacağını sanmıyorum. Jevons paradoksunda olduğu gibi, verim arttıkça daha fazla kullanım da görebiliriz.
    • DeepSeek-R1 için de aynı şey söylenmişti ama gerçekte hiçbir şey değişmedi. Bir modeli 10 kat daha verimli hâle getirirseniz, herkes gidip 10 kat daha büyük modeli eğitmeye çalışır. Performans üzerinde scaling etkisi sürdükçe oyuncuların bir noktada “bu kadarı yeter” deyip duracağını sanmıyorum.
    • Hiç de öyle değil. Piyasa davranışına bakarsanız insanlar her zaman en iyi kalite için para ödemeye razı ve fiyat da genelde aynı kalıyor. Yeni model çıkınca daha düşük kaliteli (ucuz) eski modeller hemen terk ediliyor; insanlar aynı fiyata sadece daha iyi modeli istiyor. Bu sefer de benzer olur.
    • Eğer AI balonu patlar ve veri merkezleriyle GPU’lar fazlalık hâline gelirse, bundan yatırım açısından nasıl faydalanılabilir merak ediyorum.
  • Gated Delta Network’ü merak edenler için makale burada: arxiv bağlantısı
    • Gated Attention hakkındaki makaleye de buradan bakılabilir.
  • Qwen3-Next oldukça etkileyici görünüyor ve bence gelecekteki yenilikleri daha iyi mimariler taşıyacak. GPT OSS 120B gibi 100B’nin üzerinde parametreler gerçekten şart değilmiş gibi geliyor.
    • Parametre sayısı arttıkça daha iyi olduğu kesin. Düşük parametreli modeller daha sık halüsinasyon görüyor. Yine de aktif parametre az olup routing iyiyse işe yarayabilir.
    • Yeni mimari ilginç ve açık olarak hemen yayımlanması da şaşırtıcı. Ancak Qwen ailesi modellerde overfitting belirgin olabiliyor. Bazen yalnızca belli görevlerde iyiler ve kapalı modellere kıyasla genelleme konusunda sınırlılar. Bunun sadece ölçek meselesi mi yoksa eğitim reçetesi/yöntem farkı da mı var tam emin değilim. OOD (out-of-distribution) testlerinde değerleri hızla düşüyor, buna karşılık kapalı modeller hâlâ güçlü kalıyor.
  • Tahminim şu: Önümüzdeki 4 yıl içinde AI, bugünkü SOTA modellerden 15 IQ puanı daha yüksek bir düzeye ulaşacak ve çok daha uzun bağlamla birlikte genel bir meta gibi herkesin kolayca erişebildiği bir şey olacak. O noktada synthetic data ile eğitimdeki iyileşmeler sınıra dayanırsa (“gerçek” veri zaten tükenmiş olduktan sonra), büyük sermayeli modellerin çıktıları kullanılarak açık kaynak modeller ucuza eğitilecek. Sonrasında, rekabetçi reinforcement learning ile genel zekâyı eğitmenin yolu bulunana kadar AI ilerlemesi duraklayacak. (AlphaGo’nun eğitildiği gibi.) Bu yöntem gelirse artık devasa eğitim verilerine ihtiyaç kalmayacak ve gerçek AGI’nin ortaya çıkacağını düşünüyorum.
    • “Gerçek verinin” tükendiği fikrini anlayamıyorum. İnternete her gün yeni bilgi, bilimsel makale ve video yağıyor; bu durumda verinin nasıl biteceği bana mantıklı gelmiyor.
    • Eğer bugünün en ileri modelleri insan IQ ölçeğinde 120 civarındaysa (tam doğru mu emin değilim ama buradaki ölçüte göre öyle diyelim), yakında 135 IQ düzeyinde aşırı odaklı botların kitlesel biçimde ortaya çıktığını göreceğiz. Bunun pratikte ne anlama geleceğini hayal etmek bile zor.
  • 80B model olsa da ben bu aralar MacBook Pro’da (M4, 64GB) rahat çalışan 32B ve altı modellere daha çok bakıyorum. ollamayı her gün spam filtreleme için kullanıyorum; gemma3:27b harika ve gpt-oss:20b de hızlı olduğu için sık kullanıyorum.
    • Ollama’yı spam filtreleme için nasıl kullandığını biraz daha ayrıntılı anlatırsan güzel olur.
    • Modelin toplam parametresi 80B ama çıkarım sırasında aktif olan yaklaşık 3B. 8GB’lık Nvidia kartta eski 2507 Qwen3 30B’yi gayet iyi çalıştırıyorum.
    • MoE yapısı sayesinde çok iyi çalışacaktır.