8 puan yazan GN⁺ 2025-04-29 | 2 yorum | WhatsApp'ta paylaş
  • Qwen3, 235B parametreye kadar çıkan en yeni büyük dil modelidir ve DeepSeek-R1, Grok-3, Gemini-2.5-Pro gibi modellerle rekabetçi düzeyde performans gösterir
  • Hibrit düşünme modunu (Thinking/Non-Thinking) destekleyerek problem zorluğuna göre çıkarım derinliğini ayarlamayı mümkün kılar
  • 119 dil ve lehçeyi destekleyerek küresel kullanım alanını önemli ölçüde güçlendirir
  • Önceki sürüme kıyasla 2 kat büyütülmüş 36 trilyon tokenlık veriyle ön eğitim alarak kodlama, matematik ve mantıksal akıl yürütme yeteneklerini geliştirir
  • Apache 2.0 lisansı ile açık kaynak olarak yayımlanmıştır ve Hugging Face, ModelScope, Kaggle gibi platformlarda hemen kullanılabilir

Giriş

  • Qwen3, Qwen serisinin en yeni büyük dil modelidir ve 235B parametreye sahip Qwen3-235B-A22B ana amiral gemisi modeldir
  • Küçük bir MoE modeli olan Qwen3-30B-A3B, 10 kat daha fazla parametre etkinleştiren QwQ-32B'yi geride bırakan performans gösterir
  • 6 Dense model (0.6B, 1.7B, 4B, 8B, 14B, 32B) ve 2 MoE model (30B, 235B), Apache 2.0 lisansı altında yayımlanmıştır

Temel özellikler

  • Hibrit düşünme modu

    • Thinking modu: Karmaşık problemler için adım adım akıl yürütme yapan moddur
    • Non-Thinking modu: Hızlı yanıt gereken basit problemler için anında cevap veren moddur
    • Göreve göre çıkarım bütçesi ayarlanarak maliyet verimliliği ile kalite optimize edilebilir
  • Çok dilli destek

    • 119 dil ve lehçeyi destekleyerek küresel uygulamaların genişleme potansiyelini artırır
    • Başlıca desteklenen dil aileleri: Hint-Avrupa dilleri, Çin-Tibet dilleri, Afroasya dilleri, Avustronezya dilleri, Dravid dilleri vb.
  • Geliştirilmiş ajan yetenekleri

    • Kodlama ve ajan yetenekleri için optimize edilmiştir
    • Qwen-Agent ile entegre edilerek araç çağırma yetenekleri en üst düzeye çıkarılabilir

Ön eğitim

  • Qwen2.5'e kıyasla 2 kat artmış 36 trilyon token kullanılarak ön eğitim gerçekleştirilmiştir
  • Web ve PDF benzeri belge verileri toplanarak çeşitli yüksek kaliteli veri kümeleri oluşturulmuştur
  • STEM, kodlama ve matematik alanlarındaki veriler güçlendirilerek genel akıl yürütme yeteneğinde artış sağlanmıştır

Sonraki eğitim

  • 4 aşamalı pipeline (CoT başlangıcı → reinforcement learning → düşünme modu birleşimi → genel reinforcement learning) uygulanmıştır
  • Model, mantıksal akıl yürütme ile hızlı yanıtı aynı anda sunabilecek şekilde optimize edilmiştir
  • 20'den fazla genel alan görevi üzerinden yapılan reinforcement learning ile genellik ve kararlılık güçlendirilmiştir

Qwen3 ile geliştirme

  • Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio, llama.cpp gibi çeşitli framework'ler desteklenir
  • Thinking modu, kod içinde kolayca on/off yapılabilir; ayrıca /think, /no_think komutlarıyla konuşma sırasında geçiş de mümkündür

Ajan kullanımı

  • Qwen-Agent üzerinden MCP yapılandırma dosyaları veya yerleşik araçlar kullanılarak karmaşık ajan sistemleri kurulabilir
  • OpenAI API uyumlu bir sunucu doğrudan kurularak yerelde veya herkese açık şekilde dağıtım yapılabilir

Gelecek çalışmalar

  • Qwen3, yapay genel zeka (AGI) ve yapay süper zeka (ASI) yolunda önemli bir dönüm noktasını temsil eder; ön eğitim ve reinforcement learning ölçeklenerek daha yüksek düzeyde zekaya ulaşılır
  • Veri ölçekleme, model boyutunun artırılması, bağlam uzunluğunun genişletilmesi, modalite genişlemesi ve çevresel geri bildirimle uzun vadeli akıl yürütme hedefiyle model mimarisi ve eğitim metodolojisi geliştirilmektedir
  • Model eğitimi merkezli dönemden ajan eğitimi merkezli döneme geçilmektedir ve bir sonraki sürüm herkesin işine ve yaşamına anlamlı ilerlemeler getirecektir

2 yorum

 
iwanhae 2025-04-29

Büyük modeller de ilgi çekici ama bence küçük modeller tarafı daha da ilginç.
0.6B modelin, çoğu başka modelin yaklaşık 7B seviyesindeki performansını verdiği görülüyor.

 
GN⁺ 2025-04-29
Hacker News yorumları
  • LLM'lere fizik temelli bir problem verilmiş, bu insanlar için de zor bir problem. GPT o3, Claude 3.7, Gemini 2.5 Pro başlangıçta doğru cevabı verememiş. Qwen3 ise daha da fazla yanılmış.

  • Dokümantasyonu iyi hazırlanmış ve başlıca çıkarım yığınları için destek ilk günden sağlanıyor. Farklı boyut seçenekleri mevcut. Topluluktaki quant geliştiricileriyle zaten çalışma deneyimi var.

  • Performansı test etmeden önce bile, çevresindeki ayrıntılara gösterilen özen sayesinde harika bir sürüm. Meta'nın Llama 4'üyle karşılaştırıldığında bunun standart olması gerekir.

  • Benchmark sonuçları o kadar iyi ki inanması zor. 30B model, Gemini 2.5 Pro ile rekabet ediyor ve Gemma 27B'den çok daha iyi.

  • Çeşitli açık ağırlıklı modeller çıkıyor; standart bir masaüstü GPU'da makul hızda çalışacak modeli bulmanın bir yolu var mı diye merak ediyorum. Quadro RTX 4000 kullanıyorum ve farklı boyutlardaki modeller arasında hangisinin hızlı olacağını bilmiyorum.

  • Qwen ve DeepSeek modelleri CCP'nin dünya görüşüne göre eğitilmiş olabilir, ancak pratikte sorun çıkarmadı. Bu konuda fazla araştırma yok.

  • En çok Qwen-30B-A3B'yi heyecan verici buluyorum. Çevrimdışı/yerel kullanıma özel bir kodlama asistanı için uygun görünüyor. Şimdiye kadar açık ağırlıklı modeller ya yetersiz performans veriyordu ya da çok yavaştı.

  • Çıkarım modellerini karşılaştırmanın en iyi yoluna dair içgörü arıyorum. Yaratıcı yanıtlar için yüksek temperature, mantıklı ve deterministik çıktılar için düşük temperature öneriliyor. Ancak bunun çıkarım modelleri için geçerli olup olmadığından emin değilim.

  • 0.6B LLM'in 32k context window'a sahip olması ilginç. İnce ayar için eğlenceli bir temel model olabilir. Hugging Face'te en çok indirilen ve en çok beğeni alan model.

  • Bu modeller çok düşünüyor gibi görünüyor. Benchmark'lar 32k token'lık düşünme bütçesiyle çalıştırılmış. Özellikle A3B, QWQ'yu geride bırakıyor ve CPU çıkarımı için faydalı olabilir.

  • Performans rakamları çok etkileyici. MoE, 3B aktif parametreyle o1'i geride bırakıyor. Yerel modeller, çoğu görevi karşılayabilecek kadar iyi hale geliyor.