- Qwen3-Omni-Flash-2025-12-01 metin, görsel, ses ve videoyu aynı anda işleyip gerçek zamanlı akışla metin ve ses çıktısı üreten bir sonraki nesil çok modlu büyük model
- Ses ve görsel komut anlama ile diyalog stabilitesi büyük ölçüde artırılarak doğal ve tutarlı ses-görüntü etkileşimi uygulanıyor
- Sistem istemini tamamen kontrol etme özelliğiyle kişilik stili, konuşma üslubu, çıktı uzunluğu gibi ayrıntılar hassas biçimde ayarlanabiliyor
- 119 dilde metin, 19 dilde ses tanıma, 10 dilde ses sentezi desteklenerek çok dilli tutarlılık sorunları gideriliyor
- Mantıksal çıkarım, kod üretimi, görsel ve ses anlama gibi tüm alanlarda performans geliştirilerek doğal ve hassas yapay zeka etkileşimi deneyimi sağlanıyor
Qwen3-Omni-Flash-2025-12-01 Genel Bakış
- Qwen3-Omni metin, görsel, ses ve video gibi çeşitli girdileri işleyen ve gerçek zamanlı olarak metin ve doğal ses çıktısı üreten yerel çok modlu büyük model
- Bu sürüm Qwen3-Omni-Flash-2025-12-01, önceki Qwen3-Omni üzerine inşa edilmiş tam kapsamlı bir yükseltme
- Model performansı ve verimliliği genel olarak geliştirilerek daha hızlı ve doğru çok modlu işleme yeteneği sunuyor
Başlıca özellik iyileştirmeleri
-
Sesli-görsel etkileşim güçlendirmesi
- Ses ve görsel komutları anlama ve uygulama yeteneği büyük ölçüde artırılarak günlük konuşma senaryolarındaki zekâ düşüşü problemi çözüldü
- Çok turlu ses-görsel diyaloğun kararlılığı ve tutarlılığı yükselerek doğal etkileşim mümkün hale geliyor
-
Sistem istemi kontrolünün güçlendirilmesi
- Sistem istemini tamamen kullanıcı tanımlı hale getirerek model davranışını hassas biçimde kontrol etmek mümkün
- Kişilik stili (ör. tatlı, cool, animasyon tarzı), konuşma üslubu, çıktı uzunluğu gibi ayrıntıları ince ayar yapma
-
Çok dilli destek güvenilirliğinin artırılması
- Metin tabanlı etkileşimde 119 dil, ses tanımada 19 dil, ses sentezinde 10 dil destekleniyor
- Önceki sürümdeki dil istikrarsızlık sorunları giderilerek doğru ve tutarlı çok dilli performans sağlandı
-
Doğal ses sentezi
- Konuşma hızı, duraklama ve tonlama metin bağlamına göre otomatik olarak ayarlanarak insan benzeri ses kalitesi elde ediliyor
- Yavaş veya mekanik sesi kaldırarak ifade gücü yüksek doğal ses çıktısı sunuluyor
Performans iyileştirme ölçütleri
-
Metin anlama ve üretim yeteneğinin güçlendirilmesi
- Mantıksal çıkarım ZebraLogic +5.6, kod üretimi LiveCodeBench-v6 +9.3, MultiPL-E +2.7, yazma kalitesi WritingBench +2.2 iyileşmesi
- Karmaşık çok adımlı talimatları yerine getirmede güvenilirlik artışı
-
Ses anlama doğruluğunun artırılması
- Fleurs-zh'de kelime hata oranında azalma, VoiceBench +3.2 iyileşmesi
- Gerçek konuşma ortamlarında ses anlama gücü güçlendirildi
-
Ses sentezi kalitesi geliştirmesi
- Çince ve çok dilli ortamlarda doğal tonlama ve ritim uygulanıyor
- İnsan sesine benzer konuşma kalitesi sağlandı
-
Görsel anlama gücünün artırılması
- Görsel akıl yürütme görevlerinde MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 iyileşmesi
- Diyagram, matematiksel şekil gibi karmaşık görsel içeriklerin yorumlanması güçlendirildi
-
Video anlama geliştirmesi
- MLVU +1.6 artışıyla video anlama yeteneği güçlendi
- Ses-görsel senkronizasyon iyileştirilerek gerçek zamanlı video sohbeti temel alan gelişmişlik sağlandı
Gelecek planlar
- Kullanıcı geri bildirimi ve Qwen3-Omni tabanlı yenilikçi uygulama örnekleri toplanacak
- İleride çok konuşmacılı ses tanıma (ASR), video OCR, ses-görsel özerk öğrenme, ajan tabanlı iş akışı ve fonksiyon çağrısı desteği gibi genişletmeler planlanıyor
Alıntı bilgisi
- Araştırmada kullanılacaksa aşağıdaki alıntının kullanılması önerilir
@misc{qwen3_omni_20251201, author={{Qwen Team, Alibaba}}, title={{Qwen3-Omni-Flash-2025-12-01:Hear You. See You. Follow Smarter!}}, year={2025}, url={https://qwen.ai/blog?id=qwen3-omni-20251201}}
1 yorum
Hacker News görüşleri
Bu model 30B parametreli bir MoE yapısına sahip ve aktif parametre sayısı 3B seviyesinde.
Önceki 7B omni modelinin devamı niteliğinde; Qwen2.5-Omni-7B ile benzer performans beklenebilir.
Açık olarak yayımlanmış omni model sayısı çok az olduğu için bunun oldukça anlamlı bir sürüm olduğunu düşünüyorum.
Ben şahsen bu modeli giriş/çıkış arayüzünün (klavye·monitör) yerine kullanmak, arka planda ise hesaplamayı başka teknolojilerle işleyen bir yapı kurmak isterdim.
Ayrıca bir reasoning sürümü de var; sesli sohbet sırasında ‘düşünüyor’ tokenlarını telaffuz etmesi oldukça eğlenceli olabilir.
650M ses kodlayıcı, 540M görsel kodlayıcı, 30B-A3B LLM, 3B-A0.3B ses LLM’i bulunuyor; ayrıca ses tokenlarını dalga biçimine dönüştürmek için 80M Transformer/200M ConvNet kullanılıyor.
Qwen3-Omni’nin kapalı ağırlık güncelleme sürümü ve daha önce Qwen/Qwen3-Omni-30B-A3B-Instruct herkese açılmıştı.
Şu anda açık kaynak çıkarım framework’leri tarafından tam desteklenmediği için yalnızca transformers içinde çok yavaş çalışıyor.
Qwen3-Omni’nin GPT-4o gibi gerçek zamanlı konuşmayı destekleyip desteklemediğini merak ediyordum.
Belgelerde öyle görünmüyordu ama pratikte desteklediği söyleniyor.
Acaba bunu NVIDIA dışı bir ortamda yerelde çalıştıran biri oldu mu diye merak ediyorum.
Ben bunu genelde eşsesli kelime testleriyle (
recordvsrecord) ya da ses tonunu değiştirme istekleriyle kontrol ediyorum.Silly Tavern gibi araçlar bile neredeyse unusable seviyesinde.
Ama tam da bu tür yerel ses modelleri, doğal dil tabanlı iş akışlarının çekirdeği olacak.
Macbook’ta GGUF ya da MLX ile Omni modelini çalıştırmanın mümkün olup olmadığını merak ediyordum.
LMStudio ya da Llama.cpp ile mümkün ama mikrofon veya web kamerası akışını desteklemiyor.
Qwen genelde Cuda tabanlı Python örnekleri veriyor; bu yüzden açık kaynak bir alternatif arıyorum.
Ben Gemini Flash Live 2.5’i verimli şekilde kullanıyorum.
3.0 sürümünün yakında gelmesini bekliyorum.
Benchmark’larda Gemini Live’dan daha iyi görünüyor ama bunu bizzat test etmek gerekir.
Şahsen İngilizce merkezli bir ortamda Qwen Omni modelinden hep biraz eksik tat aldım.
32B oldukça küçük sayılır; bu yüzden 64GB RAM’li bir cihazda da çalışabilir gibi görünüyor.
Ollama’ya gelirse bizzat test etmeyi planlıyorum.
Ama makaledeki benchmark’larda Qwen3-Omni-Flash-2025-12-01’in Qwen3-235B-A22B’den daha yüksek performans verdiği yazıyor.
30B bir modelin bunu nasıl yapabildiği kafa karıştırıcı.
FLASH sürümü Hugging Face’te yok; büyük ihtimalle yalnızca API’ye özel bir model.
Başta bunun yalnızca API’ye özel olduğunu sanmıştım ama Hugging Face koleksiyonunda model gerçekten var.
Ancak pratikte bu eski sürüm ve HF demosu da API çağırıyor; yani yerel hesaplama yapmıyor.
Qwen3-Omni’nin 2.5 Flash’ı tüm benchmark’larda ezip geçtiği dikkat çekici.
Artık LLM iş yüklerini yerel GPU’ya taşımanın zamanı gelmiş gibi.
Açık benchmark’lara güvenmek zor; modele sadece onlara bakarak karar verirseniz hayal kırıklığı yaşayabilirsiniz.
Ses modelinin konuşma tarzının neden cansız bir his verdiğini merak ettim.
Özellikle meyve fiyatları bölümünde tamamen doğal olsa da bunun yapay zeka olduğu hemen anlaşılabiliyordu.
Muhtemelen tonlama ya da sabit konuşma hızından kaynaklanıyor.
Fazla duygu ifadesi yapay hissettiriyor.
Yine de Almanca telaffuz hataları olması üzücü.
Muhtemelen ayrı bir konuşma sentezi aşaması var ve sonuç bu yüzden böyle çıkıyor.
Şarkı ya da tonlama testleriyle doğrulanabilir.
ChatGPT’nin ses modeli en doğal geleni.
Gerçek zamanlı ses çıkışında ‘düşünüyor’ tokenlarıyla kullanıcıya yönelik konuşmayı ayırmanın zor olması gibi bir sorun var.
reasoning/structured tokenlar bir tarafa, kullanıcıya gösterilecek metin başka tarafa gönderilir;
yalnızca ikincisi konuşma sentezine verilirse ‘düşünüyor’ seslerinin duyulması sorunu çözülür.
Qwen’in açık ağırlık yayımlama konusunu muğlak ifade ettiğini düşünüyorum.
Gerçekte çoğu kapalı; yayımlanmış gibi görünse de çoğu zaman yalnızca API’ye özel oluyor.
Bu da kullanıcıların modeli ararken boş yere zaman harcamasına yol açıyor.