- Qwen3-Omni-Flash-2025-12-01 metin, görsel, ses ve videoyu aynı anda işleyip gerçek zamanlı akışla metin ve ses çıktısı üreten bir sonraki nesil çok modlu büyük model
- Ses ve görsel komut anlama ile diyalog stabilitesi büyük ölçüde artırılarak doğal ve tutarlı ses-görüntü etkileşimi uygulanıyor
- Sistem istemini tamamen kontrol etme özelliğiyle kişilik stili, konuşma üslubu, çıktı uzunluğu gibi ayrıntılar hassas biçimde ayarlanabiliyor
- 119 dilde metin, 19 dilde ses tanıma, 10 dilde ses sentezi desteklenerek çok dilli tutarlılık sorunları gideriliyor
- Mantıksal çıkarım, kod üretimi, görsel ve ses anlama gibi tüm alanlarda performans geliştirilerek doğal ve hassas yapay zeka etkileşimi deneyimi sağlanıyor
Qwen3-Omni-Flash-2025-12-01 Genel Bakış
- Qwen3-Omni metin, görsel, ses ve video gibi çeşitli girdileri işleyen ve gerçek zamanlı olarak metin ve doğal ses çıktısı üreten yerel çok modlu büyük model
- Bu sürüm Qwen3-Omni-Flash-2025-12-01, önceki Qwen3-Omni üzerine inşa edilmiş tam kapsamlı bir yükseltme
- Model performansı ve verimliliği genel olarak geliştirilerek daha hızlı ve doğru çok modlu işleme yeteneği sunuyor
Başlıca özellik iyileştirmeleri
-
Sesli-görsel etkileşim güçlendirmesi
- Ses ve görsel komutları anlama ve uygulama yeteneği büyük ölçüde artırılarak günlük konuşma senaryolarındaki zekâ düşüşü problemi çözüldü
- Çok turlu ses-görsel diyaloğun kararlılığı ve tutarlılığı yükselerek doğal etkileşim mümkün hale geliyor
-
Sistem istemi kontrolünün güçlendirilmesi
- Sistem istemini tamamen kullanıcı tanımlı hale getirerek model davranışını hassas biçimde kontrol etmek mümkün
- Kişilik stili (ör. tatlı, cool, animasyon tarzı), konuşma üslubu, çıktı uzunluğu gibi ayrıntıları ince ayar yapma
-
Çok dilli destek güvenilirliğinin artırılması
- Metin tabanlı etkileşimde 119 dil, ses tanımada 19 dil, ses sentezinde 10 dil destekleniyor
- Önceki sürümdeki dil istikrarsızlık sorunları giderilerek doğru ve tutarlı çok dilli performans sağlandı
-
Doğal ses sentezi
- Konuşma hızı, duraklama ve tonlama metin bağlamına göre otomatik olarak ayarlanarak insan benzeri ses kalitesi elde ediliyor
- Yavaş veya mekanik sesi kaldırarak ifade gücü yüksek doğal ses çıktısı sunuluyor
Performans iyileştirme ölçütleri
-
Metin anlama ve üretim yeteneğinin güçlendirilmesi
- Mantıksal çıkarım ZebraLogic +5.6, kod üretimi LiveCodeBench-v6 +9.3, MultiPL-E +2.7, yazma kalitesi WritingBench +2.2 iyileşmesi
- Karmaşık çok adımlı talimatları yerine getirmede güvenilirlik artışı
-
Ses anlama doğruluğunun artırılması
- Fleurs-zh'de kelime hata oranında azalma, VoiceBench +3.2 iyileşmesi
- Gerçek konuşma ortamlarında ses anlama gücü güçlendirildi
-
Ses sentezi kalitesi geliştirmesi
- Çince ve çok dilli ortamlarda doğal tonlama ve ritim uygulanıyor
- İnsan sesine benzer konuşma kalitesi sağlandı
-
Görsel anlama gücünün artırılması
- Görsel akıl yürütme görevlerinde MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 iyileşmesi
- Diyagram, matematiksel şekil gibi karmaşık görsel içeriklerin yorumlanması güçlendirildi
-
Video anlama geliştirmesi
- MLVU +1.6 artışıyla video anlama yeteneği güçlendi
- Ses-görsel senkronizasyon iyileştirilerek gerçek zamanlı video sohbeti temel alan gelişmişlik sağlandı
Gelecek planlar
- Kullanıcı geri bildirimi ve Qwen3-Omni tabanlı yenilikçi uygulama örnekleri toplanacak
- İleride çok konuşmacılı ses tanıma (ASR), video OCR, ses-görsel özerk öğrenme, ajan tabanlı iş akışı ve fonksiyon çağrısı desteği gibi genişletmeler planlanıyor
Alıntı bilgisi
- Araştırmada kullanılacaksa aşağıdaki alıntının kullanılması önerilir
@misc{qwen3_omni_20251201, author={{Qwen Team, Alibaba}}, title={{Qwen3-Omni-Flash-2025-12-01:Hear You. See You. Follow Smarter!}}, year={2025}, url={https://qwen.ai/blog?id=qwen3-omni-20251201}}
Henüz yorum yok.