Qwen3.5-Omni: Metin, görsel, ses ve videonun tamamını işleyen tam omni-modal LLM yayımlandı

(qwen.ai)

7 puan yazan GN⁺ 2026-03-31 | Henüz yorum yok. | WhatsApp'ta paylaş

Alibaba Qwen ekibinin metin, görsel, ses ve videoyu hem anlayıp hem üreten en yeni modeli; Thinker-Talker mimarisine Hybrid-Attention MoE uygulanarak tüm modalitelerde işleme yeteneği büyük ölçüde güçlendirildi
Plus·Flash·Light olmak üzere 3 farklı boyutta Instruct sürümü sunuluyor ve 256k uzun bağlam girişi, 10 saatten uzun ses ve 720P ölçütünde 400 saniyeden uzun video işlemeyi destekliyor
Qwen3.5-Omni-Plus, 215 sesli-görsel anlama kıyaslamasında SOTA elde etti ve genel ses anlama·akıl yürütme·çeviri·diyaloğun tüm alanlarında Gemini-3.1 Pro'yu geçti
Önceki nesle kıyasla çok dilli destek büyük ölçüde genişletildi; 74 dil ve 39 Çince lehçede konuşma tanıma, 36 dilde konuşma sentezi destekleniyor; ayrıca ses klonlama, web arama, gerçek zamanlı diyalog, duygu/hız/ses seviyesi kontrolü gibi etkileşimli özellikler yeni eklendi
ARIA(Adaptive Rate Interleave Alignment) teknolojisi, metin ve ses token kodlama verimliliği farkından kaynaklanan atlama ve yanlış okuma sorunlarını çözerek akış tabanlı konuşma sentezinin doğallığını ve kararlılığını çarpıcı biçimde iyileştiriyor

Modele genel bakış

Qwen3.5-Omni, metin, görsel, ses ve videonun tamamını işleyen Qwen'in en yeni tam omni-modal LLM'i
Hem Thinker hem de Talker, çok modlu işleme performansını artırmak için Hybrid-Attention MoE yapısını benimsiyor
Plus, Flash ve Light olmak üzere 3 Instruct sürümüyle sunuluyor; bunların tümü 256k uzun bağlam girişini destekliyor
- Ses girişi: 10 saatten fazla
- 720P·1FPS ölçütünde video girişi: 400 saniyeden fazla
Devasa metin, görsel veri ve 100 milyon saatten fazla ses-görsel veri ile omni-modal biçimde ön eğitim (pre-training) yapıldı
Şu anda Offline API ve Realtime API üzerinden kullanılabiliyor

Qwen3.5-Omni-Plus, sesli-görsel anlama·akıl yürütme·etkileşim alanlarında 215 alt görev/kıyaslamada SOTA elde etti
- Buna 3 sesli-görsel kıyaslama, 5 ses kıyaslaması, 8 ASR kıyaslaması, dile göre 156 S2TT ve dile göre 43 ASR kıyaslaması dahil
Genel ses anlama·akıl yürütme·tanıma·çeviri·diyaloğun tüm alanlarında Gemini-3.1 Pro'yu geçiyor; genel sesli-görsel anlama seviyesi de Gemini-3.1 Pro düzeyine ulaşıyor
Görsel ve metin performansı, aynı boyuttaki Qwen3.5 modelleriyle eşdeğer seviyede
Sesli-görsel altyazılama özelliği: ayrıntılı ve yapılandırılmış açıklamalar, otomatik segmentasyon·zaman damgası ek açıklamaları, karakterler ve ses ilişkilerinin açıklanması gibi senaryo düzeyinde betimlemeleri destekliyor
Audio-Visual Vibe Coding: sesli-görsel komutlara dayalı olarak doğrudan kod üreten yeni bir omni-modal yetenek doğrulandı

Anlamsal kesinti (Semantic Interruption): Odin tabanlı sıra alma niyeti algılamasıyla backchanneling ve arka plan gürültüsünün yol açtığı gereksiz kesilmeleri önler; API'ye varsayılan olarak dahil
WebSearch ve karmaşık FunctionCall için yerel destek: model, web aramasının çağrılıp çağrılmayacağına otonom biçimde karar vererek gerçek zamanlı sorgulara yanıt verir
Uçtan uca ses kontrolü: insan gibi talimatları izler ve konuşma ses seviyesi·hızı·duygusunu serbestçe kontrol eder
Ses klonlama (Voice Clone): kullanıcılar ses yükleyerek yapay zeka asistanının sesini özelleştirebilir; tümü Realtime API üzerinden sunulur
Sistem prompt'u değiştirilerek modelin konuşma tarzı ve kimliği değiştirilebilir

Akış tabanlı ses etkileşimlerinde metin ve ses token'larının kodlama verimliliği farkından doğan atlama·yanlış okuma·belirsiz telaffuz sorunlarını çözmek için ARIA(Adaptive Rate Interleave Alignment) teknolojisi önerildi
Metin ve ses birimlerini dinamik olarak hizalayarak (interleave), gerçek zamanlı performansı korurken konuşma sentezinin doğallığını ve kararlılığını büyük ölçüde artırıyor
Önceki nesil Qwen3-Omni'nin sabit 1:1 metin-ses tokenizer oranı yaklaşımının yerini alıyor

Konuşma tanıma (ASR)
- Önceki: 11 çok dilli + 8 Çince lehçe
- Şimdi: 74 dil + 39 Çince lehçesi
Konuşma sentezi (TTS)
- Önceki: 29 çok dilli + 7 Çince lehçe
- Şimdi: 36 dilde konuşma üretimi (orijinal metinde lehçe sentezi listesi ayrıca belirtilmiyor)

Sesli-görsel (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
Ses (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
Konuşma sentezi kararlılığı WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19

Offline API: video·ses analizi ve web arama (enable_search parametresi) desteği; Python OpenAI uyumlu SDK ile çağrılabiliyor
Realtime API: WebSocket tabanlı gerçek zamanlı diyalog; dashscope SDK kullanıyor ve ses giriş/çıkış akışını destekliyor
Kullanılabilir model kimlikleri: qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
Çin anakarası (Pekin) ve uluslararası (Singapur) endpoint'leri ayrı ayrı destekleniyor

Çince·İngilizce özel sesler: Tina, Cindy, Liora Mira, Sunnybobi, Raymond dahil 5 tür
Duygu eşlikli·rol yapma gibi senaryo sesleri: Ethan, Harvey, Maia dahil 19 tür (Çince ve İngilizce)
Çince lehçe sesleri: Siçuan lehçesi, Pekin lehçesi, Tianjin lehçesi, Kantonca dahil 8 tür
Çok dilli sesler: Korece (Sohee), Almanca (Lenn), Japonca (Ono Anna), İspanyolca, Fransızca, Rusça dahil 23 dilde toplam 23 tür