7 puan yazan GN⁺ 2026-03-31 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Alibaba Qwen ekibinin metin, görsel, ses ve videoyu hem anlayıp hem üreten en yeni modeli; Thinker-Talker mimarisine Hybrid-Attention MoE uygulanarak tüm modalitelerde işleme yeteneği büyük ölçüde güçlendirildi
  • Plus·Flash·Light olmak üzere 3 farklı boyutta Instruct sürümü sunuluyor ve 256k uzun bağlam girişi, 10 saatten uzun ses ve 720P ölçütünde 400 saniyeden uzun video işlemeyi destekliyor
  • Qwen3.5-Omni-Plus, 215 sesli-görsel anlama kıyaslamasında SOTA elde etti ve genel ses anlama·akıl yürütme·çeviri·diyaloğun tüm alanlarında Gemini-3.1 Pro'yu geçti
  • Önceki nesle kıyasla çok dilli destek büyük ölçüde genişletildi; 74 dil ve 39 Çince lehçede konuşma tanıma, 36 dilde konuşma sentezi destekleniyor; ayrıca ses klonlama, web arama, gerçek zamanlı diyalog, duygu/hız/ses seviyesi kontrolü gibi etkileşimli özellikler yeni eklendi
  • ARIA(Adaptive Rate Interleave Alignment) teknolojisi, metin ve ses token kodlama verimliliği farkından kaynaklanan atlama ve yanlış okuma sorunlarını çözerek akış tabanlı konuşma sentezinin doğallığını ve kararlılığını çarpıcı biçimde iyileştiriyor

Modele genel bakış

  • Qwen3.5-Omni, metin, görsel, ses ve videonun tamamını işleyen Qwen'in en yeni tam omni-modal LLM'i
  • Hem Thinker hem de Talker, çok modlu işleme performansını artırmak için Hybrid-Attention MoE yapısını benimsiyor
  • Plus, Flash ve Light olmak üzere 3 Instruct sürümüyle sunuluyor; bunların tümü 256k uzun bağlam girişini destekliyor
    • Ses girişi: 10 saatten fazla
    • 720P·1FPS ölçütünde video girişi: 400 saniyeden fazla
  • Devasa metin, görsel veri ve 100 milyon saatten fazla ses-görsel veri ile omni-modal biçimde ön eğitim (pre-training) yapıldı
  • Şu anda Offline API ve Realtime API üzerinden kullanılabiliyor

Başlıca performans (Offline)

  • Qwen3.5-Omni-Plus, sesli-görsel anlama·akıl yürütme·etkileşim alanlarında 215 alt görev/kıyaslamada SOTA elde etti
    • Buna 3 sesli-görsel kıyaslama, 5 ses kıyaslaması, 8 ASR kıyaslaması, dile göre 156 S2TT ve dile göre 43 ASR kıyaslaması dahil
  • Genel ses anlama·akıl yürütme·tanıma·çeviri·diyaloğun tüm alanlarında Gemini-3.1 Pro'yu geçiyor; genel sesli-görsel anlama seviyesi de Gemini-3.1 Pro düzeyine ulaşıyor
  • Görsel ve metin performansı, aynı boyuttaki Qwen3.5 modelleriyle eşdeğer seviyede
  • Sesli-görsel altyazılama özelliği: ayrıntılı ve yapılandırılmış açıklamalar, otomatik segmentasyon·zaman damgası ek açıklamaları, karakterler ve ses ilişkilerinin açıklanması gibi senaryo düzeyinde betimlemeleri destekliyor
  • Audio-Visual Vibe Coding: sesli-görsel komutlara dayalı olarak doğrudan kod üreten yeni bir omni-modal yetenek doğrulandı

Başlıca özellikler (Realtime)

  • Anlamsal kesinti (Semantic Interruption): Odin tabanlı sıra alma niyeti algılamasıyla backchanneling ve arka plan gürültüsünün yol açtığı gereksiz kesilmeleri önler; API'ye varsayılan olarak dahil
  • WebSearch ve karmaşık FunctionCall için yerel destek: model, web aramasının çağrılıp çağrılmayacağına otonom biçimde karar vererek gerçek zamanlı sorgulara yanıt verir
  • Uçtan uca ses kontrolü: insan gibi talimatları izler ve konuşma ses seviyesi·hızı·duygusunu serbestçe kontrol eder
  • Ses klonlama (Voice Clone): kullanıcılar ses yükleyerek yapay zeka asistanının sesini özelleştirebilir; tümü Realtime API üzerinden sunulur
  • Sistem prompt'u değiştirilerek modelin konuşma tarzı ve kimliği değiştirilebilir

ARIA teknolojisi

  • Akış tabanlı ses etkileşimlerinde metin ve ses token'larının kodlama verimliliği farkından doğan atlama·yanlış okuma·belirsiz telaffuz sorunlarını çözmek için ARIA(Adaptive Rate Interleave Alignment) teknolojisi önerildi
  • Metin ve ses birimlerini dinamik olarak hizalayarak (interleave), gerçek zamanlı performansı korurken konuşma sentezinin doğallığını ve kararlılığını büyük ölçüde artırıyor
  • Önceki nesil Qwen3-Omni'nin sabit 1:1 metin-ses tokenizer oranı yaklaşımının yerini alıyor

Mimari değişiklikler (Qwen3-Omni'ye kıyasla)

  • Omurga: MoE → Hybrid-MoE
  • Dizi uzunluğu: 32k → 256k (10 saat ses, 400 saniye video)
  • Altyazılama kapsamı: yalnızca ses → sesli-görsel
  • Anlamsal kesinti: destek yok → destek var
  • WebSearch/Tool: destek yok → destek var
  • Ses kontrolü·klonlama: destek yok → destek var
  • Talker yapısı: Dual-Track Autoregression → Interleave + ARIA

Çok dilli desteğin genişlemesi

  • Konuşma tanıma (ASR)
    • Önceki: 11 çok dilli + 8 Çince lehçe
    • Şimdi: 74 dil + 39 Çince lehçesi
  • Konuşma sentezi (TTS)
    • Önceki: 29 çok dilli + 7 Çince lehçe
    • Şimdi: 36 dilde konuşma üretimi (orijinal metinde lehçe sentezi listesi ayrıca belirtilmiyor)

Kıyaslama değerleri (başlıca alıntılar)

  • Sesli-görsel (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
    • DailyOmni: 84.6 vs 82.7
    • AVUT: 85.0 vs 85.6
    • VideoMME (with audio): 83.7 vs 89.0
    • OmniGAIA: 57.2 vs 68.9
  • Ses (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
    • MMAU: 82.2 vs 81.1
    • VoiceBench: 93.1 vs 88.9
    • Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
  • Konuşma sentezi kararlılığı WER↓ (Custom Voice, Seed-hard)
    • Qwen3.5-Omni-Plus: 6.24
    • ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19

API ve kullanım yöntemi

  • Offline API: video·ses analizi ve web arama (enable_search parametresi) desteği; Python OpenAI uyumlu SDK ile çağrılabiliyor
  • Realtime API: WebSocket tabanlı gerçek zamanlı diyalog; dashscope SDK kullanıyor ve ses giriş/çıkış akışını destekliyor
  • Kullanılabilir model kimlikleri: qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
  • Çin anakarası (Pekin) ve uluslararası (Singapur) endpoint'leri ayrı ayrı destekleniyor

Ses listesi

  • Çince·İngilizce özel sesler: Tina, Cindy, Liora Mira, Sunnybobi, Raymond dahil 5 tür
  • Duygu eşlikli·rol yapma gibi senaryo sesleri: Ethan, Harvey, Maia dahil 19 tür (Çince ve İngilizce)
  • Çince lehçe sesleri: Siçuan lehçesi, Pekin lehçesi, Tianjin lehçesi, Kantonca dahil 8 tür
  • Çok dilli sesler: Korece (Sohee), Almanca (Lenn), Japonca (Ono Anna), İspanyolca, Fransızca, Rusça dahil 23 dilde toplam 23 tür

Henüz yorum yok.

Henüz yorum yok.