1 puan yazan GN⁺ 2025-12-12 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Qwen3-Omni-Flash-2025-12-01 metin, görsel, ses ve videoyu aynı anda işleyip gerçek zamanlı akışla metin ve ses çıktısı üreten bir sonraki nesil çok modlu büyük model
  • Ses ve görsel komut anlama ile diyalog stabilitesi büyük ölçüde artırılarak doğal ve tutarlı ses-görüntü etkileşimi uygulanıyor
  • Sistem istemini tamamen kontrol etme özelliğiyle kişilik stili, konuşma üslubu, çıktı uzunluğu gibi ayrıntılar hassas biçimde ayarlanabiliyor
  • 119 dilde metin, 19 dilde ses tanıma, 10 dilde ses sentezi desteklenerek çok dilli tutarlılık sorunları gideriliyor
  • Mantıksal çıkarım, kod üretimi, görsel ve ses anlama gibi tüm alanlarda performans geliştirilerek doğal ve hassas yapay zeka etkileşimi deneyimi sağlanıyor

Qwen3-Omni-Flash-2025-12-01 Genel Bakış

  • Qwen3-Omni metin, görsel, ses ve video gibi çeşitli girdileri işleyen ve gerçek zamanlı olarak metin ve doğal ses çıktısı üreten yerel çok modlu büyük model
  • Bu sürüm Qwen3-Omni-Flash-2025-12-01, önceki Qwen3-Omni üzerine inşa edilmiş tam kapsamlı bir yükseltme
  • Model performansı ve verimliliği genel olarak geliştirilerek daha hızlı ve doğru çok modlu işleme yeteneği sunuyor

Başlıca özellik iyileştirmeleri

  • Sesli-görsel etkileşim güçlendirmesi

    • Ses ve görsel komutları anlama ve uygulama yeteneği büyük ölçüde artırılarak günlük konuşma senaryolarındaki zekâ düşüşü problemi çözüldü
    • Çok turlu ses-görsel diyaloğun kararlılığı ve tutarlılığı yükselerek doğal etkileşim mümkün hale geliyor
  • Sistem istemi kontrolünün güçlendirilmesi

    • Sistem istemini tamamen kullanıcı tanımlı hale getirerek model davranışını hassas biçimde kontrol etmek mümkün
    • Kişilik stili (ör. tatlı, cool, animasyon tarzı), konuşma üslubu, çıktı uzunluğu gibi ayrıntıları ince ayar yapma
  • Çok dilli destek güvenilirliğinin artırılması

    • Metin tabanlı etkileşimde 119 dil, ses tanımada 19 dil, ses sentezinde 10 dil destekleniyor
    • Önceki sürümdeki dil istikrarsızlık sorunları giderilerek doğru ve tutarlı çok dilli performans sağlandı
  • Doğal ses sentezi

    • Konuşma hızı, duraklama ve tonlama metin bağlamına göre otomatik olarak ayarlanarak insan benzeri ses kalitesi elde ediliyor
    • Yavaş veya mekanik sesi kaldırarak ifade gücü yüksek doğal ses çıktısı sunuluyor

Performans iyileştirme ölçütleri

  • Metin anlama ve üretim yeteneğinin güçlendirilmesi

    • Mantıksal çıkarım ZebraLogic +5.6, kod üretimi LiveCodeBench-v6 +9.3, MultiPL-E +2.7, yazma kalitesi WritingBench +2.2 iyileşmesi
    • Karmaşık çok adımlı talimatları yerine getirmede güvenilirlik artışı
  • Ses anlama doğruluğunun artırılması

    • Fleurs-zh'de kelime hata oranında azalma, VoiceBench +3.2 iyileşmesi
    • Gerçek konuşma ortamlarında ses anlama gücü güçlendirildi
  • Ses sentezi kalitesi geliştirmesi

    • Çince ve çok dilli ortamlarda doğal tonlama ve ritim uygulanıyor
    • İnsan sesine benzer konuşma kalitesi sağlandı
  • Görsel anlama gücünün artırılması

    • Görsel akıl yürütme görevlerinde MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 iyileşmesi
    • Diyagram, matematiksel şekil gibi karmaşık görsel içeriklerin yorumlanması güçlendirildi
  • Video anlama geliştirmesi

    • MLVU +1.6 artışıyla video anlama yeteneği güçlendi
    • Ses-görsel senkronizasyon iyileştirilerek gerçek zamanlı video sohbeti temel alan gelişmişlik sağlandı

Gelecek planlar

  • Kullanıcı geri bildirimi ve Qwen3-Omni tabanlı yenilikçi uygulama örnekleri toplanacak
  • İleride çok konuşmacılı ses tanıma (ASR), video OCR, ses-görsel özerk öğrenme, ajan tabanlı iş akışı ve fonksiyon çağrısı desteği gibi genişletmeler planlanıyor

Alıntı bilgisi

  • Araştırmada kullanılacaksa aşağıdaki alıntının kullanılması önerilir

Henüz yorum yok.

Henüz yorum yok.