1 puan yazan GN⁺ 2025-12-12 | 1 yorum | WhatsApp'ta paylaş
  • Qwen3-Omni-Flash-2025-12-01 metin, görsel, ses ve videoyu aynı anda işleyip gerçek zamanlı akışla metin ve ses çıktısı üreten bir sonraki nesil çok modlu büyük model
  • Ses ve görsel komut anlama ile diyalog stabilitesi büyük ölçüde artırılarak doğal ve tutarlı ses-görüntü etkileşimi uygulanıyor
  • Sistem istemini tamamen kontrol etme özelliğiyle kişilik stili, konuşma üslubu, çıktı uzunluğu gibi ayrıntılar hassas biçimde ayarlanabiliyor
  • 119 dilde metin, 19 dilde ses tanıma, 10 dilde ses sentezi desteklenerek çok dilli tutarlılık sorunları gideriliyor
  • Mantıksal çıkarım, kod üretimi, görsel ve ses anlama gibi tüm alanlarda performans geliştirilerek doğal ve hassas yapay zeka etkileşimi deneyimi sağlanıyor

Qwen3-Omni-Flash-2025-12-01 Genel Bakış

  • Qwen3-Omni metin, görsel, ses ve video gibi çeşitli girdileri işleyen ve gerçek zamanlı olarak metin ve doğal ses çıktısı üreten yerel çok modlu büyük model
  • Bu sürüm Qwen3-Omni-Flash-2025-12-01, önceki Qwen3-Omni üzerine inşa edilmiş tam kapsamlı bir yükseltme
  • Model performansı ve verimliliği genel olarak geliştirilerek daha hızlı ve doğru çok modlu işleme yeteneği sunuyor

Başlıca özellik iyileştirmeleri

  • Sesli-görsel etkileşim güçlendirmesi

    • Ses ve görsel komutları anlama ve uygulama yeteneği büyük ölçüde artırılarak günlük konuşma senaryolarındaki zekâ düşüşü problemi çözüldü
    • Çok turlu ses-görsel diyaloğun kararlılığı ve tutarlılığı yükselerek doğal etkileşim mümkün hale geliyor
  • Sistem istemi kontrolünün güçlendirilmesi

    • Sistem istemini tamamen kullanıcı tanımlı hale getirerek model davranışını hassas biçimde kontrol etmek mümkün
    • Kişilik stili (ör. tatlı, cool, animasyon tarzı), konuşma üslubu, çıktı uzunluğu gibi ayrıntıları ince ayar yapma
    Reklam
  • Çok dilli destek güvenilirliğinin artırılması

    • Metin tabanlı etkileşimde 119 dil, ses tanımada 19 dil, ses sentezinde 10 dil destekleniyor
    • Önceki sürümdeki dil istikrarsızlık sorunları giderilerek doğru ve tutarlı çok dilli performans sağlandı
  • Doğal ses sentezi

    • Konuşma hızı, duraklama ve tonlama metin bağlamına göre otomatik olarak ayarlanarak insan benzeri ses kalitesi elde ediliyor
    • Yavaş veya mekanik sesi kaldırarak ifade gücü yüksek doğal ses çıktısı sunuluyor

Performans iyileştirme ölçütleri

  • Metin anlama ve üretim yeteneğinin güçlendirilmesi

    • Mantıksal çıkarım ZebraLogic +5.6, kod üretimi LiveCodeBench-v6 +9.3, MultiPL-E +2.7, yazma kalitesi WritingBench +2.2 iyileşmesi
    • Karmaşık çok adımlı talimatları yerine getirmede güvenilirlik artışı
    Reklam
  • Ses anlama doğruluğunun artırılması

    • Fleurs-zh'de kelime hata oranında azalma, VoiceBench +3.2 iyileşmesi
    • Gerçek konuşma ortamlarında ses anlama gücü güçlendirildi
  • Ses sentezi kalitesi geliştirmesi

    • Çince ve çok dilli ortamlarda doğal tonlama ve ritim uygulanıyor
    • İnsan sesine benzer konuşma kalitesi sağlandı
  • Görsel anlama gücünün artırılması

    • Görsel akıl yürütme görevlerinde MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 iyileşmesi
    • Diyagram, matematiksel şekil gibi karmaşık görsel içeriklerin yorumlanması güçlendirildi
    Reklam
  • Video anlama geliştirmesi

    • MLVU +1.6 artışıyla video anlama yeteneği güçlendi
    • Ses-görsel senkronizasyon iyileştirilerek gerçek zamanlı video sohbeti temel alan gelişmişlik sağlandı

Gelecek planlar

  • Kullanıcı geri bildirimi ve Qwen3-Omni tabanlı yenilikçi uygulama örnekleri toplanacak
  • İleride çok konuşmacılı ses tanıma (ASR), video OCR, ses-görsel özerk öğrenme, ajan tabanlı iş akışı ve fonksiyon çağrısı desteği gibi genişletmeler planlanıyor

Alıntı bilgisi

  • Araştırmada kullanılacaksa aşağıdaki alıntının kullanılması önerilir

1 yorum

 
GN⁺ 2025-12-12
Hacker News görüşleri
  • Bu model 30B parametreli bir MoE yapısına sahip ve aktif parametre sayısı 3B seviyesinde.
    Önceki 7B omni modelinin devamı niteliğinde; Qwen2.5-Omni-7B ile benzer performans beklenebilir.
    Açık olarak yayımlanmış omni model sayısı çok az olduğu için bunun oldukça anlamlı bir sürüm olduğunu düşünüyorum.
    Ben şahsen bu modeli giriş/çıkış arayüzünün (klavye·monitör) yerine kullanmak, arka planda ise hesaplamayı başka teknolojilerle işleyen bir yapı kurmak isterdim.
    Ayrıca bir reasoning sürümü de var; sesli sohbet sırasında ‘düşünüyor’ tokenlarını telaffuz etmesi oldukça eğlenceli olabilir.

    • Bu model, birden çok bileşenin üst üste geldiği bir yapı.
      650M ses kodlayıcı, 540M görsel kodlayıcı, 30B-A3B LLM, 3B-A0.3B ses LLM’i bulunuyor; ayrıca ses tokenlarını dalga biçimine dönüştürmek için 80M Transformer/200M ConvNet kullanılıyor.
      Qwen3-Omni’nin kapalı ağırlık güncelleme sürümü ve daha önce Qwen/Qwen3-Omni-30B-A3B-Instruct herkese açılmıştı.
      Şu anda açık kaynak çıkarım framework’leri tarafından tam desteklenmediği için yalnızca transformers içinde çok yavaş çalışıyor.
    • Alibaba Cloud belgelerine göre bu model açık kaynak değil.
    • Yeni sürümün ağırlıklarını hiçbir yerde bulamadım. Modelscope ve Hugging Face’e baktım ama yoktu; ayrıca bağlam penceresi 200K+ token seviyesine genişlemiş gibi görünüyor.
    • Reasoning sürümünün düşünce tokenlarını seslendirmesi ilginç. Claude da eskiden benzer şekilde çalışıyordu.
    • Düşünce tokenlarına reverb benzeri bir efekt eklenirse modelin ‘düşünme sesini’ duymak eğlenceli olabilir.
  • Qwen3-Omni’nin GPT-4o gibi gerçek zamanlı konuşmayı destekleyip desteklemediğini merak ediyordum.
    Belgelerde öyle görünmüyordu ama pratikte desteklediği söyleniyor.
    Acaba bunu NVIDIA dışı bir ortamda yerelde çalıştıran biri oldu mu diye merak ediyorum.

    • Resmî sohbet sitesinde henüz audio→audio model yok.
      Ben bunu genelde eşsesli kelime testleriyle (record vs record) ya da ses tonunu değiştirme istekleriyle kontrol ediyorum.
    • vLLM ya da SGLang gibi çıkarım framework’leri henüz tam destek vermediği için NVIDIA dışı ortamlarda mümkün değil.
    • Yine de yerel speech-to-speech özelliği var gibi görünüyor.
    • Hâlâ gerçekten iyi bir yerel sesli sohbet uygulaması olmadığını düşünüyorum.
      Silly Tavern gibi araçlar bile neredeyse unusable seviyesinde.
      Ama tam da bu tür yerel ses modelleri, doğal dil tabanlı iş akışlarının çekirdeği olacak.
  • Macbook’ta GGUF ya da MLX ile Omni modelini çalıştırmanın mümkün olup olmadığını merak ediyordum.
    LMStudio ya da Llama.cpp ile mümkün ama mikrofon veya web kamerası akışını desteklemiyor.
    Qwen genelde Cuda tabanlı Python örnekleri veriyor; bu yüzden açık kaynak bir alternatif arıyorum.

  • Ben Gemini Flash Live 2.5’i verimli şekilde kullanıyorum.
    3.0 sürümünün yakında gelmesini bekliyorum.
    Benchmark’larda Gemini Live’dan daha iyi görünüyor ama bunu bizzat test etmek gerekir.
    Şahsen İngilizce merkezli bir ortamda Qwen Omni modelinden hep biraz eksik tat aldım.

  • 32B oldukça küçük sayılır; bu yüzden 64GB RAM’li bir cihazda da çalışabilir gibi görünüyor.
    Ollama’ya gelirse bizzat test etmeyi planlıyorum.

    • Hugging Face’teki Qwen3-Omni-30B-A3B modelinin eylülde güncellendiği görülüyor.
      Ama makaledeki benchmark’larda Qwen3-Omni-Flash-2025-12-01’in Qwen3-235B-A22B’den daha yüksek performans verdiği yazıyor.
      30B bir modelin bunu nasıl yapabildiği kafa karıştırıcı.
      FLASH sürümü Hugging Face’te yok; büyük ihtimalle yalnızca API’ye özel bir model.
    • Ben 48GB RAM’li bir Mac üzerinde birleşik bellek sayesinde gayet iyi çalıştırıyorum.
  • Başta bunun yalnızca API’ye özel olduğunu sanmıştım ama Hugging Face koleksiyonunda model gerçekten var.
    Ancak pratikte bu eski sürüm ve HF demosu da API çağırıyor; yani yerel hesaplama yapmıyor.

  • Qwen3-Omni’nin 2.5 Flash’ı tüm benchmark’larda ezip geçtiği dikkat çekici.
    Artık LLM iş yüklerini yerel GPU’ya taşımanın zamanı gelmiş gibi.

    • Ama mutlaka kendi veri setinizle benchmark yapmalısınız.
      Açık benchmark’lara güvenmek zor; modele sadece onlara bakarak karar verirseniz hayal kırıklığı yaşayabilirsiniz.
    • Yalnızca metin odaklı işlerde Omni yerine Qwen3-30B-A3B kullanmak daha verimli.
    • Görsel benchmark’ların Qwen 2.0 ile kıyaslandığı görülüyor; bu yüzden biraz şüphe uyandırıyor.
  • Ses modelinin konuşma tarzının neden cansız bir his verdiğini merak ettim.
    Özellikle meyve fiyatları bölümünde tamamen doğal olsa da bunun yapay zeka olduğu hemen anlaşılabiliyordu.
    Muhtemelen tonlama ya da sabit konuşma hızından kaynaklanıyor.

    • Ben ise duygunun aşırı olmamasını tercih ediyorum.
      Fazla duygu ifadesi yapay hissettiriyor.
      Yine de Almanca telaffuz hataları olması üzücü.
    • Bu, tam anlamıyla end-to-end multimodal olmayabilir.
      Muhtemelen ayrı bir konuşma sentezi aşaması var ve sonuç bu yüzden böyle çıkıyor.
      Şarkı ya da tonlama testleriyle doğrulanabilir.
    • Görsel, ses, çok dillilik, tonlama kontrolü gibi çok fazla özelliği 30B parametreye sığdırmaya çalıştıkları için de olabilir.
      ChatGPT’nin ses modeli en doğal geleni.
    • Yapay zekanın konuşma tarzının hemen fark edilebilmesi aslında iyi bir şey de olabilir.
    • Ben ise AI’a özgü bir aksan (accent) olmasını daha çok seviyorum.
  • Gerçek zamanlı ses çıkışında ‘düşünüyor’ tokenlarıyla kullanıcıya yönelik konuşmayı ayırmanın zor olması gibi bir sorun var.

    • Basit yöntem, TTS’ten önce çıktı akışını ayırmak.
      reasoning/structured tokenlar bir tarafa, kullanıcıya gösterilecek metin başka tarafa gönderilir;
      yalnızca ikincisi konuşma sentezine verilirse ‘düşünüyor’ seslerinin duyulması sorunu çözülür.
  • Qwen’in açık ağırlık yayımlama konusunu muğlak ifade ettiğini düşünüyorum.
    Gerçekte çoğu kapalı; yayımlanmış gibi görünse de çoğu zaman yalnızca API’ye özel oluyor.
    Bu da kullanıcıların modeli ararken boş yere zaman harcamasına yol açıyor.