Qwen3-Omni: Metin, görsel ve video için yerel omni yapay zeka modeli

(github.com/QwenLM)

12 puan yazan GN⁺ 2025-09-23 | 2 yorum | WhatsApp'ta paylaş

Metin, görsel, ses ve videoyu tek bir model ile işleyen ve gerçek zamanlı ses üretimi yapabilen son teknoloji çok modlu LLM
119 metin dili, 19 konuşma girdi dili ve 10 konuşma çıktı dili desteğiyle küresel servislerin geliştirilmesi için optimize edilmiş özellikler sunar
Model mimarisi, MoE tabanlı Thinker–Talker tasarımı ile hem performansı hem verimliliği artırırken, akış tabanlı diyalog ve kullanıcıya özel davranış kontrolü sağlar
Açık kaynak olarak yayımlanan Qwen3-Omni-30B-A3B-Captioner, ayrıntılı ve halüsinasyon oranı düşük ses açıklama işlevi sunar
Hugging Face Transformers, vLLM, Docker, API gibi çeşitli ve esnek gerçek servis uyarlama yolları ile geliştirici kolaylığı sağlayan özelliklere sahiptir

Qwen3-Omni genel bakışı ve önemi

Qwen3-Omni, Alibaba Cloud'un Qwen ekibi tarafından geliştirilen uçtan uca çok dilli omnimodal LLM'dir (open-source large language model)
Bu proje, mevcut açık kaynak çok modlu yapay zekalar arasında nadir görülen biçimde metin, görsel, ses ve videoyu birleşik olarak anlayıp gerçek zamanlı yanıt üretebilmesi ile öne çıkıyor
Rakip açık kaynaklara kıyasla geniş dil desteği, gerçek zamanlı akış, yüksek hassasiyetli ses açıklama gibi güçlü yönlere sahiptir
Doğal dil soru-cevap, sesli/görsel durum analizi, zamansal çok modlu arayüzler gibi çeşitli yeni servislerin hızla hayata geçirilmesini mümkün kılar

Başlıca özellikler

Çok modlu işleme: Metin, görsel, ses ve video girdilerini birlikte işler; gerçek zamanlı metin/ses yanıtı üretir
Son teknoloji performans: Ses/video ile ilgili 36 benchmark'ın 22'sinde SOTA, açık kaynak kategorisinde 32 SOTA; ASR ve sesli diyalog performansı Gemini 2.5 Pro'ya yakındır
Geniş dil desteği: 119 metin, 19 konuşma girdi ve 10 konuşma çıktı dilini destekler
Gerçek zamanlı akış: Doğal turn-taking ve hızlı anlık yanıt sağlar
Kullanıcıya özel kontrol: Sistem prompt'ları üzerinden ince davranış ayarı ve uyarlanabilirlik sunar
MoE tabanlı mimari: Thinker–Talker tasarımı, AuT ön eğitimi ve çoklu codebook yapısıyla ultra düşük gecikme ve yüksek verimlilik sağlar
Ses açıklama modelinin açık kaynak olması: Qwen3-Omni-30B-A3B-Captioner ile ayrıntılı ses açıklaması ve halüsinasyon azaltma desteği sunar

Desteklenen alanlara göre senaryo örnekleri

Ses: Konuşma tanıma, konuşma çevirisi, müzik/ses analizi, ses açıklama vb.
Görsel: Karmaşık görüntü OCR, nesne tanıma, görsel tabanlı QA, matematik problemi çözümü, video açıklama/yol bulma, sahne geçişi analizi vb.
Ses + görsel: Çok modlu QA, diyalog, ajan tabanlı sesli çağrı vb.
Downstream fine-tuning: Qwen3-Omni-30B-A3B-Instruct kullanılarak caption modelinin fine-tuning'i

Modellere göre açıklama

Qwen3-Omni-30B-A3B-Instruct: Ses, video ve metin girdisi + metin/ses çıktısı (thinker+talker)
Qwen3-Omni-30B-A3B-Thinking: Ses, video ve metin girdisi + metin çıktısı (yalnızca thinker, chain-of-thought reasoning)
Qwen3-Omni-30B-A3B-Captioner: Ses girdisi → metin çıktısı, ayrıntılı açıklama ve minimum halüsinasyon (caption odaklı)

Başlıca kullanım ortamları ve avantajlar

Hugging Face Transformers entegrasyonu: Kolay kod gömme, çeşitli girdi kanallarını (B64, URL vb.) esnek işleme, FlashAttention 2 desteği
vLLM: Büyük ölçekli gerçek servislerde düşük gecikme ve eşzamanlılık avantajı, hızlı batch inference, çoklu GPU ortamında kolay ölçekleme, sunucu-API entegrasyonu gücü
Docker imajı sunulması: Ortam çakışmalarını en aza indirir, kolay deney ve dağıtım sağlar
DashScope API: Alibaba'nın resmî API'si; hem gerçek zamanlı hem çevrimdışı desteği vardır
Web/on-premise demo: Ayrı kurulum olmadan web tabanlı deneyim imkânı sunar

Gerçek kullanım örnekleri ve ipuçları

Çekirdek algoritma ve işlevler

Thinker–Talker yapısı sayesinde ayrıştırılmış gelişmiş akıl yürütme ve konuşma sentezi mümkündür
Farklı girdi kombinasyonları (yalnızca metin / metin+görsel / ses / video vb.) için tutarlı API ve açık prompt işleme desteği sunar
Ses çıktısı istenmiyorsa bellek tasarrufu seçeneği bulunur (10GB'dan fazla bellek tasarrufu)
Çeşitli konuşma sentezi seçenekleri (Ethan, Chelsie, Aiden vb.) desteklenir; speaker parametresiyle seçilebilir

Gelişmiş batch/diyalog örnekleri

Birden çok çok modlu mesajı tek seferde birleştirip işleyerek büyük veri, benchmark ve etkileşimli servislerde verimlilik sağlar
Her mesaj için (metin, görsel, ses, video kombinasyonları) özelleştirilmiş yanıt üretir

vLLM tabanlı üretim dağıtımı

Parametre ayarlarıyla (tensor_parallel_size, max_num_seqs, limit_mm_per_prompt vb.) eşzamanlı çıkarım ve bellek ayarı yapılabilir
vLLM serve içinde API tabanlı diyalog desteği sunar; ileride Instruct modelinin ses çıktısı da desteklenecektir

API ve ortam

DashScope API üzerinden bulut tabanlı gerçek zamanlı ve çevrimdışı/caption odaklı API dokümantasyonu (Çin/küresel) sunulur
Gerçek servis ve araştırma gibi farklı amaçlara uygun şekilde vLLM, Official API ve Transformers ortamlarını kapsayan esneklik sağlar

Sistem özellikleri / öneriler

BF16 hassasiyetinde 15~120 saniyelik videolar için gereken minimum bellek (68~145GB) bilgisi sunulur
GPU ortamı ve FlashAttention 2 desteği gereklidir
Prompt kullanımı ipucu: açık metin talimatlarını çok modlu girdilerle birlikte kullanın

Ajan ve downstream kullanım

Ses tabanlı function calling, gerçek zamanlı çok modlu diyalog/analiz/asistan servisleri, ayrıntılı ses açıklaması gibi çeşitli ajanlar geliştirilebilir
Sistem prompt'larıyla rol kontrolü, diyalog stili ve çerçeve ayarı için örnekler sunulur

Kapanış

Qwen3-Omni, açık kaynak LLM'ler arasında dünyanın en büyük ölçekli genel amaçlı metin+ses+görsel+video entegrasyonlarından birini sunar ve gerçek zamanlı/büyük ölçekli web servisleri, araştırma ve kurum içi kurulumlar için idealdir. vLLM, API, Docker ortamları ile sıkı entegrasyonu, yüksek uyumluluğu ve ayrıntılı örnek desteği sayesinde geliştirici verimliliği ve rekabet avantajı açısından çok büyük fayda sağlar.

2 yorum

yeorinhieut 2025-09-24

Korece - Koreceyi destekliyor!

GN⁺ 2025-09-23

Hacker News görüşleri

İngilizce konuşurken hızın çok yavaş hissettirdiğini düşündüm ama İspanyolca konuşunca çok daha hızlı geldi; gerçek zamanlı çeviri gibi inanılmaz özellikleri yakında kullanabilecek olmamız gerçekten etkileyici. ABD'deki araştırma laboratuvarları açık ağırlık rekabetine ciddi biçimde girmezse, sonunda Çin'in yapay zeka pazarına hakim olacağını düşünüyorum. Gizlilik ve veri sahipliği konusunda hassas Amerikalıların, sonuçta evlerinde açık Çin modellerini çalıştıran 1.000-2.000 dolarlık cihazlar bulundurabileceği fikri aklıma geliyor; gerçekten çarpıcı bir değişim.
- ABD'de yaşarken, Çin'in Linux'u güçlü biçimde teşvik ettiğini, RISC-V gibi açık CPU mimarilerini ve kendi kendine barındırılan açık modelleri öne çıkardığını anlatan haberler görüyorum. Sanki asıl “kötü adam” bizmişiz gibi hissetmeye başladım.
- Ben gerçekten evde iki tane 3090 üzerinde Qwen3 çalıştırıyorum. Home Assistant ile entegre edip esp32 ses uydu cihazlarını da kullanıyorum. Şaşırtıcı derecede iyi çalıştığını bizzat gördüm.
- Sıradan bir Amerikalının gizliliği güvence altına alan teknolojilere 1.000-2.000 dolar fazladan harcamaya pek niyeti yok gibi görünüyor. Zaten çoğu insan 20-200 dolar tasarruf etmek için IoT kameralarıyla (Ring vb.) evdeki tüm ses/görüntü verisini arama kararı olmadan devlete vermiş durumda.
Doğrudan https://chat.qwen.ai/ üzerinden deneyebilirsiniz; ses modunu kullanmak için Google veya GitHub ile giriş yapmak gerekiyor. Çeşitli sesler var; örneğin Dylan (Pekin ara sokaklarında büyümüş bir genç), Peter (Tianjin skeç uzmanı), Cherry (neşeli ve pozitif genç bir kadın), Ethan (enerjik ve sıcak bir erkek çocuk), Eric (özel bir Sichuan Chengdu erkeği), Jada (Şanghay'dan karizmatik bir abla) gibi.
- Özellikle dili değiştirip sesleri test etmek gerçekten komik; Rusçada Ryan, sanki bir ay önce Rusça öğrenmeye başlamış Batılı biri gibi geliyor, Dylan daha doğal, diğer seslerde ise güçlü bir Asya aksanlı Rusça var; her birinin karakteri eğlenceli.
- Bende yalnızca Omni Flash görünüyor, doğru olan bu mu diye merak ediyorum.
Model ağırlıkları 70GB ve dosya boyutu da Hugging Face'te belirtilmiş (Qwen/Qwen3-Omni-30B-A3B-Instruct); yerelde çalıştırmak için oldukça erişilebilir bir boyut. Yakında bir macOS portu gelir mi merak ediyorum; şu an NVIDIA GPU şart gibi görünüyor.
- BF16 baz alınırsa, kuantizasyon (Q4) ile 24GB GPU'ya rahatça sığar gibi duruyor. Aynı 30B-A3B ailesindeki diğer modellerle benzer diye düşünüyorum. 200B+ boyutunda olmasından korkuyordum, o yüzden sevindirici.
- Benim vaktim olmadığı için deneyemedim ama dün yayınlanan Apple için Mojo stuff ile entegre etmeye çalışmak ilginç olabilir. Henüz ne kadar olgun olduğu belli değildir ama eğlenceli bir deneme olur diye düşünüyorum.
- macOS'ta çalışan bir inference engine olup olmadığını merak ediyorum.
- 5090'da çalıştırılabilir mi öğrenmek istiyorum. Ya da birden fazla GPU bağlamak mümkün mü, yoksa NVIDIA bunu engelliyor mu diye merak ediyorum.
Demo videosu burada; özellikle video-ses girdisini başka bir dile çevirip ses çıktısı vermesi, şu ana kadar gördüklerim içinde en etkileyici olanıydı.
YouTube demo videosu
Bu alandaki gerçek kaldıraç noktası performans/boyut. Açık ağırlık rekabeti oluşursa verimlilikte yenilik yapmaya zorlayacağını düşünüyorum. Kapalı ağırlıklı modellerin hiç düşünmediği avantajlar ortaya çıkabilir. Kümelenmiş kolektif çıkarım mekanizmaları yeterince gelişirse, bir H100 sunucuda 8 adet 30B modelin doğruluk açısından 1 adet 240B modeli ne zaman geçeceğini merak ediyorum.
Meraktan birkaç basit ses klibi verdim; piyano, davul gibi enstrümanları bile ayırt ediyor. Ses dışı ses tanımaya odaklanan multimodal LLM araştırmalarını henüz çok görmedim gibi geliyor. En ileri seviye durumuna (SOTA) dair daha derin bir analiz olsa güzel olurdu.
"native video support" ifadesinin gerçekte ne anlama geldiğini merak ediyorum. Sadece art arda gelen tam kare görüntüleri yorumlamak mı kastediliyor, bu durumda hızlı olaylar kaçırılır, yoksa daha karmaşık bir teknolojiden mi söz ediliyor öğrenmek istiyorum.
Ses girişi + ses çıkışının gerçekten büyük bir değişim olduğunu düşünüyorum. Teoride sesle konuşup hem benim dilime hem de karşı tarafın diline anında çeviri yapılabilir. Şu anda arada uyandırma kelimesi, speech-to-text, text-to-speech gibi çeşitli teknolojiler gerekiyor ama bu modelde en azından 32b seviyesinde hem ses girişi hem ses çıkışı destekleyen yaklaşık 3 sürüm var gibi görünüyor. Mimariye bağlı olarak ileride bunu evde ya da “AI tost makinesi” benzeri cihazlarda doğrudan çalıştırmak mümkün olabilir.
- Böyle bir modeli araç çağrılarıyla ev otomasyon sistemine bağlarsanız fırsatlar çok büyük olur diye düşünüyorum. ChatGPT'ye bu özellik geldikten sonra diğer servislerin de desteklemesini bekliyordum. Özellikle yemek yaparken gibi elleriniz doluyken ("Sonraki adımı oku, elimde et var", "Roux yaparken ne kadar un lazım?", "Limon yok, yerine ne kullanabilirim?") devrim niteliğinde kullanım alanları olabilir.
- Her şeyden önce dil öğreniminde çok yardımcı olacak gibi görünüyor. Yerelde de çalıştırılabilir gibi duruyor. Özellikle unsloth geliştiricileri ilgilenirse daha da umut verici olur.
Qwen'in thinker/speaker mimarisi gerçekten ilginç. Benim insanın multimodal bilişini hayal etme biçimime benziyor; örneğin bir elma fotoğrafı, "apple" yazımı ve sesi, arada metin olmadan da aynı kavrama eşlenebiliyor.
- Tüm LLM'ler zaten böyle çalışmıyor mu diye merak ediyorum.
Multimodal modelleri öğrenmek için iyi kaynaklar var mı merak ediyorum; nereden başlamam gerektiğini pek bilmiyorum.