Qwen3-TTS ailesi açık kaynak olarak yayımlandı: ses tasarımı, klonlama ve üretim özellikleri sunuyor

(qwen.ai)

31 puan yazan GN⁺ 2026-01-23 | 3 yorum | WhatsApp'ta paylaş

Qwen3-TTS, ses klonlama, ses tasarımı, ultra yüksek kaliteli insan benzeri ses üretimi ve doğal dil tabanlı kontrolü destekleyen çok dilli ses üretim modeli serisidir
Çince, İngilizce, Japonca, Korece dahil 10 ana dil ve çeşitli lehçeleri destekler; 1.7B ve 0.6B olmak üzere iki model boyutunda sunulur
Şirketin kendi geliştirdiği Qwen3-TTS-Tokenizer-12Hz kodlayıcısı sayesinde ses sinyallerini verimli şekilde sıkıştırır, sözlü olmayan bilgileri ve akustik ortamı tamamen korur
Dual-Track akış mimarisi ile tek bir karakter girdisinden sonra ilk ses paketini hemen üretir ve 97 ms gecikme ile gerçek zamanlı sentez performansına ulaşır
Açık kaynak olarak yayımlanmasıyla birlikte geliştiriciler ve şirketler yüksek kaliteli ses üretim teknolojisinden doğrudan yararlanabilir

Qwen3-TTS genel bakış

Qwen3-TTS, Qwen tarafından geliştirilen yüksek performanslı ses üretim modeli serisi olup; ses tasarımı, klonlama, üretim ve kontrol özelliklerini entegre biçimde sunar
- Doğal dil komutlarıyla ses rengi, duygu, tonlama gibi özellikler kontrol edilebilir
- Qwen API ve GitHub üzerinden erişilebilir
Qwen3-TTS-Tokenizer-12Hz çoklu codebook kodlayıcısını temel alarak yüksek hızlı, yüksek sadakatli ses geri üretimi ve verimli sıkıştırma sağlar
Dual-Track çift yönlü akış ile karakter düzeyinde gerçek zamanlı ses çıkışını destekler

Model yapısı

Tüm model ailesi 1.7B ve 0.6B olmak üzere iki boyutta sunulur
- 1.7B: en yüksek performans ve hassas kontrol özellikleri sunar
- 0.6B: performans ile verimlilik arasında dengeli bir seçenektir
Her iki model de Çince, İngilizce, Japonca, Korece, Almanca, Fransızca, Rusça, Portekizce, İspanyolca ve İtalyanca destekler
3 saniyelik ses girdisiyle hızlı ses klonlama yapılabilir, ayrıca fine-tuning (FT) için de kullanılabilir

Başlıca teknik özellikler

Yüksek performanslı ses ifade yeteneği
- Qwen3-TTS-Tokenizer-12Hz ile akustik sinyallerin yüksek boyutlu anlamsal modellemesi ve sıkıştırılması gerçekleştirilir
- Sözlü olmayan bilgiler ve ortam sesleri korunur, hafif non-DiT yapısı sayesinde yüksek hızlı geri üretim desteklenir
Uçtan uca çoklu codebook yapısı
- Mevcut LM+DiT yaklaşımındaki bilgi darboğazı ve hata birikimi sorunlarını ortadan kaldırır
- Modelin genel kullanım kabiliyeti, üretim verimliliği ve performans sınırını artırır
Ultra düşük gecikmeli akış sentezi
- Dual-Track hibrit yapı ile akış ve akışsız kullanım aynı anda desteklenir
- Tek karakter girdisinden sonra ilk ses çıktısı alınır, 97 ms gecikme elde edilir
Akıllı metin anlama ve ses kontrolü
- Doğal dil komutlarıyla ses rengi, duygu, prosodi gibi çok boyutlu özellikler kontrol edilir
- Metnin anlamına göre ton ve ritim otomatik olarak ayarlanır

Model performans değerlendirmesi

Ses tasarımı: InstructTTS-Eval benchmark'ında MiniMax-Voice-Design'dan daha yüksek komut yerine getirme ve ifade gücü elde etti
Ses kontrolü: tek konuşmacılı çok dilli genellemede WER %2.34, stil kontrol puanı %75.4 kaydetti
- 10 dakikalık kesintisiz sentezde de Çince için WER %2.36, İngilizce için %2.81 seviyesini korudu
Ses klonlama: Seed-tts-eval'de MiniMax, SeedTTS'den daha istikrarlı sonuç verdi
- 10 dil ortalamasında WER %1.835, konuşmacı benzerliği 0.789 ile CosyVoice3'ü geride bıraktı

Tokenizer performansı

LibriSpeech test-clean seti temelinde SOTA seviyesine ulaştı
- PESQ: geniş bant 3.21, dar bant 3.68
- STOI: 0.96, UTMOS: 4.16
- Konuşmacı benzerliği 0.95 ile neredeyse kayıpsız düzeyde konuşmacı bilgisi korunumu sağladı

Ses tasarımı ve örnekler

Doğal dil açıklamalarına dayalı olarak özelleştirilmiş ses rengi üretimi mümkündür
- Cinsiyet, yaş, duygu, tonlama gibi ayrıntılı özellikler kontrol edilebilir
- Örnek: emredici erkek sesi, duygusal kadın sesi, yaş gruplarına göre ses rengi
Timbre Reuse özelliği ile üretilen ses rengi kaydedilip yeniden kullanılabilir
- Çok konuşmacılı diyaloglarda veya uzun anlatımlarda kullanılabilir

CustomVoice ve ses rengi kontrolü

Konuşmacı bazlı fine-tuning sonrasında da hedef ses rengini koruyarak çok dilli konuşma mümkündür
Hem tek özellikli hem çok özellikli kontrol desteklenir
- Örnek: hüzün, öfke, fısıltı, yavaş konuşma tarzı gibi ince duygu ayarları
9 adet açık ses rengi seti sunulur
- Çince, İngilizce, Japonca, Korece ve lehçeleri içerir
- Örnek: 苏瑶(Serena), 福伯(Uncle Fu), 十三(Vivian), 甜茶(Ryan), 素熙(Sohee) vb.

Voice Clone ve çok dilli klonlama

3 saniyelik ses girdisiyle yüksek hızlı ses klonlama yapılabilir
- Çince ve İngilizce klonlamaya ek olarak diller arası klonlama da desteklenir
- Örnek: Japonca, Korece gibi çok dilli konuşma mümkündür
Metin gürültüsüne karşı dayanıklılık sağlanmıştır
- Karmaşık semboller, pinyin ve özel karakterler içeren cümleler de doğru şekilde telaffuz edilir

Tokenizer tabanlı ses geri üretimi

Lehçeler, şarkı, sözlü olmayan sesler, arka plan sesleri gibi çeşitli akustik unsurlar geri üretilebilir
Özgün kaynağa kıyasla yüksek sadakatli yeniden oluşturma kalitesi kanıtlandı

3 yorum

sudosudo 2026-01-24

Vay, dizüstü bilgisayarda bile çalışıyor.

xguru 2026-01-23

Ben de bu aralar yerelde Qwen tabanlı modelleri gerçekten çok kullanıyorum.
İlk başta Alibaba modeli olduğu için böyledir diye düşünmüştüm ama sürekli iyileştirip genişletmeleri gerçekten şaşırtıcı.

GN⁺ 2026-01-23

Hacker News yorumları

macOS'ta mlx-audio kullanarak çalıştırmayı denedim. Bunu Prince Canuma'nın tweeti sayesinde yapabildim
Kullandığım betik burada
uv ile çalıştırınca başlangıçta 4.5GB'lık modeli indiriyor. Örnek komut şu şekilde
uv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wav
- Gerçekten harika. uv için bir zafer daha
Bizzat voice cloning denemek isterseniz, bunu Hugging Face demosunda yapabilirsiniz
"Voice Clone" sekmesine gidip örnek metni yapıştırdıktan sonra mikrofonla kendi sesinizi kaydedin; ardından başka bir metin girerek kendi sesinizle okunan bir sürüm üretebilirsiniz
Ürettiğim ses örneklerini burada paylaştım
- Açıkçası biraz ürkütücü geliyor. z-image-turbo ile birleşince artık ekrandaki her şeyin sahte olabileceğini varsaymak gerekiyor. Kriptografik doğrulama olmadan güvenilemeyecek bir döneme girdik
- HF demosu aşırı yüklüydü ama yerelde iyi çalıştı. 1.7B model konuşmacının tonunu iyi yakalıyor ama entonasyon değişimleri zayıf olduğu için monoton geliyor. Muhtemelen demoda ifade kontrolü özelliği açılmadığı içindir. Yine de 0.6B'ye göre gürültü işleme çok daha iyiydi. FlashAttention olmadan 5090 GPU'da yaklaşık 0.3x hızında yavaştı ama kalite etkileyiciydi
- İnanılmaz bir teknoloji. Kopyalanmış sesim gerçekten bana benziyordu. Bunun hem iyi hem kötü pek çok kullanım alanı olacak gibi görünüyor — örneğin vefat etmiş bir büyükannenin torununa masal okumasından dolandırıcılığa ya da otomatik podcast üretimine kadar
- Paylaşılan kayıttan tek başına klonlama performansını değerlendirmek zor. Yanında orijinal ses örneği de olmalı
- Eğlenerek denedim. Sesimden birkaç dakikalık kayıt saklasam, bir gün kendimin bana kitap okuduğu bir sesli kitap bile yapabilirim gibi geliyor
İlginç bir model. 1080 GPU'da 0.6B modeli çalıştırdım; 200 karakterlik parçalar halinde OOM olmadan üretim yapabildi. Tao Te Ching sesli kitabı yapmayı denedim ama sonuçlar her seferinde farklı çıktığı için adeta sihirli rulet gibiydi. Bazı kısımlar netti, bazılarında ise gülme ya da inleme gibi duygular vardı; duygusal ton çok dalgalanıyordu. Ryan konuşmacısı en istikrarlı olanıydı, Eric ise abartılı bir Çin aksanı gibi geliyordu. Duygu tutarlı olsaydı şimdiye kadar kullandığım en iyi TTS olurdu
- Duyguyu doğrudan belirtmeyi denediniz mi? Boş bırakırsanız rastgele duygu (rng) olarak ayarlanıyor olabilir
- 1080'deki RTF (gerçek zaman oranı) değerini merak ediyorum. 0.6B modelin edge cihazlarda gerçek zamanlı çıkarım yapıp yapamayacağını kontrol ediyorum
Qwen ekibinden bir ricam var — keşke Opus 4.5'in kodlama yeteneğini aşan bir model çıkarsalar. Modellerini seviyorum ama o şirketin kapalı liderlik yapısını ve politik olarak bölücü tavrını sevmiyorum
- Belki de bekledikleri yorum tam olarak budur
- Ben de aynı sorunu yaşıyorum (Danimarkalıyım). Open Code ve Minimax m2.1'i (aylık 10 dolar) test ettim ve oldukça iyi çalıştılar. GLM 4.7 de harika. Ayrıntılı karşılaştırma bu yazıda. Özellikle hoşlanmadığınız bir şirkete para göndermek zorunda değilsiniz
- “Politik olarak bölücü” derken tam olarak ne kastedildiğini merak ediyorum
- GLM 4.7 ile iyi sonuçlar alıyorum. İki max hesabını 24/7 çalıştırıyorum ve kod incelemelerinin bir kısmını Claude ile yapıyorum. Maliyet önemliyse GLM 4.7 iyi bir seçenek
- Yeni çıkan GLM 4.7'yi deneyip denemediğinizi merak ediyorum
Böyle bir teknolojinin bu kadar ürkütücü derecede ilerlemesi uzun zamandır olmamıştı. 2018'den beri AI TTS kullanıyorum ama bu model ilk kez eski radyo dramalarını restore etmenin mümkün olduğunu hissettirdi. Örneğin bant hasarı nedeniyle bazı repliklerin kaybolduğu yerleri bağlamdan yola çıkarak yeniden oluşturabilir gibi görünüyor. Bob Bailey gibi oyuncuların onlarca saatlik ses kayıtları yeniden canlandırılabilir belki
- Dinlediğim örnekler Miyazaki tarzı anime dublajı gibi geliyordu. Acaba böyle verilerle mi eğitildi diye merak ettim
- Ben de “Have Gun - Will Travel” radyo bölümlerini restore etmeye yönelik bir proje planlıyorum. Bant hasarı ya da ses efekti paraziti yüzünden anlaşılmayan kısımları geri getirebilmek gerçekten inanılmaz olurdu. Tabii kötüye kullanım potansiyeli de çok büyük
Mac'te çalıştırmayı deneyen oldu mu diye merak ediyorum. Kurulum rehberi NVIDIA GPU (CUDA, FlashAttention) varsayıyor, bu yüzden PyTorch Metal/MPS backend'inde çalışıp çalışmayacağını bilmiyorum
- FlashAttention olmadan --no-flash-attn seçeneğiyle çalıştırabilirsiniz. Ben de Windows'ta öyle yapıyorum
- Metal ortamı kiralamak için modal kullanmanızı öneririm
- FlashAttention bağımlılığı nedeniyle şu an mümkün değil. Umarım biri Metal'e port eder
Son Age Control örneği “Amerikan aksanı” olarak ayarlanmıştı ama bana Amerikan aksanı taklidi yapan bir Avustralyalı gibi geldi
Sesli kitap üretimi için gerçekten çok uygun görünüyor. Mevcut AI TTS sistemleri hâlâ doğallık açısından geride kalıyordu
Seslendirme oyunculuğu sektörü artık yavaş yavaş olgunlaşıyor. Bazı demolarda indie seslendirme sanatçılarından çok daha cilalı bir ses vardı
Bir gün büyükannemin bununla dolandırılacağından endişe ediyorum
- Şimdiye kadar bunun başlıca kullanım alanı buymuş gibi görünüyor
- Ama günümüz büyükanneleri QVC ve telefon medyumları kuşağından, yani artık bu tür şeylere o kadar kolay kanmayabilirler