- Qwen3-TTS, ses klonlama, ses tasarımı, ultra yüksek kaliteli insan benzeri ses üretimi ve doğal dil tabanlı kontrolü destekleyen çok dilli ses üretim modeli serisidir
- Çince, İngilizce, Japonca, Korece dahil 10 ana dil ve çeşitli lehçeleri destekler; 1.7B ve 0.6B olmak üzere iki model boyutunda sunulur
- Şirketin kendi geliştirdiği Qwen3-TTS-Tokenizer-12Hz kodlayıcısı sayesinde ses sinyallerini verimli şekilde sıkıştırır, sözlü olmayan bilgileri ve akustik ortamı tamamen korur
- Dual-Track akış mimarisi ile tek bir karakter girdisinden sonra ilk ses paketini hemen üretir ve 97 ms gecikme ile gerçek zamanlı sentez performansına ulaşır
- Açık kaynak olarak yayımlanmasıyla birlikte geliştiriciler ve şirketler yüksek kaliteli ses üretim teknolojisinden doğrudan yararlanabilir
Qwen3-TTS genel bakış
- Qwen3-TTS, Qwen tarafından geliştirilen yüksek performanslı ses üretim modeli serisi olup; ses tasarımı, klonlama, üretim ve kontrol özelliklerini entegre biçimde sunar
- Doğal dil komutlarıyla ses rengi, duygu, tonlama gibi özellikler kontrol edilebilir
- Qwen API ve GitHub üzerinden erişilebilir
- Qwen3-TTS-Tokenizer-12Hz çoklu codebook kodlayıcısını temel alarak yüksek hızlı, yüksek sadakatli ses geri üretimi ve verimli sıkıştırma sağlar
- Dual-Track çift yönlü akış ile karakter düzeyinde gerçek zamanlı ses çıkışını destekler
Model yapısı
- Tüm model ailesi 1.7B ve 0.6B olmak üzere iki boyutta sunulur
- 1.7B: en yüksek performans ve hassas kontrol özellikleri sunar
- 0.6B: performans ile verimlilik arasında dengeli bir seçenektir
- Her iki model de Çince, İngilizce, Japonca, Korece, Almanca, Fransızca, Rusça, Portekizce, İspanyolca ve İtalyanca destekler
- 3 saniyelik ses girdisiyle hızlı ses klonlama yapılabilir, ayrıca fine-tuning (FT) için de kullanılabilir
Başlıca teknik özellikler
- Yüksek performanslı ses ifade yeteneği
- Qwen3-TTS-Tokenizer-12Hz ile akustik sinyallerin yüksek boyutlu anlamsal modellemesi ve sıkıştırılması gerçekleştirilir
- Sözlü olmayan bilgiler ve ortam sesleri korunur, hafif non-DiT yapısı sayesinde yüksek hızlı geri üretim desteklenir
- Uçtan uca çoklu codebook yapısı
- Mevcut LM+DiT yaklaşımındaki bilgi darboğazı ve hata birikimi sorunlarını ortadan kaldırır
- Modelin genel kullanım kabiliyeti, üretim verimliliği ve performans sınırını artırır
- Ultra düşük gecikmeli akış sentezi
- Dual-Track hibrit yapı ile akış ve akışsız kullanım aynı anda desteklenir
- Tek karakter girdisinden sonra ilk ses çıktısı alınır, 97 ms gecikme elde edilir
- Akıllı metin anlama ve ses kontrolü
- Doğal dil komutlarıyla ses rengi, duygu, prosodi gibi çok boyutlu özellikler kontrol edilir
- Metnin anlamına göre ton ve ritim otomatik olarak ayarlanır
Model performans değerlendirmesi
- Ses tasarımı: InstructTTS-Eval benchmark'ında MiniMax-Voice-Design'dan daha yüksek komut yerine getirme ve ifade gücü elde etti
- Ses kontrolü: tek konuşmacılı çok dilli genellemede WER %2.34, stil kontrol puanı %75.4 kaydetti
- 10 dakikalık kesintisiz sentezde de Çince için WER %2.36, İngilizce için %2.81 seviyesini korudu
- Ses klonlama: Seed-tts-eval'de MiniMax, SeedTTS'den daha istikrarlı sonuç verdi
- 10 dil ortalamasında WER %1.835, konuşmacı benzerliği 0.789 ile CosyVoice3'ü geride bıraktı
Tokenizer performansı
- LibriSpeech test-clean seti temelinde SOTA seviyesine ulaştı
- PESQ: geniş bant 3.21, dar bant 3.68
- STOI: 0.96, UTMOS: 4.16
- Konuşmacı benzerliği 0.95 ile neredeyse kayıpsız düzeyde konuşmacı bilgisi korunumu sağladı
Ses tasarımı ve örnekler
- Doğal dil açıklamalarına dayalı olarak özelleştirilmiş ses rengi üretimi mümkündür
- Cinsiyet, yaş, duygu, tonlama gibi ayrıntılı özellikler kontrol edilebilir
- Örnek: emredici erkek sesi, duygusal kadın sesi, yaş gruplarına göre ses rengi
- Timbre Reuse özelliği ile üretilen ses rengi kaydedilip yeniden kullanılabilir
- Çok konuşmacılı diyaloglarda veya uzun anlatımlarda kullanılabilir
CustomVoice ve ses rengi kontrolü
- Konuşmacı bazlı fine-tuning sonrasında da hedef ses rengini koruyarak çok dilli konuşma mümkündür
- Hem tek özellikli hem çok özellikli kontrol desteklenir
- Örnek: hüzün, öfke, fısıltı, yavaş konuşma tarzı gibi ince duygu ayarları
- 9 adet açık ses rengi seti sunulur
- Çince, İngilizce, Japonca, Korece ve lehçeleri içerir
- Örnek: 苏瑶(Serena), 福伯(Uncle Fu), 十三(Vivian), 甜茶(Ryan), 素熙(Sohee) vb.
Voice Clone ve çok dilli klonlama
- 3 saniyelik ses girdisiyle yüksek hızlı ses klonlama yapılabilir
- Çince ve İngilizce klonlamaya ek olarak diller arası klonlama da desteklenir
- Örnek: Japonca, Korece gibi çok dilli konuşma mümkündür
- Metin gürültüsüne karşı dayanıklılık sağlanmıştır
- Karmaşık semboller, pinyin ve özel karakterler içeren cümleler de doğru şekilde telaffuz edilir
Tokenizer tabanlı ses geri üretimi
- Lehçeler, şarkı, sözlü olmayan sesler, arka plan sesleri gibi çeşitli akustik unsurlar geri üretilebilir
- Özgün kaynağa kıyasla yüksek sadakatli yeniden oluşturma kalitesi kanıtlandı
3 yorum
Vay, dizüstü bilgisayarda bile çalışıyor.
Ben de bu aralar yerelde Qwen tabanlı modelleri gerçekten çok kullanıyorum.
İlk başta Alibaba modeli olduğu için böyledir diye düşünmüştüm ama sürekli iyileştirip genişletmeleri gerçekten şaşırtıcı.
Hacker News yorumları
macOS'ta mlx-audio kullanarak çalıştırmayı denedim. Bunu Prince Canuma'nın tweeti sayesinde yapabildim
Kullandığım betik burada
uvile çalıştırınca başlangıçta 4.5GB'lık modeli indiriyor. Örnek komut şu şekildeuv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wavBizzat voice cloning denemek isterseniz, bunu Hugging Face demosunda yapabilirsiniz
"Voice Clone" sekmesine gidip örnek metni yapıştırdıktan sonra mikrofonla kendi sesinizi kaydedin; ardından başka bir metin girerek kendi sesinizle okunan bir sürüm üretebilirsiniz
Ürettiğim ses örneklerini burada paylaştım
İlginç bir model. 1080 GPU'da 0.6B modeli çalıştırdım; 200 karakterlik parçalar halinde OOM olmadan üretim yapabildi. Tao Te Ching sesli kitabı yapmayı denedim ama sonuçlar her seferinde farklı çıktığı için adeta sihirli rulet gibiydi. Bazı kısımlar netti, bazılarında ise gülme ya da inleme gibi duygular vardı; duygusal ton çok dalgalanıyordu. Ryan konuşmacısı en istikrarlı olanıydı, Eric ise abartılı bir Çin aksanı gibi geliyordu. Duygu tutarlı olsaydı şimdiye kadar kullandığım en iyi TTS olurdu
Qwen ekibinden bir ricam var — keşke Opus 4.5'in kodlama yeteneğini aşan bir model çıkarsalar. Modellerini seviyorum ama o şirketin kapalı liderlik yapısını ve politik olarak bölücü tavrını sevmiyorum
Böyle bir teknolojinin bu kadar ürkütücü derecede ilerlemesi uzun zamandır olmamıştı. 2018'den beri AI TTS kullanıyorum ama bu model ilk kez eski radyo dramalarını restore etmenin mümkün olduğunu hissettirdi. Örneğin bant hasarı nedeniyle bazı repliklerin kaybolduğu yerleri bağlamdan yola çıkarak yeniden oluşturabilir gibi görünüyor. Bob Bailey gibi oyuncuların onlarca saatlik ses kayıtları yeniden canlandırılabilir belki
Mac'te çalıştırmayı deneyen oldu mu diye merak ediyorum. Kurulum rehberi NVIDIA GPU (CUDA, FlashAttention) varsayıyor, bu yüzden PyTorch Metal/MPS backend'inde çalışıp çalışmayacağını bilmiyorum
--no-flash-attnseçeneğiyle çalıştırabilirsiniz. Ben de Windows'ta öyle yapıyorumSon Age Control örneği “Amerikan aksanı” olarak ayarlanmıştı ama bana Amerikan aksanı taklidi yapan bir Avustralyalı gibi geldi
Sesli kitap üretimi için gerçekten çok uygun görünüyor. Mevcut AI TTS sistemleri hâlâ doğallık açısından geride kalıyordu
Seslendirme oyunculuğu sektörü artık yavaş yavaş olgunlaşıyor. Bazı demolarda indie seslendirme sanatçılarından çok daha cilalı bir ses vardı
Bir gün büyükannemin bununla dolandırılacağından endişe ediyorum