- Metinden uzun süreli, doğal çok konuşmacılı diyalog sesi üretebilecek şekilde tasarlanmış yeni bir TTS ses sentezi modeli
- Mevcut sistemlerin sınırlamaları olan ölçeklenebilirlik, konuşmacı tutarlılığı ve doğal sıra geçişi sorunlarını çözmek üzere geliştirildi
- Aynı anda 90 dakikaya kadar ses ve en fazla 4 konuşmacı sentezleyerek mevcut 1-2 kişi sınırındaki modellerin ötesine geçiyor
- Temelinde, uzun ses dizilerini verimli biçimde işlerken ses kalitesini koruyan 7.5Hz ultra düşük kare hızlı sürekli ses tokenizer'ı (Acoustic/ Semantic) yer alıyor
- Next-Token Diffusion yaklaşımını kullanarak sürekli veriyi verimli biçimde modelliyor ve bunun için mevcut Encodec'e kıyasla 80 kat daha yüksek sıkıştırma oranı sunan yeni bir sürekli ses tokenizer'ı sunuyor
Giriş
- Son dönemde TTS teknolojisi tek konuşmacının kısa ifadelerini yüksek kalitede sentezlemekte başarılı olsa da, uzun süreli ve çok konuşmacılı diyalog sentezi hâlâ zor bir problem
- Mevcut yöntemlerde ifadeler basitçe birleştirildiği için geçişler yapay kalıyor
- Doğal turn-taking ve bağlamı anlayan üretim sağlamak zor
- Hedef: podcast benzeri uzun formatlı, çok konuşmacılı diyalog ses sentezi desteği
- VibeVoice bunu çözmek için ultra düşük kare hızlı (7.5Hz) ses tokenizer'ı ile LLM tabanlı Diffusion mimarisini birleştiriyor
- Sonuç olarak 90 dakikaya kadar çok konuşmacılı sesi kararlı biçimde sentezleyebiliyor
Teknik yenilikler
- Sürekli ses tokenizer'ı (7.5Hz):
- Acoustic + Semantic tokenizer'ları birlikte kullanıyor
- Uzun dizileri verimli işleme ile ses doğruluğunu aynı anda koruyor
- Next-token diffusion framework:
- LLM, metin bağlamını ve diyalog akışını anlıyor
- Diffusion head, yüksek çözünürlüklü akustik ayrıntıları üretiyor
- Sonuç: öncekilere kıyasla çok daha doğal ve insana benzer ses sentezi
Performans
- 90 dakikaya kadar ses sentezi mümkün
- En fazla 4 konuşmacı desteği (önceki modellerin 1-2 konuşmacı sınırını aşıyor)
- Farklı diyalog durumlarında ifade gücü yüksek ve tutarlı ses sunuyor
Deney sonuçları
Uzun süreli diyalog sentezi (Podcast)
- 1 saatlik diyalog veri kümesiyle değerlendirildi
- WER (kelime hata oranı), SIM (konuşmacı benzerliği), öznel değerlendirme (MOS) ölçüldü
- VIBEVOICE-7B, Realism 3.71, Richness 3.81, Preference 3.75 ile en yüksek performansı kaydetti
- Gemini 2.5 Pro, ElevenLabs v3 gibi güncel modellerden daha üstün
Sonuç ve sınırlamalar
- VibeVoice, 90 dakikaya kadar ve 4 konuşmacıya kadar doğal diyalog sentezini destekleyen yeni nesil bir TTS framework'ü
- Mevcut açık kaynak ve ticari modellere kıyasla hem öznel hem nesnel kalite açısından üstün
- Sınırlamalar:
- İngilizce ve Çince dışındaki dillerde beklenmeyen sonuçlar ortaya çıkabilir
- Konuşma dışı sesler (arka plan sesi, müzik) desteklenmiyor
- Eşzamanlı konuşma (Overlapping Speech) desteklenmiyor
- Deepfake ve yanlış bilgi amaçlı kötüye kullanım riski bulunuyor
- Bu nedenle şu an için yalnızca araştırma ve geliştirme amaçlı, ticari kullanım önerilmiyor
Henüz yorum yok.