VibeVoice - Microsoft'un yeni nesil açık kaynak ses sentezi modeli
(microsoft.github.io)- Metinden uzun süreli, doğal çok konuşmacılı diyalog sesi üretebilecek şekilde tasarlanmış yeni bir TTS ses sentezi modeli
- Mevcut sistemlerin sınırlamaları olan ölçeklenebilirlik, konuşmacı tutarlılığı ve doğal sıra geçişi sorunlarını çözmek üzere geliştirildi
- Aynı anda 90 dakikaya kadar ses ve en fazla 4 konuşmacı sentezleyerek mevcut 1-2 kişi sınırındaki modellerin ötesine geçiyor
- Temelinde, uzun ses dizilerini verimli biçimde işlerken ses kalitesini koruyan 7.5Hz ultra düşük kare hızlı sürekli ses tokenizer'ı (Acoustic/ Semantic) yer alıyor
- Next-Token Diffusion yaklaşımını kullanarak sürekli veriyi verimli biçimde modelliyor ve bunun için mevcut Encodec'e kıyasla 80 kat daha yüksek sıkıştırma oranı sunan yeni bir sürekli ses tokenizer'ı sunuyor
Giriş
- Son dönemde TTS teknolojisi tek konuşmacının kısa ifadelerini yüksek kalitede sentezlemekte başarılı olsa da, uzun süreli ve çok konuşmacılı diyalog sentezi hâlâ zor bir problem
- Mevcut yöntemlerde ifadeler basitçe birleştirildiği için geçişler yapay kalıyor
- Doğal turn-taking ve bağlamı anlayan üretim sağlamak zor
- Hedef: podcast benzeri uzun formatlı, çok konuşmacılı diyalog ses sentezi desteği
- VibeVoice bunu çözmek için ultra düşük kare hızlı (7.5Hz) ses tokenizer'ı ile LLM tabanlı Diffusion mimarisini birleştiriyor
- Sonuç olarak 90 dakikaya kadar çok konuşmacılı sesi kararlı biçimde sentezleyebiliyor
Teknik yenilikler
- Sürekli ses tokenizer'ı (7.5Hz):
- Acoustic + Semantic tokenizer'ları birlikte kullanıyor
- Uzun dizileri verimli işleme ile ses doğruluğunu aynı anda koruyor
- Next-token diffusion framework:
- LLM, metin bağlamını ve diyalog akışını anlıyor
- Diffusion head, yüksek çözünürlüklü akustik ayrıntıları üretiyor
- Sonuç: öncekilere kıyasla çok daha doğal ve insana benzer ses sentezi
Performans
- 90 dakikaya kadar ses sentezi mümkün
- En fazla 4 konuşmacı desteği (önceki modellerin 1-2 konuşmacı sınırını aşıyor)
- Farklı diyalog durumlarında ifade gücü yüksek ve tutarlı ses sunuyor
Deney sonuçları
Uzun süreli diyalog sentezi (Podcast)
- 1 saatlik diyalog veri kümesiyle değerlendirildi
- WER (kelime hata oranı), SIM (konuşmacı benzerliği), öznel değerlendirme (MOS) ölçüldü
- VIBEVOICE-7B, Realism 3.71, Richness 3.81, Preference 3.75 ile en yüksek performansı kaydetti
- Gemini 2.5 Pro, ElevenLabs v3 gibi güncel modellerden daha üstün
Sonuç ve sınırlamalar
- VibeVoice, 90 dakikaya kadar ve 4 konuşmacıya kadar doğal diyalog sentezini destekleyen yeni nesil bir TTS framework'ü
- Mevcut açık kaynak ve ticari modellere kıyasla hem öznel hem nesnel kalite açısından üstün
- Sınırlamalar:
- İngilizce ve Çince dışındaki dillerde beklenmeyen sonuçlar ortaya çıkabilir
- Konuşma dışı sesler (arka plan sesi, müzik) desteklenmiyor
- Eşzamanlı konuşma (Overlapping Speech) desteklenmiyor
- Deepfake ve yanlış bilgi amaçlı kötüye kullanım riski bulunuyor
- Bu nedenle şu an için yalnızca araştırma ve geliştirme amaçlı, ticari kullanım önerilmiyor
1 yorum
Hacker News görüşleri
voicesklasörüne koyunca gerçekten çok iyi çalışıyortorch.float32ile çalıştırınca 66 saniyelik ses üretmek 832 saniye sürdü.torch.bfloat16'ya geçince seste garip parazitler oluştu. GPU'nun yetersiz olduğu koşullarda şimdiye kadar en kullanışlı TTS modeli Kokoro oldu. Ayrıca bu başlıkta birinin de dediği gibi, metne ayrı annotation ekleyerek TTS çıktısını ince ayarla kontrol etme özelliği şu an yok. Metne bir ara işleme adımı ekleyip annotation üretmek ve bunu TTS'ye girdi vermek, bence modelin ileride gelişebileceği bir yön. Böylece kullanıcı sonuç üzerinde daha ince kontrol sahibi olabilir