5 puan yazan GN⁺ 2025-09-04 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Metinden uzun süreli, doğal çok konuşmacılı diyalog sesi üretebilecek şekilde tasarlanmış yeni bir TTS ses sentezi modeli
  • Mevcut sistemlerin sınırlamaları olan ölçeklenebilirlik, konuşmacı tutarlılığı ve doğal sıra geçişi sorunlarını çözmek üzere geliştirildi
  • Aynı anda 90 dakikaya kadar ses ve en fazla 4 konuşmacı sentezleyerek mevcut 1-2 kişi sınırındaki modellerin ötesine geçiyor
  • Temelinde, uzun ses dizilerini verimli biçimde işlerken ses kalitesini koruyan 7.5Hz ultra düşük kare hızlı sürekli ses tokenizer'ı (Acoustic/ Semantic) yer alıyor
  • Next-Token Diffusion yaklaşımını kullanarak sürekli veriyi verimli biçimde modelliyor ve bunun için mevcut Encodec'e kıyasla 80 kat daha yüksek sıkıştırma oranı sunan yeni bir sürekli ses tokenizer'ı sunuyor

Giriş

  • Son dönemde TTS teknolojisi tek konuşmacının kısa ifadelerini yüksek kalitede sentezlemekte başarılı olsa da, uzun süreli ve çok konuşmacılı diyalog sentezi hâlâ zor bir problem
    • Mevcut yöntemlerde ifadeler basitçe birleştirildiği için geçişler yapay kalıyor
    • Doğal turn-taking ve bağlamı anlayan üretim sağlamak zor
  • Hedef: podcast benzeri uzun formatlı, çok konuşmacılı diyalog ses sentezi desteği
  • VibeVoice bunu çözmek için ultra düşük kare hızlı (7.5Hz) ses tokenizer'ı ile LLM tabanlı Diffusion mimarisini birleştiriyor
  • Sonuç olarak 90 dakikaya kadar çok konuşmacılı sesi kararlı biçimde sentezleyebiliyor

Teknik yenilikler

  • Sürekli ses tokenizer'ı (7.5Hz):
    • Acoustic + Semantic tokenizer'ları birlikte kullanıyor
    • Uzun dizileri verimli işleme ile ses doğruluğunu aynı anda koruyor
  • Next-token diffusion framework:
    • LLM, metin bağlamını ve diyalog akışını anlıyor
    • Diffusion head, yüksek çözünürlüklü akustik ayrıntıları üretiyor
  • Sonuç: öncekilere kıyasla çok daha doğal ve insana benzer ses sentezi

Performans

  • 90 dakikaya kadar ses sentezi mümkün
  • En fazla 4 konuşmacı desteği (önceki modellerin 1-2 konuşmacı sınırını aşıyor)
  • Farklı diyalog durumlarında ifade gücü yüksek ve tutarlı ses sunuyor

Deney sonuçları

Uzun süreli diyalog sentezi (Podcast)

  • 1 saatlik diyalog veri kümesiyle değerlendirildi
  • WER (kelime hata oranı), SIM (konuşmacı benzerliği), öznel değerlendirme (MOS) ölçüldü
  • VIBEVOICE-7B, Realism 3.71, Richness 3.81, Preference 3.75 ile en yüksek performansı kaydetti
  • Gemini 2.5 Pro, ElevenLabs v3 gibi güncel modellerden daha üstün

Sonuç ve sınırlamalar

  • VibeVoice, 90 dakikaya kadar ve 4 konuşmacıya kadar doğal diyalog sentezini destekleyen yeni nesil bir TTS framework'ü
  • Mevcut açık kaynak ve ticari modellere kıyasla hem öznel hem nesnel kalite açısından üstün
  • Sınırlamalar:
    • İngilizce ve Çince dışındaki dillerde beklenmeyen sonuçlar ortaya çıkabilir
    • Konuşma dışı sesler (arka plan sesi, müzik) desteklenmiyor
    • Eşzamanlı konuşma (Overlapping Speech) desteklenmiyor
    • Deepfake ve yanlış bilgi amaçlı kötüye kullanım riski bulunuyor
  • Bu nedenle şu an için yalnızca araştırma ve geliştirme amaçlı, ticari kullanım önerilmiyor

Henüz yorum yok.

Henüz yorum yok.