VibeVoice - Microsoft'un yeni nesil açık kaynak ses sentezi modeli

(microsoft.github.io)

5 puan yazan GN⁺ 2025-09-04 | 1 yorum | WhatsApp'ta paylaş

Metinden uzun süreli, doğal çok konuşmacılı diyalog sesi üretebilecek şekilde tasarlanmış yeni bir TTS ses sentezi modeli
Mevcut sistemlerin sınırlamaları olan ölçeklenebilirlik, konuşmacı tutarlılığı ve doğal sıra geçişi sorunlarını çözmek üzere geliştirildi
Aynı anda 90 dakikaya kadar ses ve en fazla 4 konuşmacı sentezleyerek mevcut 1-2 kişi sınırındaki modellerin ötesine geçiyor
Temelinde, uzun ses dizilerini verimli biçimde işlerken ses kalitesini koruyan 7.5Hz ultra düşük kare hızlı sürekli ses tokenizer'ı (Acoustic/ Semantic) yer alıyor
Next-Token Diffusion yaklaşımını kullanarak sürekli veriyi verimli biçimde modelliyor ve bunun için mevcut Encodec'e kıyasla 80 kat daha yüksek sıkıştırma oranı sunan yeni bir sürekli ses tokenizer'ı sunuyor

Giriş

Son dönemde TTS teknolojisi tek konuşmacının kısa ifadelerini yüksek kalitede sentezlemekte başarılı olsa da, uzun süreli ve çok konuşmacılı diyalog sentezi hâlâ zor bir problem
- Mevcut yöntemlerde ifadeler basitçe birleştirildiği için geçişler yapay kalıyor
- Doğal turn-taking ve bağlamı anlayan üretim sağlamak zor
Hedef: podcast benzeri uzun formatlı, çok konuşmacılı diyalog ses sentezi desteği
VibeVoice bunu çözmek için ultra düşük kare hızlı (7.5Hz) ses tokenizer'ı ile LLM tabanlı Diffusion mimarisini birleştiriyor
Sonuç olarak 90 dakikaya kadar çok konuşmacılı sesi kararlı biçimde sentezleyebiliyor

Teknik yenilikler

Sürekli ses tokenizer'ı (7.5Hz):
- Acoustic + Semantic tokenizer'ları birlikte kullanıyor
- Uzun dizileri verimli işleme ile ses doğruluğunu aynı anda koruyor
Next-token diffusion framework:
- LLM, metin bağlamını ve diyalog akışını anlıyor
- Diffusion head, yüksek çözünürlüklü akustik ayrıntıları üretiyor
Sonuç: öncekilere kıyasla çok daha doğal ve insana benzer ses sentezi

Performans

90 dakikaya kadar ses sentezi mümkün
En fazla 4 konuşmacı desteği (önceki modellerin 1-2 konuşmacı sınırını aşıyor)
Farklı diyalog durumlarında ifade gücü yüksek ve tutarlı ses sunuyor

Deney sonuçları

Uzun süreli diyalog sentezi (Podcast)

1 saatlik diyalog veri kümesiyle değerlendirildi
WER (kelime hata oranı), SIM (konuşmacı benzerliği), öznel değerlendirme (MOS) ölçüldü
VIBEVOICE-7B, Realism 3.71, Richness 3.81, Preference 3.75 ile en yüksek performansı kaydetti
Gemini 2.5 Pro, ElevenLabs v3 gibi güncel modellerden daha üstün

Sonuç ve sınırlamalar

VibeVoice, 90 dakikaya kadar ve 4 konuşmacıya kadar doğal diyalog sentezini destekleyen yeni nesil bir TTS framework'ü
Mevcut açık kaynak ve ticari modellere kıyasla hem öznel hem nesnel kalite açısından üstün
Sınırlamalar:
- İngilizce ve Çince dışındaki dillerde beklenmeyen sonuçlar ortaya çıkabilir
- Konuşma dışı sesler (arka plan sesi, müzik) desteklenmiyor
- Eşzamanlı konuşma (Overlapping Speech) desteklenmiyor
- Deepfake ve yanlış bilgi amaçlı kötüye kullanım riski bulunuyor
Bu nedenle şu an için yalnızca araştırma ve geliştirme amaçlı, ticari kullanım önerilmiyor

1 yorum

GN⁺ 2025-09-04

Hacker News görüşleri

Birçok yorumda bu ses modelinin gerçekten çok gerçekçi olduğu övülünce büyük bir beklentiyle sayfayı ziyaret ettim, ama dinleyince bende tamamen farklı bir izlenim bıraktı. Ses kalitesinin kendisi fena değildi, ancak çoğu cümlede tonlama tuhaftı ve belirgin biçimde mekanik hissettiriyordu. Birkaç yıl önceki TTS'lerle kıyaslanınca oldukça etkileyici, ama günümüz yapay zeka sesleriyle karşılaştırınca pek de etkileyici gelmedi. Özellikle YouTube Shorts'ta sık duyulan yapay zeka sesleri bile bu sitedeki örneklerin çoğu kadar yeterince iyi geliyor. Bana gerçekten etkileyici gelen tek şey İngilizce ve Çince (muhtemelen Mandarin) örnekleriydi; iki dil arasında çok doğal geçiş yapıyordu. Ancak Çinceye aşina olmadığım için telaffuzu düzgün değerlendiremedim ve karakterlerle alfabenin net biçimde ayrılması geçişi kolaylaştırmış da olabilir. Aynı yazı sistemini kullanan iki dil olsaydı bu kadar doğal olmayabilirdi diye tahmin ediyorum. Son olarak, şarkı örneklerini dinlemek oldukça zordu ve neden böyle örnekler eklediklerini gerçekten merak ediyorum
- Geliştirici ekibin şarkı ve arka plan müziğiyle ilgili açıklaması biraz tuhaf geldi. Makale teslim tarihine yetiştirmek için arka plan müziğini kaldırma yöntemi bulamayınca bunu doğrudan bir “özellik” gibi sundukları hissine kapıldım. Bunu gerçekten ayırt edici bir özellik diye eklemişler gibi durmuyor
- Bu modelden daha iyi bir TTS modeli varsa önermenizi isterim. İlerlemeyi abartarak anlatanlar da, tersine küçümseyenler de her zaman var; ama bence iki taraf da gelişimi engellemiyor. Şimdiye kadar dinlediklerim arasında en iyisi buydu, ama belki benim bilmediğim daha iyileri vardır
- Bu model oldukça iyi, ama ücretsiz modeller arasında en iyisi değil. Chatterbox daha gerçekçi, çok daha az mekanik hissettiriyor ve tonlaması da daha doğal (kusursuz değil)
- Kadın sesleri erkek seslerinden çok daha doğal ve ikna edici geliyor. Buna karşılık erkek sesleri, 10 yıl önceki TTS'den çok da iyi sayılmaz
- Bu modelin asıl güçlü yanı ses klonlama. Kendi ses örneğinizi voices klasörüne koyunca gerçekten çok iyi çalışıyor
Microsoft'un şirket içinde open source kodlama ajanının adını mutlaka Microsoft VibeCode koymasını umuyorum. Ya da adını “Lo” yapıp Phi ile birlikte kullanabilirler. Böylece “Lo Phi” ile vibe code yapılabilir. Microsoft'un Phi 4 dil modeli hakkında bilgi
- Microsoft'un pazarlama geçmişine bakınca, sonunda ya "Microsoft Copilot Code Generator for VSCode" gibi dümdüz bir isim ya da alakasız biçimde "Zunega" gibi bir isim çıkacağını düşünüyorum
- Dahiyane bir fikir
VibeVoice-Large, Fince telaffuzu neredeyse aksansız ve gerçekten doğal biçimde destekleyen ilk yerel TTS. Dün bizzat denedim; özellikle ses klonlama ve duyguyu bile kopyalayabilmesine hayran kaldım
Teknik olarak oldukça yüksek kaliteli, ama özellikle erkek seslerinde ilk anda bunun yapay zeka tarafından üretilmiş bir ses olduğu hissi geliyor. Ses konusunda bilgim az olduğu için nedenini iyi ifade edemiyorum
- Ben de ses mühendisi değilim ama bu yapay zeka sesi bana “saw-tooth” dalga biçimi gibi geliyor. Temel modellerde veya düşük seviye tekniklerde örnekleme daha az olduğu için bir tür ses darbesi/titreme fazlalaşıyor ve ortaya sarsıntılı mekanik bir ses çıkıyor. Daha iyi modellere gidildikçe dalga biçimi daha yumuşak değişiyor. Dalga biçimleri hakkında referans
- Bana göre tını blok blok kesilmiş gibi; sesi görselleştirsen dalga biçiminde sivrilik yerine metal kutu benzeri bir rezonans varmış gibi açıklanabilir
- Dinleyince ne demek istediğini anlayabildim. Sesin sallandığı ya da sanki MP3 çok agresif sıkıştırılmış gibi duyulduğu yerler var
Erkek sesleri kadın seslerine kıyasla çok daha yapay geliyor, neredeyse robot gibi duyuluyor. Resmî örneklerin çoğunun kadın sesiyle başlamasına bakılırsa geliştirici ekip de bu sorunun farkında
- Ben de benzer hissettim. Erkek sesi belirgin biçimde daha yapay geliyor
Open-weight TTS modelleri için güncel bir popülerlik sıralaması ya da liste olup olmadığını merak ediyorum. Aslında STT (ASR) tarafıyla daha çok ilgileniyorum ama seçenekler çok az
- huggingface TTS model listesi üzerinden bakabilirsin. Trend olan modeller, en azından denemeye değer oldukları anlamına gelir. Değerlendirme ölçütleri çok öznel olduğundan en önemlisi bizzat dinlemek. HF'de trende girmeyen modeller söz konusu olduğunda, çok iyi olma ihtimalleri düşüktür
- En iyi sayılabilecek TTS'ler: VibeVoice, Chatterbox, Dia, Higgs, F5 TTS, Kokoro, Cosy Voice ve XTTS-2
- Hamburger menüsünde leaderboard'a tıklarsan sıralama sayfası çıkıyor TTS-AGI/TTS-Arena-V2
- Harika
GPU gücü zayıf kullanıcılar için bu modeli kullanmak zor. Eski bir 1080 GPU ile düzgün çalıştıramadım ve CPU'da torch.float32 ile çalıştırınca 66 saniyelik ses üretmek 832 saniye sürdü. torch.bfloat16'ya geçince seste garip parazitler oluştu. GPU'nun yetersiz olduğu koşullarda şimdiye kadar en kullanışlı TTS modeli Kokoro oldu. Ayrıca bu başlıkta birinin de dediği gibi, metne ayrı annotation ekleyerek TTS çıktısını ince ayarla kontrol etme özelliği şu an yok. Metne bir ara işleme adımı ekleyip annotation üretmek ve bunu TTS'ye girdi vermek, bence modelin ileride gelişebileceği bir yön. Böylece kullanıcı sonuç üzerinde daha ince kontrol sahibi olabilir
- Bence bu çok abartılıyor. macOS zaten uzun zamandır anında ve oldukça kaliteli TTS sunuyor, böyle ağır modellere ihtiyaç olmadan. Gecikme de hiç yok. Bu “AI” çılgınlığının gerçekten fazla kaçtığını düşünüyorum
Madem open source, o zaman eğitim verisini neden açık etmiyorlar diye merak ediyorum
- Çoğu crawl edilmiş veri telif, kullanım şartları, gizlilik gibi pek çok hukuki risk taşıdığı için ticari şirketler açısından tamamen “açık” hale getirmek akıllıca değil
Spontaneous Emotion örnek diyaloğundaki ses, sanki geliştirici ekip duyguyu LLM ile çözüyormuş hissi veriyor. Şarkı örneği hiç olmasa daha iyiymiş. Model şarkı söylemeye henüz hiç uygun değil
- Bu şarkı sayesinde yeniden açıp dinledim. Duyguyu tetikleme konusunda gerçekten olağanüstü bir parça. Robotların şarkı söylemesinin daha çok yolu var
Şu anda en iyi sayılan TTS modelleri iki tane: HiggsAudio ve VibeVoice. Bana göre Higgs hem hız hem ses kalitesi açısından Vibe'dan belirgin biçimde daha üstündü. İfade gücü konusunda emin değilim ama gözden kaçırmayın, mutlaka deneyin

VibeVoice - Microsoft'un yeni nesil açık kaynak ses sentezi modeli

Giriş

Teknik yenilikler

Performans

Deney sonuçları

Uzun süreli diyalog sentezi (Podcast)

Sonuç ve sınırlamalar

İlgili okumalar

1 yorum

Hacker News görüşleri