VibeVoice - Açık kaynak frontier ses yapay zeka modeli
(github.com/microsoft)- Microsoft tarafından yayımlanan açık kaynak ses yapay zeka model ailesi; hem TTS'yi (metin→ses) hem de ASR'yi (ses→metin) içeriyor
- ASR, Open AI Whisper'a benzer ancak konuşmacı ayrıştırma (speaker diarization) özelliği doğrudan modelin içine yerleşik
- Temel yenilik, ses kalitesini korurken uzun dizilerde hesaplama verimliliğini büyük ölçüde artıran 7.5Hz ultra düşük kare hızına sahip sürekli ses tokenizer'ı
- next-token diffusion çerçevesi benimsenmiş; LLM metin bağlamını anlıyor, diffusion head ise yüksek kaliteli akustik detaylar üretiyor
- VibeVoice-ASR (7B): En fazla 60 dakikalık sesi tek geçişte işliyor; konuşmacı (Who), zaman damgası (When) ve içerik (What) için yapılandırılmış çıktı veriyor
- Kullanıcıya özel hotword özelliğiyle alan odaklı terimlerin tanıma doğruluğunu artırıyor
- 50'den fazla dili yerel olarak destekleyen çok dilli model
- 2026 Mart'tan itibaren Hugging Face Transformers ile entegre
- vLLM inference desteğiyle daha hızlı çıkarım mümkün ve fine-tuning kodu da yayımlandı
- VibeVoice-TTS (1.5B): En fazla 90 dakikalık konuşma tarzı sesi tek geçişte üretiyor, aynı anda en fazla 4 konuşmacıyı destekliyor
- Duygusal nüansları ve konuşma dinamiklerini yakalayan, etkileyici ve doğal ses üretimi ile çok dilli destek sunuyor
- 25 Ağustos 2025'te yayımlandı; ancak sonrasında amaç dışı kullanım örnekleri tespit edildiği için 5 Eylül 2025'te TTS kodu depodan kaldırıldı
- VibeVoice-Realtime (0.5B): En fazla 10 dakika, ilk ses çıkışına kadar yaklaşık 300 milisaniye ile gerçek zamanlı TTS
- 0.5B parametreli hafif bir gerçek zamanlı metinden sese dönüştürme modeli olarak dağıtıma uygun
- Streaming metin girişi desteği sunuyor
- 3 Aralık 2025'te yayımlandı; ardından 16 Aralık'ta 9 dilde (DE, FR, IT, JP, KR, NL, PL, PT, ES) çok dilli sesler ve 11 İngilizce stil sesi deneysel olarak eklendi
- Apple Silicon(MPS) desteği Gradio ASR demosuna eklenerek Mac'teki kullanılabilirlik iyileştirildi
- Temel model (Qwen2.5 1.5B) üzerine kurulu olduğundan önyargı ve hataları devralabilir; ayrıca deepfake amaçlı kötüye kullanım riskine karşı dikkat gerekiyor
- MIT lisansı
1 yorum
VibeVoice - Microsoft'un yeni nesil açık kaynak ses sentezi modeli
GeekNews'te daha en başta hemen paylaşılmıştı ama bir sorun olduğu için VibeVoice-TTS kodu kaldırılmış görünüyor.
TTS tarafında şu anda yalnızca VibeVoice-Realtime kullanılabiliyor gibi.
Son birkaç gündür VibeVoice-ASR nedeniyle yeniden popülerleşiyor gibi, burada burada görünüyor.
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison test etmiş; Mac'te
uvve mlx-audio kullanarak tek satırlık bir komutla çalıştırılabiliyormuş ve1 saatlik sesi 128GB M5 Max MacBook Pro'da yaklaşık 8 dakika 45 saniyede işlemiş.
Bunu
konuşmacı ayrımı iyi yapan Whispergibi düşünebilirsiniz