VibeVoice - Açık kaynak öncü ses yapay zeka model ailesi
(github.com/microsoft)- Microsoft tarafından yayımlanan açık kaynak ses yapay zeka model ailesi; hem TTS'yi (metin→ses) hem de ASR'yi (ses→metin) içeriyor
- ASR, OpenAI Whisper'a benziyor ancak konuşmacı ayrımı (speaker diarization) özelliği doğrudan modelin içine yerleşik
- Temel yenilik, ses kalitesini korurken uzun dizilerde hesaplama verimliliğini büyük ölçüde artıran 7.5Hz ultra düşük kare hızlı sürekli ses tokenlaştırıcısı
- next-token diffusion çerçevesi benimsenmiş; LLM metin bağlamını anlıyor, diffusion head ise yüksek kaliteli akustik detaylar üretiyor
- VibeVoice-ASR (7B): 60 dakikaya kadar sesi tek geçişte işler, konuşmacı (Kim) · zaman damgası (Ne zaman) · içerik (Ne) bilgilerini yapılandırılmış olarak çıktılar
- Kullanıcıya özel hotword özelliğiyle alan odaklı terimlerin tanıma doğruluğu artırılır
- 50'den fazla dili yerel olarak destekleyen çok dilli model
- 2026 Mart'tan itibaren Hugging Face Transformers ile entegre
- vLLM çıkarımı desteğiyle daha hızlı inference mümkün ve fine-tuning kodu yayımlandı
- VibeVoice-TTS (1.5B): 90 dakikaya kadar konuşma tarzı sesi tek geçişte üretir, aynı anda en fazla 4 konuşmacıyı destekler
- Duygusal nüansları ve konuşma dinamiklerini yakalayan, ifade gücü yüksek doğal ses üretimi ve çok dilli destek
- 25 Ağustos 2025'te yayımlandı; ancak sonrasında amaç dışı kullanım örnekleri tespit edildiği için 5 Eylül 2025'te TTS kodu depodan kaldırıldı
- VibeVoice-Realtime (0.5B): 10 dakikaya kadar, ilk ses çıktısına yaklaşık 300 milisaniyede ulaşabilen gerçek zamanlı TTS
- 0.5B parametreli hafif gerçek zamanlı metinden sese model; dağıtıma uygun
- Akışkan metin girdisi desteği
- 3 Aralık 2025'te yayımlandı; ardından 16 Aralık'ta 9 dilde (DE, FR, IT, JP, KR, NL, PL, PT, ES) çok dilli sesler ve 11 İngilizce stil sesi deneysel olarak eklendi
- Apple Silicon (MPS) desteği Gradio ASR demosuna eklendi ve Mac üzerindeki kullanılabilirlik iyileştirildi
- Temel model (Qwen2.5 1.5B) üzerine kurulu olduğundan önyargı ve hataları devralabilir; ayrıca deepfake amaçlı kötüye kullanım riskine dikkat edilmeli
- MIT lisansı
1 yorum
VibeVoice - Microsoft'un yeni nesil açık kaynak ses sentezi modeli
GeekNews'te en başta hemen paylaşılmıştı ama bir sorun nedeniyle VibeVoice-TTS kodu kaldırılmış görünüyor.
TTS tarafında şu anda yalnızca VibeVoice-Realtime kullanılabiliyor gibi.
Son birkaç gündür VibeVoice-ASR nedeniyle yeniden popülerleşiyor gibi; burada burada karşıma çıkıyor.
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison ASR'yi test etmiş; Mac'te
uvve mlx-audio kullanarak tek satırlık bir komutla çalıştırılabiliyormuş ve1 saatlik sesi 128GB M5 Max MacBook Pro'da yaklaşık 8 dakika 45 saniyede işlemiş.
Bunu
konuşmacı ayrımı iyi yapan Whispergibi düşünebilirsiniz