VibeVoice - Açık kaynak öncü ses yapay zeka model ailesi

xguru · 2026-04-28T13:09:54+09:00

Microsoft tarafından yayımlanan açık kaynak ses yapay zeka model ailesi; hem TTS'yi (metin→ses) hem de ASR'yi (ses→metin) içeriyor ASR, OpenAI Whisper'a benziyor ancak konuşmacı ayrımı (speaker diarization) özelliği doğrudan modelin içine yerleşik Temel yenilik, ses kalitesini korurken uzun dizilerde hesaplama verimliliğini büyük ölçüde artıran 7.5Hz ultra düşük kare hızlı sürekli ses tokenlaştırıcısı next-token diffusion çerçevesi benimsenmiş; LLM metin bağlamını anlıyor, diffusion head ise yüksek kaliteli akustik detaylar üretiyor VibeVoice-ASR (7B): 60 dakikaya kadar sesi tek geçişte işler, konuşmacı (Kim) · zaman damgası (Ne zaman) · içerik (Ne) bilgilerini yapılandırılmış olarak çıktılar Kullanıcıya özel hotword özelliğiyle alan odaklı terimlerin tanıma doğruluğu artırılır 50'den fazla dili yerel olarak destekleyen çok dilli model 2026 Mart'tan itibaren Hugging Face Transformers ile entegre vLLM çıkarımı desteğiyle daha hızlı inference mümkün ve fine-tuning kodu yayımlandı VibeVoice-TTS (1.5B): 90 dakikaya kadar konuşma tarzı sesi tek geçişte üretir, aynı anda en fazla 4 konuşmacıyı destekler Duygusal nüansları ve konuşma dinamiklerini yakalayan, ifade gücü yüksek doğal ses üretimi ve çok dilli destek 25 Ağustos 2025'te yayımlandı; ancak sonrasında amaç dışı kullanım örnekleri tespit edildiği için 5 Eylül 2025'te TTS kodu depodan kaldırıldı VibeVoice-Realtime (0.5B): 10 dakikaya kadar, ilk ses çıktısına yaklaşık 300 milisaniyede ulaşabilen gerçek zamanlı TTS 0.5B parametreli hafif gerçek zamanlı metinden sese model; dağıtıma uygun Akışkan metin girdisi desteği 3 Aralık 2025'te yayımlandı; ardından 16 Aralık'ta 9 dilde (DE, FR, IT, JP, KR, NL, PL, PT, ES) çok dilli sesler ve 11 İngilizce stil sesi deneysel olarak eklendi Apple Silicon (MPS) desteği Gradio ASR demosuna eklendi ve Mac üzerindeki kullanılabilirlik iyileştirildi Temel model (Qwen2.5 1.5B) üzerine kurulu olduğundan önyargı ve hataları devralabilir; ayrıca deepfake amaçlı kötüye kullanım riskine dikkat edilmeli MIT lisansı

(github.com/microsoft)

36 puan yazan xguru 2026-04-28 | 1 yorum | WhatsApp'ta paylaş

Microsoft tarafından yayımlanan açık kaynak ses yapay zeka model ailesi; hem TTS'yi (metin→ses) hem de ASR'yi (ses→metin) içeriyor
ASR, OpenAI Whisper'a benziyor ancak konuşmacı ayrımı (speaker diarization) özelliği doğrudan modelin içine yerleşik
Temel yenilik, ses kalitesini korurken uzun dizilerde hesaplama verimliliğini büyük ölçüde artıran 7.5Hz ultra düşük kare hızlı sürekli ses tokenlaştırıcısı
next-token diffusion çerçevesi benimsenmiş; LLM metin bağlamını anlıyor, diffusion head ise yüksek kaliteli akustik detaylar üretiyor
VibeVoice-ASR (7B): 60 dakikaya kadar sesi tek geçişte işler, konuşmacı (Kim) · zaman damgası (Ne zaman) · içerik (Ne) bilgilerini yapılandırılmış olarak çıktılar
- Kullanıcıya özel hotword özelliğiyle alan odaklı terimlerin tanıma doğruluğu artırılır
- 50'den fazla dili yerel olarak destekleyen çok dilli model
- 2026 Mart'tan itibaren Hugging Face Transformers ile entegre
- vLLM çıkarımı desteğiyle daha hızlı inference mümkün ve fine-tuning kodu yayımlandı
VibeVoice-TTS (1.5B): 90 dakikaya kadar konuşma tarzı sesi tek geçişte üretir, aynı anda en fazla 4 konuşmacıyı destekler
- Duygusal nüansları ve konuşma dinamiklerini yakalayan, ifade gücü yüksek doğal ses üretimi ve çok dilli destek
- 25 Ağustos 2025'te yayımlandı; ancak sonrasında amaç dışı kullanım örnekleri tespit edildiği için 5 Eylül 2025'te TTS kodu depodan kaldırıldı
Reklam
VibeVoice-Realtime (0.5B): 10 dakikaya kadar, ilk ses çıktısına yaklaşık 300 milisaniyede ulaşabilen gerçek zamanlı TTS
- 0.5B parametreli hafif gerçek zamanlı metinden sese model; dağıtıma uygun
- Akışkan metin girdisi desteği
- 3 Aralık 2025'te yayımlandı; ardından 16 Aralık'ta 9 dilde (DE, FR, IT, JP, KR, NL, PL, PT, ES) çok dilli sesler ve 11 İngilizce stil sesi deneysel olarak eklendi
- Apple Silicon (MPS) desteği Gradio ASR demosuna eklendi ve Mac üzerindeki kullanılabilirlik iyileştirildi
Temel model (Qwen2.5 1.5B) üzerine kurulu olduğundan önyargı ve hataları devralabilir; ayrıca deepfake amaçlı kötüye kullanım riskine dikkat edilmeli
MIT lisansı

1 yorum

xguru 2026-04-28

VibeVoice - Microsoft'un yeni nesil açık kaynak ses sentezi modeli
GeekNews'te en başta hemen paylaşılmıştı ama bir sorun nedeniyle VibeVoice-TTS kodu kaldırılmış görünüyor.
TTS tarafında şu anda yalnızca VibeVoice-Realtime kullanılabiliyor gibi.
Son birkaç gündür VibeVoice-ASR nedeniyle yeniden popülerleşiyor gibi; burada burada karşıma çıkıyor.

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison ASR'yi test etmiş; Mac'te uv ve mlx-audio kullanarak tek satırlık bir komutla çalıştırılabiliyormuş ve
1 saatlik sesi 128GB M5 Max MacBook Pro'da yaklaşık 8 dakika 45 saniyede işlemiş.
Bunu konuşmacı ayrımı iyi yapan Whisper gibi düşünebilirsiniz

VibeVoice - Açık kaynak öncü ses yapay zeka model ailesi

İlgili okumalar

1 yorum