26 puan yazan xguru 1 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Microsoft tarafından yayımlanan açık kaynak ses yapay zeka model ailesi; hem TTS'yi (metin→ses) hem de ASR'yi (ses→metin) içeriyor
  • ASR, Open AI Whisper'a benzer ancak konuşmacı ayrıştırma (speaker diarization) özelliği doğrudan modelin içine yerleşik
  • Temel yenilik, ses kalitesini korurken uzun dizilerde hesaplama verimliliğini büyük ölçüde artıran 7.5Hz ultra düşük kare hızına sahip sürekli ses tokenizer'ı
  • next-token diffusion çerçevesi benimsenmiş; LLM metin bağlamını anlıyor, diffusion head ise yüksek kaliteli akustik detaylar üretiyor
  • VibeVoice-ASR (7B): En fazla 60 dakikalık sesi tek geçişte işliyor; konuşmacı (Who), zaman damgası (When) ve içerik (What) için yapılandırılmış çıktı veriyor
    • Kullanıcıya özel hotword özelliğiyle alan odaklı terimlerin tanıma doğruluğunu artırıyor
    • 50'den fazla dili yerel olarak destekleyen çok dilli model
    • 2026 Mart'tan itibaren Hugging Face Transformers ile entegre
    • vLLM inference desteğiyle daha hızlı çıkarım mümkün ve fine-tuning kodu da yayımlandı
  • VibeVoice-TTS (1.5B): En fazla 90 dakikalık konuşma tarzı sesi tek geçişte üretiyor, aynı anda en fazla 4 konuşmacıyı destekliyor
    • Duygusal nüansları ve konuşma dinamiklerini yakalayan, etkileyici ve doğal ses üretimi ile çok dilli destek sunuyor
    • 25 Ağustos 2025'te yayımlandı; ancak sonrasında amaç dışı kullanım örnekleri tespit edildiği için 5 Eylül 2025'te TTS kodu depodan kaldırıldı
  • VibeVoice-Realtime (0.5B): En fazla 10 dakika, ilk ses çıkışına kadar yaklaşık 300 milisaniye ile gerçek zamanlı TTS
    • 0.5B parametreli hafif bir gerçek zamanlı metinden sese dönüştürme modeli olarak dağıtıma uygun
    • Streaming metin girişi desteği sunuyor
    • 3 Aralık 2025'te yayımlandı; ardından 16 Aralık'ta 9 dilde (DE, FR, IT, JP, KR, NL, PL, PT, ES) çok dilli sesler ve 11 İngilizce stil sesi deneysel olarak eklendi
    • Apple Silicon(MPS) desteği Gradio ASR demosuna eklenerek Mac'teki kullanılabilirlik iyileştirildi
  • Temel model (Qwen2.5 1.5B) üzerine kurulu olduğundan önyargı ve hataları devralabilir; ayrıca deepfake amaçlı kötüye kullanım riskine karşı dikkat gerekiyor
  • MIT lisansı

1 yorum

 
xguru 1 일 전

VibeVoice - Microsoft'un yeni nesil açık kaynak ses sentezi modeli
GeekNews'te daha en başta hemen paylaşılmıştı ama bir sorun olduğu için VibeVoice-TTS kodu kaldırılmış görünüyor.
TTS tarafında şu anda yalnızca VibeVoice-Realtime kullanılabiliyor gibi.
Son birkaç gündür VibeVoice-ASR nedeniyle yeniden popülerleşiyor gibi, burada burada görünüyor.

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison test etmiş; Mac'te uv ve mlx-audio kullanarak tek satırlık bir komutla çalıştırılabiliyormuş ve
1 saatlik sesi 128GB M5 Max MacBook Pro'da yaklaşık 8 dakika 45 saniyede işlemiş.
Bunu konuşmacı ayrımı iyi yapan Whisper gibi düşünebilirsiniz