VibeVoice - Açık kaynak sınır ses yapay zekası
(github.com/microsoft)- TTS ve ASR’yi birlikte içeren bir ses yapay zekası model ailesi olarak yapılandırılır ve uzun ses üretimi ile uzun ses tanımayı birlikte ele alır
- Çekirdek mimari, 7.5 Hz ultra düşük kare hızlı sürekli konuşma tokenizer’ı ile next-token diffusion birleşiminden oluşur; uzun dizileri işlerken ses kalitesi ve hesaplama verimliliğini birlikte hedefler
- Metin bağlamını ve diyalog akışını anlamak için LLM kullanılır; yüksek doğruluklu akustik ayrıntı üretimi için ise diffusion head eklenmiş bir yapı benimsenir
- VibeVoice-ASR, tek geçişte en fazla 60 dakikalık sesi işler ve konuşmacı bilgisi, zaman damgaları ve konuşma içeriğini birlikte içeren yapılandırılmış transkripsiyon üretir
- ASR modeli 50’den fazla dili destekler ve kullanıcı tanımlı hotword ya da bağlam bilgisini alarak alan odaklı tanıma doğruluğunu artırmayı hedefleyebilir
- ASR tarafında finetuning kodu ve vLLM çıkarım desteği yayımlanmış olup, Hugging Face Transformers kütüphanesinde de doğrudan kullanılabilir
- VibeVoice-TTS, tek geçişte en fazla 90 dakikalık sesi sentezler ve tek bir diyalog içinde en fazla 4 konuşmacıyı destekler
- TTS, ifade gücü yüksek diyalog odaklı ses ve konuşmacı tutarlılığına vurgu yapar; İngilizce, Çince ve diğer dilleri destekler
- Depo duyurusuna göre VibeVoice-TTS kodu kaldırılmış durumda; yayımlandıktan sonra belirtilen amaçla uyuşmayan kullanımlar tespit edildiği ve bu nedenle depodan silindiği açıkça belirtiliyor
- VibeVoice-Realtime-0.5B, 0.5B ölçekli gerçek zamanlı bir TTS modelidir; akış halinde metin girdisi, yaklaşık 300 ms ilk duyulabilir gecikme ve yaklaşık 10 dakikalık uzun ses üretimini destekler
- Realtime modele 9 dilde çok dilli deneysel konuşmacılar ve 11 İngilizce stil sesi eklendi; ileride daha fazla konuşmacı türünün eklenmeye devam edileceği belirtiliyor
- Dağıtım yolları ağırlıklı olarak Hugging Face ağırlıkları, Playground ve Colab üzerinden düzenlenmiş; bu sayede hızlı deneme yapılabiliyor
- Bu depo yalnızca araştırma ve geliştirme amaçlı olarak sunuluyor; ek test ve geliştirme olmadan ticari ya da gerçek ortam kullanımına uygun görülmüyor
- Modeller, temel model olan Qwen2.5 1.5b’nin önyargılarını ve hatalarını devralabilir; ayrıca deepfake, kimliğe bürünme ve yanlış bilgi yayma riski taşıdığından yasal ve sorumlu kullanım ile yapay zeka üretimi içeriklerin açıkça belirtilmesi öneriliyor
1 yorum
Hacker News yorumları
Bu yeni bir model bile değil; STT açısından halüsinasyon çok, çıkarımı ağır ve yavaş, çok dilli performansı da pek iyi değil
Diğer işlevlerini bilmiyorum, burada tamamen speech to text açısından konuşuyorum
Ama genel olarak gürültülü veriyle eğitilmiş gibi hissettiriyor, daha fazla bellek kullanıyor ve hızı da yüksek değil
Daha önce kısa süreliğine yayımlanıp sonra hızla kaldırılan 7B sürümü vibevoice-community'den bahsediyorum; şu anda ise chatterbox turbo ve ara sıra qwen TTS kullanmaya devam ediyorum
Twitter'da da herkes bundan bahsediyor
Birkaç gün kullandım; öncelikle 1.5B model dokümantasyonu yoktu, 0.5B realtime model ise berbattı
Metni satır satır dönüştürürken rastgele müzik ekliyordu ve
…gibi özel karakterleri de düzgün işleyemiyorduAçıkçası oldukça hayal kırıklığı yarattı
repo yıldızını da hemen geri çektim, bunu pas geçeceğim
Bu tür modelleri açık kaynak diye adlandırmayı artık bırakmalıyız bence
Gerçekte bunlar sadece open weight; eğitim kodu kapalı ve hiç yayımlanmadı
https://github.com/microsoft/VibeVoice/issues/102
Üzgünüm, Stallman
Bir projede açık kaynak yazdığında benim fiilen ne yapabildiğim daha önemli
open source vs open weight ayrımı artık hacker/cracker ya da GIF'in nasıl telaffuz edildiği tartışması gibi bir kategoriye girmiş görünüyor
Sorun, lisansın MIT olması değil erişimin olmaması olur
Yine de Microsoft'un burada açıklığı abarttığına tamamen katılıyorum ve bu da şaşırtıcı değil
Kapalı eğitim verisi de can sıkıcı ama benim için kısıtlayıcı lisanslar daha can sıkıcı
Bu kategoride Voxtral bence çok daha iyi
Üstelik webGPU üzerinde çalıştırılabilecek kadar da küçük
https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU
Kevin Beaumont, bu repo/product/author hakkında ilginç bir şey paylaşmış
https://cyberplace.social/@GossiTheDog/116454846703138243
Bu, Microsoft'un yayımlayıp sonra kısa süre içinde güvenlik/emniyet gerekçesiyle kaldırdığı proje değil miydi acaba?
Sonrasında neyin değiştiğini merak ediyorum
Orijinal TTS modeli bu repo'dan kaldırıldı ama başka yerlerde hâlâ bulunabiliyor
Bunun yerine SST/ASR, long form TTS ve streaming TTS modelleri daha yeni olanlar
Çünkü bu proje, az önce söylenenler de dahil olmak üzere birden fazla alanı aynı anda kapsıyor
Microsoft gibi bir şirketin vibe'ı AI ürün terminolojisinin parçası hâline getirmesi ilginç
Benim yaptığım speech-swift de VibeVoice gibi cihaz üzerinde ses işlemeye odaklanıyor
Ama bunu buluta bağımlı olmadan, Apple Silicon gücünü kullanarak ASR, TTS, VAD çalıştıracak şekilde yaptım
ASR 52 dili destekliyor ve real-time factor 0.06
https://soniqo.audio/benchmarks
Simon'ın dün geceki yazısı güzeldi
https://simonwillison.net/2026/Apr/27/vibevoice/
whisper benzeri bir alan; bunun dışında ayrıca long-form TTS ve streaming TTS modelleri de var
Bunun neden olduğunu merak ediyorum
Bilgisayarın varsayılan sesi olarak Microsoft Sam seçtim
Sususususususu
Vay, sonunda adı Copilot olmayan bir Microsoft AI ürünü çıktı