VibeVoice - Açık kaynak sınır ses yapay zekası

(github.com/microsoft)

1 puan yazan GN⁺ 2026-04-29 | 1 yorum | WhatsApp'ta paylaş

TTS ve ASR’yi birlikte içeren bir ses yapay zekası model ailesi olarak yapılandırılır ve uzun ses üretimi ile uzun ses tanımayı birlikte ele alır
Çekirdek mimari, 7.5 Hz ultra düşük kare hızlı sürekli konuşma tokenizer’ı ile next-token diffusion birleşiminden oluşur; uzun dizileri işlerken ses kalitesi ve hesaplama verimliliğini birlikte hedefler
Metin bağlamını ve diyalog akışını anlamak için LLM kullanılır; yüksek doğruluklu akustik ayrıntı üretimi için ise diffusion head eklenmiş bir yapı benimsenir
VibeVoice-ASR, tek geçişte en fazla 60 dakikalık sesi işler ve konuşmacı bilgisi, zaman damgaları ve konuşma içeriğini birlikte içeren yapılandırılmış transkripsiyon üretir
ASR modeli 50’den fazla dili destekler ve kullanıcı tanımlı hotword ya da bağlam bilgisini alarak alan odaklı tanıma doğruluğunu artırmayı hedefleyebilir
ASR tarafında finetuning kodu ve vLLM çıkarım desteği yayımlanmış olup, Hugging Face Transformers kütüphanesinde de doğrudan kullanılabilir
VibeVoice-TTS, tek geçişte en fazla 90 dakikalık sesi sentezler ve tek bir diyalog içinde en fazla 4 konuşmacıyı destekler
TTS, ifade gücü yüksek diyalog odaklı ses ve konuşmacı tutarlılığına vurgu yapar; İngilizce, Çince ve diğer dilleri destekler
Depo duyurusuna göre VibeVoice-TTS kodu kaldırılmış durumda; yayımlandıktan sonra belirtilen amaçla uyuşmayan kullanımlar tespit edildiği ve bu nedenle depodan silindiği açıkça belirtiliyor
VibeVoice-Realtime-0.5B, 0.5B ölçekli gerçek zamanlı bir TTS modelidir; akış halinde metin girdisi, yaklaşık 300 ms ilk duyulabilir gecikme ve yaklaşık 10 dakikalık uzun ses üretimini destekler
Realtime modele 9 dilde çok dilli deneysel konuşmacılar ve 11 İngilizce stil sesi eklendi; ileride daha fazla konuşmacı türünün eklenmeye devam edileceği belirtiliyor
Dağıtım yolları ağırlıklı olarak Hugging Face ağırlıkları, Playground ve Colab üzerinden düzenlenmiş; bu sayede hızlı deneme yapılabiliyor
Bu depo yalnızca araştırma ve geliştirme amaçlı olarak sunuluyor; ek test ve geliştirme olmadan ticari ya da gerçek ortam kullanımına uygun görülmüyor
Modeller, temel model olan Qwen2.5 1.5b’nin önyargılarını ve hatalarını devralabilir; ayrıca deepfake, kimliğe bürünme ve yanlış bilgi yayma riski taşıdığından yasal ve sorumlu kullanım ile yapay zeka üretimi içeriklerin açıkça belirtilmesi öneriliyor

1 yorum

GN⁺ 2026-04-29

Hacker News yorumları

Bu yeni bir model bile değil; STT açısından halüsinasyon çok, çıkarımı ağır ve yavaş, çok dilli performansı da pek iyi değil
Diğer işlevlerini bilmiyorum, burada tamamen speech to text açısından konuşuyorum
- Tamamen avantajsız da değil; bazı durumlarda ifade gücü biraz daha iyi olabiliyor
  Ama genel olarak gürültülü veriyle eğitilmiş gibi hissettiriyor, daha fazla bellek kullanıyor ve hızı da yüksek değil
  Daha önce kısa süreliğine yayımlanıp sonra hızla kaldırılan 7B sürümü vibevoice-community'den bahsediyorum; şu anda ise chatterbox turbo ve ara sıra qwen TTS kullanmaya devam ediyorum
- Bugün neden birdenbire bu kadar ilgi gördüğünü bilmiyorum
  Twitter'da da herkes bundan bahsediyor
- TTS de iyi değildi
  Birkaç gün kullandım; öncelikle 1.5B model dokümantasyonu yoktu, 0.5B realtime model ise berbattı
  Metni satır satır dönüştürürken rastgele müzik ekliyordu ve … gibi özel karakterleri de düzgün işleyemiyordu
  Açıkçası oldukça hayal kırıklığı yarattı
- Şu an SOTA bunun çok ilerisinde
- Bu yorum sayesinde çok zaman kazandım
  repo yıldızını da hemen geri çektim, bunu pas geçeceğim
Bu tür modelleri açık kaynak diye adlandırmayı artık bırakmalıyız bence
Gerçekte bunlar sadece open weight; eğitim kodu kapalı ve hiç yayımlanmadı
https://github.com/microsoft/VibeVoice/issues/102
- Artık freeware'e açık kaynak denilen bir dünyada yaşıyoruz
  Üzgünüm, Stallman
- Ben bu şikâyetimi özellikle açık kaynak olmayan lisanslarla dağıtılıp yine de açık kaynak diye anılan modellere saklıyorum
  Bir projede açık kaynak yazdığında benim fiilen ne yapabildiğim daha önemli
- Bu gemi çoktan kalktı
  open source vs open weight ayrımı artık hacker/cracker ya da GIF'in nasıl telaffuz edildiği tartışması gibi bir kategoriye girmiş görünüyor
- Tersinden bakarsak, ben MIT kodunu sadece ikili dosya olarak verip kaynağı hiç göndermesem bile o kod hâlâ açık kaynak olabilir
  Sorun, lisansın MIT olması değil erişimin olmaması olur
  Yine de Microsoft'un burada açıklığı abarttığına tamamen katılıyorum ve bu da şaşırtıcı değil
- En azından MIT lisansı olması iyi
  Kapalı eğitim verisi de can sıkıcı ama benim için kısıtlayıcı lisanslar daha can sıkıcı
Bu kategoride Voxtral bence çok daha iyi
Üstelik webGPU üzerinde çalıştırılabilecek kadar da küçük
https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU
Kevin Beaumont, bu repo/product/author hakkında ilginç bir şey paylaşmış
https://cyberplace.social/@GossiTheDog/116454846703138243
- Linki gizlemek için bu kadar uğraşmaları gerçekten etkileyici
Bu, Microsoft'un yayımlayıp sonra kısa süre içinde güvenlik/emniyet gerekçesiyle kaldırdığı proje değil miydi acaba?
Sonrasında neyin değiştiğini merak ediyorum
- readme'deki News bölümüne bakabilirsin
  Orijinal TTS modeli bu repo'dan kaldırıldı ama başka yerlerde hâlâ bulunabiliyor
  Bunun yerine SST/ASR, long form TTS ve streaming TTS modelleri daha yeni olanlar
- En azından bana oldukça kafa karıştırıcı geliyor
  Çünkü bu proje, az önce söylenenler de dahil olmak üzere birden fazla alanı aynı anda kapsıyor
Microsoft gibi bir şirketin vibe'ı AI ürün terminolojisinin parçası hâline getirmesi ilginç
- Özellikle vibe coded, anlamadan aceleyle bir şeyler birleştirme gibi olumsuz bir çağrışım taşıyabildiği için daha da ilginç
- Acaba 90'lardaki lanetli IBM STT ürünü Via Voice'a gönderme yapan bir kelime oyunu muydu diye de düşündüm
- Benim için daha şaşırtıcı olan, buna Copilot demek istemelerine rağmen kendilerini tutmuş olmaları
Benim yaptığım speech-swift de VibeVoice gibi cihaz üzerinde ses işlemeye odaklanıyor
Ama bunu buluta bağımlı olmadan, Apple Silicon gücünü kullanarak ASR, TTS, VAD çalıştıracak şekilde yaptım
ASR 52 dili destekliyor ve real-time factor 0.06
https://soniqo.audio/benchmarks
Simon'ın dün geceki yazısı güzeldi
https://simonwillison.net/2026/Apr/27/vibevoice/
- Bu arada o yazı yalnızca Speech-to-Text / Speech-Recognition tarafını ele alıyor
  whisper benzeri bir alan; bunun dışında ayrıca long-form TTS ve streaming TTS modelleri de var
- VibeVoice'un en fazla 1 saatlik ses işleyebildiği söyleniyor
  Bunun neden olduğunu merak ediyorum
Bilgisayarın varsayılan sesi olarak Microsoft Sam seçtim
- Arkadaşlarla bilgisayar laboratuvarında Microsoft Sam'e uzun dizeler verip komik ses efektleri üretirken eğlendiğimiz günleri hatırlıyorum
  Sususususususu
Vay, sonunda adı Copilot olmayan bir Microsoft AI ürünü çıktı
- Adını Vopilot koysalar tam olurmuş

VibeVoice - Açık kaynak sınır ses yapay zekası

İlgili okumalar

1 yorum

Hacker News yorumları