1 puan yazan GN⁺ 2026-04-29 | 1 yorum | WhatsApp'ta paylaş
  • TTS ve ASR’yi birlikte içeren bir ses yapay zekası model ailesi olarak yapılandırılır ve uzun ses üretimi ile uzun ses tanımayı birlikte ele alır
  • Çekirdek mimari, 7.5 Hz ultra düşük kare hızlı sürekli konuşma tokenizer’ı ile next-token diffusion birleşiminden oluşur; uzun dizileri işlerken ses kalitesi ve hesaplama verimliliğini birlikte hedefler
  • Metin bağlamını ve diyalog akışını anlamak için LLM kullanılır; yüksek doğruluklu akustik ayrıntı üretimi için ise diffusion head eklenmiş bir yapı benimsenir
  • VibeVoice-ASR, tek geçişte en fazla 60 dakikalık sesi işler ve konuşmacı bilgisi, zaman damgaları ve konuşma içeriğini birlikte içeren yapılandırılmış transkripsiyon üretir
  • ASR modeli 50’den fazla dili destekler ve kullanıcı tanımlı hotword ya da bağlam bilgisini alarak alan odaklı tanıma doğruluğunu artırmayı hedefleyebilir
  • ASR tarafında finetuning kodu ve vLLM çıkarım desteği yayımlanmış olup, Hugging Face Transformers kütüphanesinde de doğrudan kullanılabilir
  • VibeVoice-TTS, tek geçişte en fazla 90 dakikalık sesi sentezler ve tek bir diyalog içinde en fazla 4 konuşmacıyı destekler
  • TTS, ifade gücü yüksek diyalog odaklı ses ve konuşmacı tutarlılığına vurgu yapar; İngilizce, Çince ve diğer dilleri destekler
  • Depo duyurusuna göre VibeVoice-TTS kodu kaldırılmış durumda; yayımlandıktan sonra belirtilen amaçla uyuşmayan kullanımlar tespit edildiği ve bu nedenle depodan silindiği açıkça belirtiliyor
  • VibeVoice-Realtime-0.5B, 0.5B ölçekli gerçek zamanlı bir TTS modelidir; akış halinde metin girdisi, yaklaşık 300 ms ilk duyulabilir gecikme ve yaklaşık 10 dakikalık uzun ses üretimini destekler
  • Realtime modele 9 dilde çok dilli deneysel konuşmacılar ve 11 İngilizce stil sesi eklendi; ileride daha fazla konuşmacı türünün eklenmeye devam edileceği belirtiliyor
  • Dağıtım yolları ağırlıklı olarak Hugging Face ağırlıkları, Playground ve Colab üzerinden düzenlenmiş; bu sayede hızlı deneme yapılabiliyor
  • Bu depo yalnızca araştırma ve geliştirme amaçlı olarak sunuluyor; ek test ve geliştirme olmadan ticari ya da gerçek ortam kullanımına uygun görülmüyor
  • Modeller, temel model olan Qwen2.5 1.5b’nin önyargılarını ve hatalarını devralabilir; ayrıca deepfake, kimliğe bürünme ve yanlış bilgi yayma riski taşıdığından yasal ve sorumlu kullanım ile yapay zeka üretimi içeriklerin açıkça belirtilmesi öneriliyor

1 yorum

 
GN⁺ 2026-04-29
Hacker News yorumları
  • Bu yeni bir model bile değil; STT açısından halüsinasyon çok, çıkarımı ağır ve yavaş, çok dilli performansı da pek iyi değil
    Diğer işlevlerini bilmiyorum, burada tamamen speech to text açısından konuşuyorum

    • Tamamen avantajsız da değil; bazı durumlarda ifade gücü biraz daha iyi olabiliyor
      Ama genel olarak gürültülü veriyle eğitilmiş gibi hissettiriyor, daha fazla bellek kullanıyor ve hızı da yüksek değil
      Daha önce kısa süreliğine yayımlanıp sonra hızla kaldırılan 7B sürümü vibevoice-community'den bahsediyorum; şu anda ise chatterbox turbo ve ara sıra qwen TTS kullanmaya devam ediyorum
    • Bugün neden birdenbire bu kadar ilgi gördüğünü bilmiyorum
      Twitter'da da herkes bundan bahsediyor
    • TTS de iyi değildi
      Birkaç gün kullandım; öncelikle 1.5B model dokümantasyonu yoktu, 0.5B realtime model ise berbattı
      Metni satır satır dönüştürürken rastgele müzik ekliyordu ve gibi özel karakterleri de düzgün işleyemiyordu
      Açıkçası oldukça hayal kırıklığı yarattı
    • Şu an SOTA bunun çok ilerisinde
    • Bu yorum sayesinde çok zaman kazandım
      repo yıldızını da hemen geri çektim, bunu pas geçeceğim
  • Bu tür modelleri açık kaynak diye adlandırmayı artık bırakmalıyız bence
    Gerçekte bunlar sadece open weight; eğitim kodu kapalı ve hiç yayımlanmadı
    https://github.com/microsoft/VibeVoice/issues/102

    • Artık freeware'e açık kaynak denilen bir dünyada yaşıyoruz
      Üzgünüm, Stallman
    • Ben bu şikâyetimi özellikle açık kaynak olmayan lisanslarla dağıtılıp yine de açık kaynak diye anılan modellere saklıyorum
      Bir projede açık kaynak yazdığında benim fiilen ne yapabildiğim daha önemli
    • Bu gemi çoktan kalktı
      open source vs open weight ayrımı artık hacker/cracker ya da GIF'in nasıl telaffuz edildiği tartışması gibi bir kategoriye girmiş görünüyor
    • Tersinden bakarsak, ben MIT kodunu sadece ikili dosya olarak verip kaynağı hiç göndermesem bile o kod hâlâ açık kaynak olabilir
      Sorun, lisansın MIT olması değil erişimin olmaması olur
      Yine de Microsoft'un burada açıklığı abarttığına tamamen katılıyorum ve bu da şaşırtıcı değil
    • En azından MIT lisansı olması iyi
      Kapalı eğitim verisi de can sıkıcı ama benim için kısıtlayıcı lisanslar daha can sıkıcı
  • Bu kategoride Voxtral bence çok daha iyi
    Üstelik webGPU üzerinde çalıştırılabilecek kadar da küçük
    https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU

  • Kevin Beaumont, bu repo/product/author hakkında ilginç bir şey paylaşmış
    https://cyberplace.social/@GossiTheDog/116454846703138243

    • Linki gizlemek için bu kadar uğraşmaları gerçekten etkileyici
  • Bu, Microsoft'un yayımlayıp sonra kısa süre içinde güvenlik/emniyet gerekçesiyle kaldırdığı proje değil miydi acaba?
    Sonrasında neyin değiştiğini merak ediyorum

    • readme'deki News bölümüne bakabilirsin
      Orijinal TTS modeli bu repo'dan kaldırıldı ama başka yerlerde hâlâ bulunabiliyor
      Bunun yerine SST/ASR, long form TTS ve streaming TTS modelleri daha yeni olanlar
    • En azından bana oldukça kafa karıştırıcı geliyor
      Çünkü bu proje, az önce söylenenler de dahil olmak üzere birden fazla alanı aynı anda kapsıyor
  • Microsoft gibi bir şirketin vibe'ı AI ürün terminolojisinin parçası hâline getirmesi ilginç

    • Özellikle vibe coded, anlamadan aceleyle bir şeyler birleştirme gibi olumsuz bir çağrışım taşıyabildiği için daha da ilginç
    • Acaba 90'lardaki lanetli IBM STT ürünü Via Voice'a gönderme yapan bir kelime oyunu muydu diye de düşündüm
    • Benim için daha şaşırtıcı olan, buna Copilot demek istemelerine rağmen kendilerini tutmuş olmaları
  • Benim yaptığım speech-swift de VibeVoice gibi cihaz üzerinde ses işlemeye odaklanıyor
    Ama bunu buluta bağımlı olmadan, Apple Silicon gücünü kullanarak ASR, TTS, VAD çalıştıracak şekilde yaptım
    ASR 52 dili destekliyor ve real-time factor 0.06
    https://soniqo.audio/benchmarks

  • Simon'ın dün geceki yazısı güzeldi
    https://simonwillison.net/2026/Apr/27/vibevoice/

    • Bu arada o yazı yalnızca Speech-to-Text / Speech-Recognition tarafını ele alıyor
      whisper benzeri bir alan; bunun dışında ayrıca long-form TTS ve streaming TTS modelleri de var
    • VibeVoice'un en fazla 1 saatlik ses işleyebildiği söyleniyor
      Bunun neden olduğunu merak ediyorum
  • Bilgisayarın varsayılan sesi olarak Microsoft Sam seçtim

    • Arkadaşlarla bilgisayar laboratuvarında Microsoft Sam'e uzun dizeler verip komik ses efektleri üretirken eğlendiğimiz günleri hatırlıyorum
      Sususususususu
  • Vay, sonunda adı Copilot olmayan bir Microsoft AI ürünü çıktı

    • Adını Vopilot koysalar tam olurmuş