1 puan yazan GN⁺ 12 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş
  • TTS ve ASR’yi birlikte içeren bir ses yapay zekası model ailesi olarak yapılandırılır ve uzun ses üretimi ile uzun ses tanımayı birlikte ele alır
  • Çekirdek mimari, 7.5 Hz ultra düşük kare hızlı sürekli konuşma tokenizer’ı ile next-token diffusion birleşiminden oluşur; uzun dizileri işlerken ses kalitesi ve hesaplama verimliliğini birlikte hedefler
  • Metin bağlamını ve diyalog akışını anlamak için LLM kullanılır; yüksek doğruluklu akustik ayrıntı üretimi için ise diffusion head eklenmiş bir yapı benimsenir
  • VibeVoice-ASR, tek geçişte en fazla 60 dakikalık sesi işler ve konuşmacı bilgisi, zaman damgaları ve konuşma içeriğini birlikte içeren yapılandırılmış transkripsiyon üretir
  • ASR modeli 50’den fazla dili destekler ve kullanıcı tanımlı hotword ya da bağlam bilgisini alarak alan odaklı tanıma doğruluğunu artırmayı hedefleyebilir
  • ASR tarafında finetuning kodu ve vLLM çıkarım desteği yayımlanmış olup, Hugging Face Transformers kütüphanesinde de doğrudan kullanılabilir
  • VibeVoice-TTS, tek geçişte en fazla 90 dakikalık sesi sentezler ve tek bir diyalog içinde en fazla 4 konuşmacıyı destekler
  • TTS, ifade gücü yüksek diyalog odaklı ses ve konuşmacı tutarlılığına vurgu yapar; İngilizce, Çince ve diğer dilleri destekler
  • Depo duyurusuna göre VibeVoice-TTS kodu kaldırılmış durumda; yayımlandıktan sonra belirtilen amaçla uyuşmayan kullanımlar tespit edildiği ve bu nedenle depodan silindiği açıkça belirtiliyor
  • VibeVoice-Realtime-0.5B, 0.5B ölçekli gerçek zamanlı bir TTS modelidir; akış halinde metin girdisi, yaklaşık 300 ms ilk duyulabilir gecikme ve yaklaşık 10 dakikalık uzun ses üretimini destekler
  • Realtime modele 9 dilde çok dilli deneysel konuşmacılar ve 11 İngilizce stil sesi eklendi; ileride daha fazla konuşmacı türünün eklenmeye devam edileceği belirtiliyor
  • Dağıtım yolları ağırlıklı olarak Hugging Face ağırlıkları, Playground ve Colab üzerinden düzenlenmiş; bu sayede hızlı deneme yapılabiliyor
  • Bu depo yalnızca araştırma ve geliştirme amaçlı olarak sunuluyor; ek test ve geliştirme olmadan ticari ya da gerçek ortam kullanımına uygun görülmüyor
  • Modeller, temel model olan Qwen2.5 1.5b’nin önyargılarını ve hatalarını devralabilir; ayrıca deepfake, kimliğe bürünme ve yanlış bilgi yayma riski taşıdığından yasal ve sorumlu kullanım ile yapay zeka üretimi içeriklerin açıkça belirtilmesi öneriliyor

Henüz yorum yok.

Henüz yorum yok.