MetaVoice-1B - 1,2 milyar parametreli Text-To-Speech modeli

xguru · 2024-02-10T10:16:01+09:00

100 bin saatlik ses verisiyle eğitilmiş, 1,2 milyar parametreli bir TTS (metinden konuşmaya) modeli Duygusal konuşma ritmi ve tonlama (İngilizce) İnce ayarla voice cloning desteği (Hintli konuşmacılar için yalnızca yaklaşık 1 dakikalık ses verisiyle başarılı oldu) ABD/İngiltere aksanlı sesler için yalnızca 30 saniyelik referans sesle zero-shot cloning mümkün Uzun ses sentezini destekler Apache 2.0 lisansıyla herhangi bir kısıtlama olmadan kullanılabilir

(github.com/metavoiceio)

12 puan yazan xguru 2024-02-10 | Henüz yorum yok. | WhatsApp'ta paylaş

100 bin saatlik ses verisiyle eğitilmiş, 1,2 milyar parametreli bir TTS (metinden konuşmaya) modeli
Duygusal konuşma ritmi ve tonlama (İngilizce)
İnce ayarla voice cloning desteği (Hintli konuşmacılar için yalnızca yaklaşık 1 dakikalık ses verisiyle başarılı oldu)
ABD/İngiltere aksanlı sesler için yalnızca 30 saniyelik referans sesle zero-shot cloning mümkün
Uzun ses sentezini destekler
Apache 2.0 lisansıyla herhangi bir kısıtlama olmadan kullanılabilir

MetaVoice-1B - 1,2 milyar parametreli Text-To-Speech modeli

İlgili okumalar

Henüz yorum yok.