VALL-E - Microsoft'un geliştirdiği konuşma sentezi için dil modeli

xguru · 2023-01-10T10:24:40+09:00

Transformer tabanlı bir Text-to-Speech modeli Herhangi bir sesi yalnızca 3 saniyelik örnekle o ses olarak sentezleyebiliyor En yeni zero-shot TTS'lere kıyasla çok daha doğal ve konuşmacıya daha benzer; ayrıca konuşmacının duygusunu ve akustik ortamını da koruyor Eski pipeline phoneme(phoneme) → mel-spectrogram → waveform şeklindeydi, VALL-E ise phoneme → discrete code → waveform kullanıyor Çeşitli konuşma sentezi uygulamaları ve GPT-3 gibi yapay zeka modelleriyle birleştirilebilir

(valle-demo.github.io)

17 puan yazan xguru 2023-01-10 | 3 yorum | WhatsApp'ta paylaş

Transformer tabanlı bir Text-to-Speech modeli
Herhangi bir sesi yalnızca 3 saniyelik örnekle o ses olarak sentezleyebiliyor
En yeni zero-shot TTS'lere kıyasla çok daha doğal ve konuşmacıya daha benzer; ayrıca konuşmacının duygusunu ve akustik ortamını da koruyor
Eski pipeline phoneme(phoneme) → mel-spectrogram → waveform şeklindeydi,
VALL-E ise phoneme → discrete code → waveform kullanıyor
Çeşitli konuşma sentezi uygulamaları ve GPT-3 gibi yapay zeka modelleriyle birleştirilebilir

3 yorum

openmind 2023-01-10

Makine öğrenmesindeki gelişmelerle birlikte TTS teknolojisine giriş engelinin de düşmüş gibi görünüyor. Açık kaynak depolarına bakınca, sesi kendiniz kaydedip kendi sesiniz için özel yapım bir TTS oluşturmanın da mümkün olduğunu görebiliyorsunuz.

jjpark78 2023-01-10

Artık ses dalga biçimleri, parmak izi gibi kişiyi ayırt etmeye yarayan bir şey olmaktan çıkmış görünüyor. -_-;

Bir yerlerde, dinleme yapılırken büyük ölçekli sunucularda belirli bir kişinin ses izinin kullanılıp o ses izindeki belli anahtar kelimelere tepki verecek şekilde çalıştırıldığını duymuş gibiyim...

Bu düzeyde sentezlenebiliyorsa, öyle sistemler artık suya düşmüş oldu...

xguru 2023-01-10

VALL-E - Microsoft'un geliştirdiği konuşma sentezi için dil modeli

İlgili okumalar

3 yorum