VALL-E - Microsoft'un geliştirdiği konuşma sentezi için dil modeli
(valle-demo.github.io)- Transformer tabanlı bir Text-to-Speech modeli
- Herhangi bir sesi yalnızca 3 saniyelik örnekle o ses olarak sentezleyebiliyor
- En yeni zero-shot TTS'lere kıyasla çok daha doğal ve konuşmacıya daha benzer; ayrıca konuşmacının duygusunu ve akustik ortamını da koruyor
- Eski pipeline
phoneme(phoneme) → mel-spectrogram → waveformşeklindeydi,
VALL-E isephoneme → discrete code → waveformkullanıyor - Çeşitli konuşma sentezi uygulamaları ve GPT-3 gibi yapay zeka modelleriyle birleştirilebilir
3 yorum
Makine öğrenmesindeki gelişmelerle birlikte TTS teknolojisine giriş engelinin de düşmüş gibi görünüyor. Açık kaynak depolarına bakınca, sesi kendiniz kaydedip kendi sesiniz için özel yapım bir TTS oluşturmanın da mümkün olduğunu görebiliyorsunuz.
Artık ses dalga biçimleri, parmak izi gibi kişiyi ayırt etmeye yarayan bir şey olmaktan çıkmış görünüyor. -_-;
Bir yerlerde, dinleme yapılırken büyük ölçekli sunucularda belirli bir kişinin ses izinin kullanılıp o ses izindeki belli anahtar kelimelere tepki verecek şekilde çalıştırıldığını duymuş gibiyim...
Bu düzeyde sentezlenebiliyorsa, öyle sistemler artık suya düşmüş oldu...