17 puan yazan xguru 2023-01-10 | 3 yorum | WhatsApp'ta paylaş
  • Transformer tabanlı bir Text-to-Speech modeli
  • Herhangi bir sesi yalnızca 3 saniyelik örnekle o ses olarak sentezleyebiliyor
  • En yeni zero-shot TTS'lere kıyasla çok daha doğal ve konuşmacıya daha benzer; ayrıca konuşmacının duygusunu ve akustik ortamını da koruyor
  • Eski pipeline phoneme(phoneme) → mel-spectrogram → waveform şeklindeydi,
    VALL-E ise phoneme → discrete code → waveform kullanıyor
  • Çeşitli konuşma sentezi uygulamaları ve GPT-3 gibi yapay zeka modelleriyle birleştirilebilir

3 yorum

 
openmind 2023-01-10

Makine öğrenmesindeki gelişmelerle birlikte TTS teknolojisine giriş engelinin de düşmüş gibi görünüyor. Açık kaynak depolarına bakınca, sesi kendiniz kaydedip kendi sesiniz için özel yapım bir TTS oluşturmanın da mümkün olduğunu görebiliyorsunuz.

 
jjpark78 2023-01-10

Artık ses dalga biçimleri, parmak izi gibi kişiyi ayırt etmeye yarayan bir şey olmaktan çıkmış görünüyor. -_-;

Bir yerlerde, dinleme yapılırken büyük ölçekli sunucularda belirli bir kişinin ses izinin kullanılıp o ses izindeki belli anahtar kelimelere tepki verecek şekilde çalıştırıldığını duymuş gibiyim...

Bu düzeyde sentezlenebiliyorsa, öyle sistemler artık suya düşmüş oldu...