- 200.000 saatten fazla çok dilli ses verisiyle eğitilmiş Open Weight Text-To-Speech modeli
- Ticari TTS hizmetleriyle "eşdeğer veya daha iyi ses kalitesi" ve "doğal ifade gücü" sunar
- 44kHz örnekleme hızıyla yüksek kaliteli ses çıktısı
- Ses klonlama desteği: Yalnızca birkaç saniyelik referans sesle belirli bir konuşmacının stilini hassas biçimde kopyalayabilir
- Çeşitli kontrol özellikleri: konuşma hızı, perde, ses kalitesi ve duygu (sevinç, korku, üzüntü, öfke vb.) kontrol edilebilir
Temel özellikler
- Zero-shot TTS ve ses klonlama
- Metin ve 10~30 saniyelik konuşmacı örneği girildiğinde anında yüksek kaliteli ses sentezi yapılabilir
- Audio prefix girişi desteği
- Metinle birlikte audio prefix eklendiğinde daha hassas konuşmacı eşleştirmesi yapılabilir
- Fısıltı gibi belirli ses stillerini uygulamada etkilidir
- Çok dilli destek
- İngilizce, Japonca, Çince, Fransızca, Almanca desteği
- Duygu ve ses kalitesi kontrolü
- Duygu kontrolü: sevinç, öfke, üzüntü, korku vb. ifade edilebilir
- Ayrıntılı ses kontrolü: hız, perde, maksimum frekans, ses kalitesi ayarlanabilir
- Yüksek hız performansı
- RTX 4090 üzerinde gerçek zamanın yaklaşık 2 katı hızda çalışabilir
- Gradio WebUI desteği
- Basit web arayüzü sayesinde herkes kolayca ses üretebilir
- Kolay kurulum ve dağıtım
- Docker kullanılarak kolayca kurulup dağıtılabilir
2 yorum
Korece olmaması üzücü,,,
Korece de gayet iyi çalışıyor. Biraz yapay dursa da.