Zonos - Yüksek kaliteli açık ağırlıklı ses sentezi modeli

xguru · 2025-02-14T10:23:01+09:00

200.000 saatten fazla çok dilli ses verisiyle eğitilmiş Open Weight Text-To-Speech modeli Ticari TTS hizmetleriyle "eşdeğer veya daha iyi ses kalitesi" ve "doğal ifade gücü" sunar 44kHz örnekleme hızıyla yüksek kaliteli ses çıktısı Ses klonlama desteği: Yalnızca birkaç saniyelik referans sesle belirli bir konuşmacının stilini hassas biçimde kopyalayabilir Çeşitli kontrol özellikleri: konuşma hızı, perde, ses kalitesi ve duygu (sevinç, korku, üzüntü, öfke vb.) kontrol edilebilir Temel özellikler Zero-shot TTS ve ses klonlama Metin ve 10~30 saniyelik konuşmacı örneği girildiğinde anında yüksek kaliteli ses sentezi yapılabilir Audio prefix girişi desteği Metinle birlikte audio prefix eklendiğinde daha hassas konuşmacı eşleştirmesi yapılabilir Fısıltı gibi belirli ses stillerini uygulamada etkilidir Çok dilli destek İngilizce, Japonca, Çince, Fransızca, Almanca desteği Duygu ve ses kalitesi kontrolü Duygu kontrolü: sevinç, öfke, üzüntü, korku vb. ifade edilebilir Ayrıntılı ses kontrolü: hız, perde, maksimum frekans, ses kalitesi ayarlanabilir Yüksek hız performansı RTX 4090 üzerinde gerçek zamanın yaklaşık 2 katı hızda çalışabilir Gradio WebUI desteği Basit web arayüzü sayesinde herkes kolayca ses üretebilir Kolay kurulum ve dağıtım Docker kullanılarak kolayca kurulup dağıtılabilir

(github.com/Zyphra)

24 puan yazan xguru 2025-02-14 | 2 yorum | WhatsApp'ta paylaş

200.000 saatten fazla çok dilli ses verisiyle eğitilmiş Open Weight Text-To-Speech modeli
Ticari TTS hizmetleriyle "eşdeğer veya daha iyi ses kalitesi" ve "doğal ifade gücü" sunar
44kHz örnekleme hızıyla yüksek kaliteli ses çıktısı
Ses klonlama desteği: Yalnızca birkaç saniyelik referans sesle belirli bir konuşmacının stilini hassas biçimde kopyalayabilir
Çeşitli kontrol özellikleri: konuşma hızı, perde, ses kalitesi ve duygu (sevinç, korku, üzüntü, öfke vb.) kontrol edilebilir

Temel özellikler

Zero-shot TTS ve ses klonlama
- Metin ve 10~30 saniyelik konuşmacı örneği girildiğinde anında yüksek kaliteli ses sentezi yapılabilir
Audio prefix girişi desteği
- Metinle birlikte audio prefix eklendiğinde daha hassas konuşmacı eşleştirmesi yapılabilir
- Fısıltı gibi belirli ses stillerini uygulamada etkilidir
Çok dilli destek
- İngilizce, Japonca, Çince, Fransızca, Almanca desteği
Duygu ve ses kalitesi kontrolü
- Duygu kontrolü: sevinç, öfke, üzüntü, korku vb. ifade edilebilir
- Ayrıntılı ses kontrolü: hız, perde, maksimum frekans, ses kalitesi ayarlanabilir
Yüksek hız performansı
- RTX 4090 üzerinde gerçek zamanın yaklaşık 2 katı hızda çalışabilir
Gradio WebUI desteği
- Basit web arayüzü sayesinde herkes kolayca ses üretebilir
Kolay kurulum ve dağıtım
- Docker kullanılarak kolayca kurulup dağıtılabilir

2 yorum

mindok 2025-02-14

Korece olmaması üzücü,,,

marantz 2025-02-19

Korece de gayet iyi çalışıyor. Biraz yapay dursa da.

Zonos - Yüksek kaliteli açık ağırlıklı ses sentezi modeli

Temel özellikler

İlgili okumalar

2 yorum