24 puan yazan xguru 2025-02-14 | 2 yorum | WhatsApp'ta paylaş
  • 200.000 saatten fazla çok dilli ses verisiyle eğitilmiş Open Weight Text-To-Speech modeli
  • Ticari TTS hizmetleriyle "eşdeğer veya daha iyi ses kalitesi" ve "doğal ifade gücü" sunar
  • 44kHz örnekleme hızıyla yüksek kaliteli ses çıktısı
  • Ses klonlama desteği: Yalnızca birkaç saniyelik referans sesle belirli bir konuşmacının stilini hassas biçimde kopyalayabilir
  • Çeşitli kontrol özellikleri: konuşma hızı, perde, ses kalitesi ve duygu (sevinç, korku, üzüntü, öfke vb.) kontrol edilebilir

Temel özellikler

  • Zero-shot TTS ve ses klonlama
    • Metin ve 10~30 saniyelik konuşmacı örneği girildiğinde anında yüksek kaliteli ses sentezi yapılabilir
  • Audio prefix girişi desteği
    • Metinle birlikte audio prefix eklendiğinde daha hassas konuşmacı eşleştirmesi yapılabilir
    • Fısıltı gibi belirli ses stillerini uygulamada etkilidir
  • Çok dilli destek
    • İngilizce, Japonca, Çince, Fransızca, Almanca desteği
  • Duygu ve ses kalitesi kontrolü
    • Duygu kontrolü: sevinç, öfke, üzüntü, korku vb. ifade edilebilir
    • Ayrıntılı ses kontrolü: hız, perde, maksimum frekans, ses kalitesi ayarlanabilir
  • Yüksek hız performansı
    • RTX 4090 üzerinde gerçek zamanın yaklaşık 2 katı hızda çalışabilir
  • Gradio WebUI desteği
    • Basit web arayüzü sayesinde herkes kolayca ses üretebilir
  • Kolay kurulum ve dağıtım
    • Docker kullanılarak kolayca kurulup dağıtılabilir

2 yorum

 
mindok 2025-02-14

Korece olmaması üzücü,,,

 
marantz 2025-02-19

Korece de gayet iyi çalışıyor. Biraz yapay dursa da.