StyleTTS2 – Açık kaynaklı, ElevenLabs kalitesinde metinden konuşmaya dönüştürme teknolojisi
(github.com/yl4579)İnsan seviyesinde metinden konuşmaya modelı, StyleTTS 2
- StyleTTS 2, stil difüzyonu ve büyük ölçekli konuşma dil modelleriyle yapılan adversarial öğrenme aracılığıyla insan seviyesinde metinden konuşmaya (TTS) sentezi elde eder.
- Bu model, referans ses olmadan metne en uygun stili üretmek için stili gizil rastgele değişken olarak bir difüzyon modeliyle modelleyerek verimli gizil difüzyon sağlar.
- Büyük ölçekli, önceden eğitilmiş bir konuşma dil modelini ayrıştırıcı olarak kullanır ve yeni, diferansiyellenebilir süre modellemesiyle uçtan uca eğitim yaparak konuşmanın doğallığını artırır.
Gereksinimler
- Python sürüm 3.7 veya üzeri gerekir.
- StyleTTS 2 deposunu klonlayın ve gerekli Python bağımlılıklarını kurun.
- LJSpeech veri kümesini indirip 24 kHz'e upsample ederek veri klasörüne çıkarın.
- LibriTTS veri kümesini kullanacaksanız
train-clean-360iletrain-clean-100klasörlerini birleştirip klasör adınıtrain-clean-460olarak değiştirmeniz gerekir.
Eğitim
- Birinci aşama eğitimi ve ikinci aşama eğitimi sıralı olarak çalıştırılabilir; model belirli bir biçimde kaydedilir.
- Veri listesi biçimi
filename.wav|transcription|speakerolmalıdır; çok konuşmacılı modelde stil difüzyon modeli eğitimi için referans ses örneklemesi gerekir.
Önemli ayarlar
config.ymldosyası; SLM adversarial eğitimi için OOD(out-of-distribution) metin yolu, eğitim için minimum ve maksimum uzunluk, çok konuşmacılı model eğitimi yapılıp yapılmayacağı ve OOM(out-of-memory) sorunlarını önlemek için batch yüzdesi gibi önemli ayarları içerir.
Önceden eğitilmiş modüller
- ASR klasöründe önceden eğitilmiş bir metin hizalayıcı, JDC klasöründe önceden eğitilmiş bir pitch çıkarıcı ve PLBERT klasöründe önceden eğitilmiş PL-BERT modeli bulunur.
Yaygın sorunlar
- Loss'un NaN olması ve bellek yetersizliği sorunları için batch boyutunu ayarlama veya
max_lendeğerini düşürme gibi çözümler önerilir.
Fine-tuning
train_second.pybetiğini değiştirerek DP kullanan bir fine-tuning betiği sunulur; DDP şu anda çalışmaz.
Çıkarım
- LJSpeech ve LibriTTS veri kümeleri için çıkarım notebook dosyalarına bakın; LibriTTS için referans ses dosyası gerekir.
- Önceden eğitilmiş StyleTTS 2 modeli indirilebilir; kullanmadan önce dinleyicilere sentezlenen ses örneklerinin StyleTTS 2 modeli tarafından üretildiğini bildirmeli veya kullanım izni alınmış bir sesi kullanmalısınız.
GN⁺ görüşü
Bu yazıdaki en önemli nokta, StyleTTS 2'nin insan seviyesinde TTS sentezine ulaşmış olmasıdır; bu da stil difüzyonu ve büyük ölçekli konuşma dil modelleriyle yapılan adversarial öğrenmenin potansiyelini gösterir. Bu teknoloji, konuşma sentezinin doğallığını büyük ölçüde artırırken referans ses olmadan da çeşitli stiller üretebilmesi sayesinde, ses tabanlı arayüzler ve dijital asistanların gelişimi üzerinde büyük etki yaratabilir.
1 yorum
Hacker News görüşleri
StyleTTS2 kullanılarak %100 yerel bir sesli sohbet botu geliştirme deneyimi
StyleTTS2'nin ses kalitesi hakkında kişisel görüş
StyleTTS2 kurulumu ve kullanım deneyimi paylaşımı
StyleTTS2'nin kurulumu ve çalışmasına dair deneyim
StyleTTS2 ses örnekleri ile gerçek sesin karşılaştırılması
StyleTTS2'nin ses kalitesine dair değerlendirme
StyleTTS2'nin başlığı ve içeriği hakkında görüş
StyleTTS2'nin çıkarım süresi hakkında soru
StyleTTS2'nin lisansı hakkında soru
Text-to-speech modelleri için pazar yeri beklentisi