3 puan yazan GN⁺ 2023-11-20 | 1 yorum | WhatsApp'ta paylaş

İnsan seviyesinde metinden konuşmaya modelı, StyleTTS 2

  • StyleTTS 2, stil difüzyonu ve büyük ölçekli konuşma dil modelleriyle yapılan adversarial öğrenme aracılığıyla insan seviyesinde metinden konuşmaya (TTS) sentezi elde eder.
  • Bu model, referans ses olmadan metne en uygun stili üretmek için stili gizil rastgele değişken olarak bir difüzyon modeliyle modelleyerek verimli gizil difüzyon sağlar.
  • Büyük ölçekli, önceden eğitilmiş bir konuşma dil modelini ayrıştırıcı olarak kullanır ve yeni, diferansiyellenebilir süre modellemesiyle uçtan uca eğitim yaparak konuşmanın doğallığını artırır.

Gereksinimler

  • Python sürüm 3.7 veya üzeri gerekir.
  • StyleTTS 2 deposunu klonlayın ve gerekli Python bağımlılıklarını kurun.
  • LJSpeech veri kümesini indirip 24 kHz'e upsample ederek veri klasörüne çıkarın.
  • LibriTTS veri kümesini kullanacaksanız train-clean-360 ile train-clean-100 klasörlerini birleştirip klasör adını train-clean-460 olarak değiştirmeniz gerekir.

Eğitim

  • Birinci aşama eğitimi ve ikinci aşama eğitimi sıralı olarak çalıştırılabilir; model belirli bir biçimde kaydedilir.
  • Veri listesi biçimi filename.wav|transcription|speaker olmalıdır; çok konuşmacılı modelde stil difüzyon modeli eğitimi için referans ses örneklemesi gerekir.

Önemli ayarlar

  • config.yml dosyası; SLM adversarial eğitimi için OOD(out-of-distribution) metin yolu, eğitim için minimum ve maksimum uzunluk, çok konuşmacılı model eğitimi yapılıp yapılmayacağı ve OOM(out-of-memory) sorunlarını önlemek için batch yüzdesi gibi önemli ayarları içerir.

Önceden eğitilmiş modüller

  • ASR klasöründe önceden eğitilmiş bir metin hizalayıcı, JDC klasöründe önceden eğitilmiş bir pitch çıkarıcı ve PLBERT klasöründe önceden eğitilmiş PL-BERT modeli bulunur.

Yaygın sorunlar

  • Loss'un NaN olması ve bellek yetersizliği sorunları için batch boyutunu ayarlama veya max_len değerini düşürme gibi çözümler önerilir.

Fine-tuning

  • train_second.py betiğini değiştirerek DP kullanan bir fine-tuning betiği sunulur; DDP şu anda çalışmaz.

Çıkarım

  • LJSpeech ve LibriTTS veri kümeleri için çıkarım notebook dosyalarına bakın; LibriTTS için referans ses dosyası gerekir.
  • Önceden eğitilmiş StyleTTS 2 modeli indirilebilir; kullanmadan önce dinleyicilere sentezlenen ses örneklerinin StyleTTS 2 modeli tarafından üretildiğini bildirmeli veya kullanım izni alınmış bir sesi kullanmalısınız.

GN⁺ görüşü

Bu yazıdaki en önemli nokta, StyleTTS 2'nin insan seviyesinde TTS sentezine ulaşmış olmasıdır; bu da stil difüzyonu ve büyük ölçekli konuşma dil modelleriyle yapılan adversarial öğrenmenin potansiyelini gösterir. Bu teknoloji, konuşma sentezinin doğallığını büyük ölçüde artırırken referans ses olmadan da çeşitli stiller üretebilmesi sayesinde, ses tabanlı arayüzler ve dijital asistanların gelişimi üzerinde büyük etki yaratabilir.

1 yorum

 
GN⁺ 2023-11-20
Hacker News görüşleri
  • StyleTTS2 kullanılarak %100 yerel bir sesli sohbet botu geliştirme deneyimi

    • StyleTTS2, Whisper ve OpenHermes2-Mistral-7B gibi açık kaynaklarla oluşturulan sohbet botu, ChatGPT'den çok daha hızlı yanıt süreleri sunuyor.
    • Mevcut sesli asistanlardan farklı olarak doğal konuşmalar mümkün; özellikle 12GB Nvidia GPU'lu bir Windows oyuncu bilgisayarında tek tıkla kurulup konuşma yapılabiliyor.
    • Demo biraz kararsız olsa da (kulaklık gerekiyor, konsol uygulaması olarak çalışıyor vb.), açık kaynak bileşenlerin birleşimiyle oyuncu bilgisayarında çalışabilen bir geleceğin olasılığını gösteriyor.
  • StyleTTS2'nin ses kalitesi hakkında kişisel görüş

    • Ses çok iyi, ancak kullanmadan önce kişinin tercih ettiği hoş bir sesle klonlanmasını isterdim.
  • StyleTTS2 kurulumu ve kullanım deneyimi paylaşımı

    • StyleTTS2'yi test etme deneyimi ve yerel kurulumda faydalı olabilecek adım adım notlar paylaşılıyor.
    • LJSpeech modeliyle hız/kalite karşılaştırmasında StyleTTS2 çok hızlı ve kalite de iyi.
  • StyleTTS2'nin kurulumu ve çalışmasına dair deneyim

    • Dokümantasyon biraz eksik olduğu için kurulum biraz uğraştırdı, ancak yaklaşık 20 dakika sonra WSL Ubuntu 22.04 üzerinde iyi çalıştı.
    • Ses kalitesi çok iyi ve özellikle 4090 GPU kullanıldığında oldukça hızlı.
    • Eleven Labs kalitesine tam ulaşmasa da, Eleven'ın güçlü yanı yüksek kaliteli ve çeşitli ses kitaplığı ile yalnızca 5 dakikalık örnekle şaşırtıcı derecede iyi çalışan anında ses klonlama özelliği.
    • Bu özelliklerin tamamen açık kaynak bir projede kullanılabilir olmasını umuyor.
  • StyleTTS2 ses örnekleri ile gerçek sesin karşılaştırılması

    • TTS2 ses örnekleri gerçek sesten daha doğal duyuluyor.
    • Sesli kitabı olmayan ePub dosyaları, özellikle Japon light novel'ları için bu teknolojiyi kullanma fikri heyecan verici.
  • StyleTTS2'nin ses kalitesine dair değerlendirme

    • Ses kalitesi son derece etkileyici; 2000'lerin başında hayal bile edilemeyecek bir seviyede.
    • LLM'nin karakterleri üstlendiği ve TTS'nin NPC'lere ses verdiği oyunlar için ilginç bir gelecek vadediyor.
  • StyleTTS2'nin başlığı ve içeriği hakkında görüş

    • Şu anda Hacker News başlığı "StyleTTS2 – açık kaynak Eleven Labs kalitesinde text-to-speech" şeklinde, ancak gerçek başlıkta ya da arXiv makalesinde Eleven Labs'tan söz edilmiyor.
    • Bu tür editoryal ifadelerle ilgili kaygı dile getiriliyor.
  • StyleTTS2'nin çıkarım süresi hakkında soru

    • Modern CPU'larda çıkarım süresine dair kabaca bir tahmin soruluyor.
  • StyleTTS2'nin lisansı hakkında soru

    • Lisans MIT olmadığı için ticari amaçla kullanılamayıp kullanılamayacağı soruluyor.
  • Text-to-speech modelleri için pazar yeri beklentisi

    • Civitai tarzı bir LoRA pazar yerinin text-to-speech modelleri için de ortaya çıkıp çıkmayacağı merak ediliyor.