WhisperSpeech’e Genel Bakış
- WhisperSpeech, Whisper’ın tersine mühendislikle kurulmasıyla oluşturulmuş açık kaynaklı bir text-to-speech sistemidir.
- Bu model, güçlü olmasının yanı sıra kolayca özelleştirilebilecek şekilde tasarlanmıştır ve ticari amaçlarla güvenle kullanılabilir.
- Mevcut model İngilizce LibreLight veri kümesi temelinde eğitilmiştir; bir sonraki sürümde farklı dilleri desteklemesi planlanmaktadır.
Durum güncellemesi [2024-01-18]
- Son bir haftada çıkarım performansını optimize etmeye odaklanıldı.
torch.compile entegrasyonu, kv-cache eklenmesi ve bazı katman ayarlamaları sayesinde tüketici sınıfı 4090 üzerinde gerçek zamanın 12 katı hızla çalışmaktadır.
- Tek bir cümle içinde birden fazla dili karıştırma özelliği eklendi.
- Ses klonlamayı kolayca test edebilmek için bir yöntem de eklendi.
Durum güncellemesi [2024-01-10]
- Daha hızlı ve aynı zamanda yüksek kaliteli ses üreten yeni SD S2A modeli yayımlandı.
- Referans ses dosyasına dayalı bir ses klonlama örneği de eklendi.
Durum güncellemesi [2023-12-10]
- İngilizce ve Lehçeyi destekleyen 3 yeni model eklendi.
- Yeni örnek sesler sunuluyor ve bunlar doğrudan Colab üzerinde denenebiliyor.
İndirme
- Başlangıç noktası olarak Google Colab bağlantısının kullanılması veya sağlanan notebook’un yerelde çalıştırılması önerilmektedir.
- Manuel indirme yapmak ya da modeli sıfırdan eğitmek istiyorsanız, HuggingFace üzerinden WhisperSpeech önceden eğitilmiş modellerine ve dönüştürülmüş veri kümelerine erişebilirsiniz.
Yol haritası
- Daha büyük, duygusal ses veri kümeleri toplamak
- Duygu ve tonlamaya göre üretimi kontrol etmenin yollarını bulmak
- Farklı dillerde serbestçe kullanılabilecek sesleri toplamak için topluluk çabası oluşturmak
- Nihai çok dilli modeli eğitmek
Mimari
- AudioLM, SPEAR TTS ve MusicGen’e benzer genel bir mimariye sahiptir.
- Güçlü açık kaynak modeller üzerine kurulmuştur: semantik token üretimi ve transkripsiyon için OpenAI’nin Whisper’ı, akustik modelleme için Meta’nın EnCodec’i ve yüksek kaliteli vocoder olarak Charactr Inc’in Vocos’u.
Teşekkür
- Bu çalışma, Collabora, LAION, Jülich Supercomputing Centre’ın sponsorluğu ve bireysel katkıcıların desteği sayesinde mümkün oldu.
Danışmanlık
- Açık kaynak ve tescilli yapay zeka projeleri için destek sağlanabilir.
Alıntı
- Çeşitli mükemmel açık kaynak projelere ve araştırma makalelerine dayanır.
GN⁺ görüşü
- WhisperSpeech, ses sentezi alanında yenilikçi bir açık kaynak proje olarak, farklı dilleri destekleyen ve ticari kullanım için güvenli güçlü bir text-to-speech modeli sunmaktadır.
- En güncel teknolojileri kullanarak gerçek zamanın çok ötesinde performans elde ediyor ve ses klonlama gibi gelişmiş özellikleri kolayca test etmeyi mümkün kılan erişilebilirlik sunuyor.
- Bu proje topluluk temelli olarak gelişiyor; farklı dillere genişlemeyi ve duygusal unsurlar içeren ses üretimini hedeflediği için, ses teknolojilerinin geleceğinde önemli bir rol oynaması bekleniyor.
1 yorum
Hacker News görüşleri
Whisper çok dilli ASR modeli projesi
WhisperSpeech geliştiricisinin görüşü
Çince konuşma sentezine ilgi
Mycroft’un Mimic 3’üne değinilmesi
Uluslararası Fonetik Alfabe (IPA) tabanlı model hakkında soru
Piper ile özel ses eğitimi üzerine gözlem
Lehçe örneklerin değerlendirilmesi
Sesin kontrol edilebilirliği hakkında soru
Winston Churchill’in düşük kaliteli klipleriyle eğitilen demo hakkındaki şüphe
TTS hakkında olumlu değerlendirme