WhisperSpeech – Whisper’ın tersine mühendislikle kurulan açık kaynaklı bir ses sentezi sistemi

(github.com/collabora)

10 puan yazan GN⁺ 2024-01-19 | 1 yorum | WhatsApp'ta paylaş

WhisperSpeech’e Genel Bakış

WhisperSpeech, Whisper’ın tersine mühendislikle kurulmasıyla oluşturulmuş açık kaynaklı bir text-to-speech sistemidir.
Bu model, güçlü olmasının yanı sıra kolayca özelleştirilebilecek şekilde tasarlanmıştır ve ticari amaçlarla güvenle kullanılabilir.
Mevcut model İngilizce LibreLight veri kümesi temelinde eğitilmiştir; bir sonraki sürümde farklı dilleri desteklemesi planlanmaktadır.

Durum güncellemesi [2024-01-18]

Son bir haftada çıkarım performansını optimize etmeye odaklanıldı.
torch.compile entegrasyonu, kv-cache eklenmesi ve bazı katman ayarlamaları sayesinde tüketici sınıfı 4090 üzerinde gerçek zamanın 12 katı hızla çalışmaktadır.
Tek bir cümle içinde birden fazla dili karıştırma özelliği eklendi.
Ses klonlamayı kolayca test edebilmek için bir yöntem de eklendi.

Durum güncellemesi [2024-01-10]

Daha hızlı ve aynı zamanda yüksek kaliteli ses üreten yeni SD S2A modeli yayımlandı.
Referans ses dosyasına dayalı bir ses klonlama örneği de eklendi.

Durum güncellemesi [2023-12-10]

İngilizce ve Lehçeyi destekleyen 3 yeni model eklendi.
Yeni örnek sesler sunuluyor ve bunlar doğrudan Colab üzerinde denenebiliyor.

İndirme

Başlangıç noktası olarak Google Colab bağlantısının kullanılması veya sağlanan notebook’un yerelde çalıştırılması önerilmektedir.
Manuel indirme yapmak ya da modeli sıfırdan eğitmek istiyorsanız, HuggingFace üzerinden WhisperSpeech önceden eğitilmiş modellerine ve dönüştürülmüş veri kümelerine erişebilirsiniz.

Yol haritası

Daha büyük, duygusal ses veri kümeleri toplamak
Duygu ve tonlamaya göre üretimi kontrol etmenin yollarını bulmak
Farklı dillerde serbestçe kullanılabilecek sesleri toplamak için topluluk çabası oluşturmak
Nihai çok dilli modeli eğitmek

Mimari

AudioLM, SPEAR TTS ve MusicGen’e benzer genel bir mimariye sahiptir.
Güçlü açık kaynak modeller üzerine kurulmuştur: semantik token üretimi ve transkripsiyon için OpenAI’nin Whisper’ı, akustik modelleme için Meta’nın EnCodec’i ve yüksek kaliteli vocoder olarak Charactr Inc’in Vocos’u.

Teşekkür

Bu çalışma, Collabora, LAION, Jülich Supercomputing Centre’ın sponsorluğu ve bireysel katkıcıların desteği sayesinde mümkün oldu.

Danışmanlık

Açık kaynak ve tescilli yapay zeka projeleri için destek sağlanabilir.

Alıntı

Çeşitli mükemmel açık kaynak projelere ve araştırma makalelerine dayanır.

GN⁺ görüşü

WhisperSpeech, ses sentezi alanında yenilikçi bir açık kaynak proje olarak, farklı dilleri destekleyen ve ticari kullanım için güvenli güçlü bir text-to-speech modeli sunmaktadır.
En güncel teknolojileri kullanarak gerçek zamanın çok ötesinde performans elde ediyor ve ses klonlama gibi gelişmiş özellikleri kolayca test etmeyi mümkün kılan erişilebilirlik sunuyor.
Bu proje topluluk temelli olarak gelişiyor; farklı dillere genişlemeyi ve duygusal unsurlar içeren ses üretimini hedeflediği için, ses teknolojilerinin geleceğinde önemli bir rol oynaması bekleniyor.

1 yorum

GN⁺ 2024-01-19

Hacker News görüşleri

Whisper çok dilli ASR modeli projesi
- Whisper çok dilli ASR modeli, çok büyük bir veri kümesiyle eğitildiği için konuşmanın anlamsal içeriğini iyi yansıtan encoder çıktıları üretir.
- Bu encoder, SPEAR-TTS/VALL-E gibi model mimarilerinde anlamsal encoder için açık kaynak bir alternatif olarak kullanılabilir.
- Tahmin edilen akustik token’lar, Vocos vocoder ile upsample edilir, gürültüden arındırılır ve iyileştirilir.
- Şu anda temel darboğaz, uygun veri setlerini elde etmek ve temizlemek için gereken insan gücünün yetersizliği.
WhisperSpeech geliştiricisinin görüşü
- Modeli iyileştirmek için aylarca yoğun şekilde çalışıldı, ancak hâlâ geliştirme alanı oldukça fazla.
- Collabora’nın desteğiyle bunun gerçekten açık kaynak bir proje olduğu, geliştirmek veya entegre etmek isteyenlere yardımcı olmak istendiği belirtiliyor.
- Ticari amaçla kullanmak isteyenler mühendislik desteği satın alabilir.
Çince konuşma sentezine ilgi
- Özellikle tonlama ve duygu ifadesi açısından Çince konuşma sentezindeki performans merak ediliyor.
- EmotiVoice’un şimdiye kadar görülen en yüksek kaliteli açık kaynak model olduğu, bunun için bir CLI wrapper yazılıp flashcard sesleri üretmekte kullanıldığı söyleniyor.
- EmotiVoice ile GPU kullanarak kendi sesinizi klonlayabilirsiniz, ancak bu henüz test edilmemiş.
Mycroft’un Mimic 3’üne değinilmesi
- Mycroft’un Mimic 3’ü en güncel teknikleri kullanmasa da hâlâ etkileyici ve Raspberry Pi üzerinde gerçek zamanlı konuşma üretebilecek kadar küçük.
- Bazı sesler diğerlerinden daha iyi ve WhisperSpeech örnekleriyle aynı seviyede.
Uluslararası Fonetik Alfabe (IPA) tabanlı model hakkında soru
- IPA tabanlı bir modelin geliştirilmesi/ilerleme durumu soruluyor.
- Bu yaklaşım, sesi farklı aksanlara dönüştürmek veya çok dilli desteği sağlamak için faydalı olabilir.
- MBROLA sesleri gibi modellerde, bir dildeki fonemleri başka bir dilin fonemlerine eşleyerek bu sınırlı ölçüde yapılabilir.
- IPA yaklaşımı, konuşma kalitesi ve tınıdaki değişimleri daha iyi öğrenmeyi mümkün kılabilir.
Piper ile özel ses eğitimi üzerine gözlem
- Piper ile özel bir sesi eğitmeyi anlatan bir videoda, veri kümesi için gereken metadata’nın kaynak ses dosyalarındaki metinle ilgili olduğu görülüyor.
- Collabora’nın eğitim yöntemi bu süreci otomatikleştiriyor ve eğitim için yalnızca ses dosyaları gerektiriyor.
Lehçe örneklerin değerlendirilmesi
- Lehçe örnekler çok iyi ve bir sesli kitap kaydı gibi duyuluyor.
Sesin kontrol edilebilirliği hakkında soru
- TTS’yi bir sohbet sistemine uygularken sesin ne kadar kontrol edilebilir olduğu merak ediliyor.
- Her kullanıcının kendine özgü bir sese sahip olabilmesi için mümkün olduğunca çok farklı sese ihtiyaç var.
Winston Churchill’in düşük kaliteli klipleriyle eğitilen demo hakkındaki şüphe
- Düşük kaliteli ses klipleriyle eğitilmiş bir demo için “çöp girerse çöp çıkar” şüphesi dile getiriliyor.
TTS hakkında olumlu değerlendirme
- Şimdiye kadar duyulan en iyi TTS olduğu, sesin insan gibi modüle edildiği söyleniyor.

WhisperSpeech – Whisper’ın tersine mühendislikle kurulan açık kaynaklı bir ses sentezi sistemi

WhisperSpeech’e Genel Bakış

Durum güncellemesi [2024-01-18]

Durum güncellemesi [2024-01-10]

Durum güncellemesi [2023-12-10]

İndirme

Yol haritası

Mimari

Teşekkür

Danışmanlık

Alıntı

GN⁺ görüşü

İlgili okumalar

1 yorum

Hacker News görüşleri