- Chatterbox, Resemble AI tarafından yayımlanan en yeni açık kaynaklı TTS (konuşma sentezi) modelidir
- Rakip ElevenLabs ile yapılan karşılaştırmalı değerlendirmelerde istikrarlı biçimde daha çok tercih edilen sonuçlar göstermektedir
- Duygusal abartı kontrolü gibi özgün özellikler sunarak çeşitli ses ifade biçimlerini mümkün kılar
- 500 milyon parametreli Llama omurgası ve 500 bin saatlik arıtılmış veri ile eğitilmiştir
- Üretilen tüm seslere gömülü Perth filigranı sayesinde yetkisiz kullanım ve tahrifata karşı koruma sağlar
Chatterbox TTS tanıtımı ve önemi
- Chatterbox, Resemble AI tarafından geliştirilen üretim ortamı düzeyinde açık kaynaklı bir TTS (metinden konuşmaya) modelidir
- MIT lisansı ile serbestçe kullanılabilir; kapalı kaynak ticari modellerle (ör. ElevenLabs) kıyaslandığında da üstün kalite sunduğunu gösteren sonuçlar yayımlanmıştır
- Video, meme, oyun, yapay zeka ajanları gibi içerik üretiminin genelinde kullanılabilir ve açık kaynak TTS modelleri arasında ilk kez duygusal abartı kontrolü özelliği sunar
- Hugging Face Gradio uygulaması veya kendi API'si üzerinden demo ve gerçek kullanım mümkündür; büyük ölçek veya yüksek doğruluk gereksinimlerinde ticari API (200 ms altı ultra düşük gecikme) de sunulur
Başlıca özellikler
- Son teknoloji zero-shot TTS: Ek veriye ihtiyaç duymadan çeşitli konuşmacı stillerini ifade edebilir
- 0.5B Llama omurgası: Büyük dil modeli mimarisini konuşma sentezine uygular
- Duygusal abartı/yoğunluk ayarı: Her konuşmacı için kişilik ve duygu yoğunluğunu ayrıntılı biçimde kontrol etmeyi sağlar
- Alignment-informed inference: Fonem ve ses hizalama bilgisini yansıtarak son derece kararlı üretim kalitesi sağlar
- 0.5M saat arıtılmış veri: Büyük ölçekli ve yüksek kaliteli konuşma veri kümesiyle eğitilmiştir
- Gömülü filigran: Resemble AI'nin Perth (Perceptual Threshold) filigranlama teknolojisiyle üretimlerin izlenmesini ve yetkisiz kullanımın önlenmesini destekler
- Ses dönüştürme betiği: Kolay kullanılabilen voice conversion işlevi yerleşik olarak sunulur
- Performans doğrulaması: ElevenLabs karşısında daha iyi değerlendirilen sonuçlar elde edilmiştir
Kullanım ipuçları
- Genel TTS/ses ajanları: Varsayılan değerler (Exaggeration=0.5, cfg_weight=0.5) çoğu durumda dengeli kalite sağlar
- Hızlı konuşmacı stili durumunda cfg_weight değerini 0.3 civarına ayarlamak daha doğal bir hız sunabilir
- Duygusal/dramatik konuşma sentezi: Exaggeration değeri 0.7'nin üzerine çıkarılıp cfg_weight azaltıldığında dramatik konuşma etkisi güçlenir
- Duygu yoğunluğu (exaggeration) arttıkça konuşma hızı yükselir; cfg_weight düşürüldüğünde daha yavaş ve daha net konuşma ayarlanabilir
Desteklenen diller
- Şu anda yalnızca İngilizceyi desteklemektedir
Referans/bağımlı açık kaynak
- Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3, S3Tokenizer gibi çeşitli güncel konuşma ve dil modeli teknolojilerini yansıtır
Gömülü Perth filigranı
- Perth (Perceptual Threshold) filigranı: Üretilen tüm seslere, ses kalitesini düşürmeden sinir ağı tabanlı bir filigran ekler
- Filigran MP3 sıkıştırma, ses düzenleme ve işleme sonrasında da korunur
- Neredeyse %100 doğrulukla otomatik tespit mümkündür; kaynak takibi, tahrifatın önlenmesi ve sorumlu yapay zeka kullanımını destekler
Filigran çıkarma örneği
- Ayrı bir betikle ilgili filigranın bulunup bulunmadığı doğrulanabilir
- Python paketleri perth ve librosa kullanılarak sesten filigran değeri (0 veya 1) çıkarılabilir
Topluluk
- Resmî Discord topluluğu aktiftir; herkes katılabilir ve iş birliği yapabilir
Sorumluluk reddi beyanı
- Bu modelin kötü niyetli amaçlarla kullanımı yasaktır; istemler yalnızca internette herkese açık verilerden yararlanır
1 yorum
Hacker News görüşleri
bunun fark edilemeyen sinirsel filigranlar olduğu, MP3 sıkıştırma, ses düzenleme ve çeşitli değişikliklerden sonra bile hayatta kaldığı ve neredeyse %100 tespit doğruluğu sunduğu reklamı yapılıyor
ama
tts.pyiçindeapply_watermarkfonksiyon çağrısını yorum satırına almak filigranı eklemeyi kolayca devre dışı bırakmaya yetmez mi diye merak ettimböyle bir filigranın amacı aslında modelin içine gömülü olup kolayca kaldırılamaması olmalı diye düşünüyorum
Açık kaynak bir modelde filigran ayrı bir sonradan işleme adımı olarak ekleniyorsa, o zaman neden baştan filigran ekleme zahmetine giriliyor, emin değilim
tıpkı orijinal Stable Diffusion’da bir içerik filtresi olması gibi
ayrıca eğitim verisine karışmasını önleme niyeti de olabilir
--no-watermarkbayrağı da varsonuçta bunu bir “özellik” gibi sunup daha büyük bir ürüne dahil edecek kullanıcılar için koymuş gibi görünüyor
TTS pazarının liderleri zaten belli ve Resemble, PlayHT gibi şirketler geliştiricilere ağırlıkları ve kaynak kodunu açmadan anlamlı bir pazar payı alamaz
filigranlama ise medyadaki kötüye kullanım eleştirilerine karşı CYA niteliğinde
bu tür şeyler olmazsa medya ve yapay zeka karşıtı kesim (404Media vb.) kötüye kullanım meselesini gündeme taşıyacak
kaynak kodu ve ağırlıkları yayımlayıp ayrıca API/fine-tuning seçenekleri sunmak doğru yön gibi görünüyor
bu arada 404Media haberi
eğer demo sesleri aşırı seçilmiş örnekler değilse bunun gerçekten çok iyi bir yayın olduğunu düşünüyorum
her zaman söylediğim gibi, pratikte ses yapay zekasında sınırın çoğu zaman TTS kalitesi değil, konuşma tanıma (transkripsiyon) tarafı olduğunu deneylerimde sürekli hissediyorum
yakın zamanda bir şey değişmediyse sınır hâlâ orada
henüz LLM’ye birden fazla transkripsiyon sürümü ya da confidence level vermeyi denemedim ama verilirse bunu iyi kullanabileceğini düşünüyorum
Pulp Fiction’dan alınmış bir cümle olması da eğlenceli
eski demolar hep fazla sıkıcı ve risksizdi, bundan bıkmıştım
bağımsız TTS topluluğunda Navy Seals copypasta çok kullanılır ama Resemble gibi bir servis şirketinin böyle cümleler koyması taze hissettirdi
Copypasta wiki, Navy Seal copypasta örneği
Avustralya aksanımı verdiğimde çok İngiliz, hatta oldukça yumuşak bir RP telaffuzuyla çıktı
kulağa çok doğal geliyor ama benim aksanımı yeniden üretiyormuş gibi değil
gerçek kullanımda çoğu zaman önemli olan şey anlaşılır ve doğal bir ses olduğu için, bu tür kullanım için gayet uygun
daha iyi “open” modeller arasında şunlar var
gerçekte eğitim/fine-tuning kodu olan tek model Seed-VC ama sıfır örnek performansında hepsi Chatterbox’tan daha iyi
özellikle ByteDance’in MegaTTS3’ü, ElevenLabs hariç neredeyse hiçbir şirketin yetişemeyeceği seviyede
ByteDance para, insan gücü ve veri açısından ezici üstünlüğe sahip
amaç fine-tuning olmadan sıfır örnek ses yeniden üretimiyse bu modeller daha iyi bir seçim olabilir
Dağıtılabilir model bağlantısı da eklenmiş
henüz streaming desteği üzerinde çalışıldığı da belirtiliyor
ama beklenenden daha yaygın aksanlarda bile başka aksanlar sızıyor; örneğin İskoç kaydı verip Avustralya aksanı almak gibi
Yorkshire aksanını da yanlış yakalıyor
bu yüzden varsayılan haliyle oldukça güçlü tüketici donanımı istiyor
ama ileride optimize edilme ihtimali yüksek görünüyor
Issue bağlantısı
model yeterince değerliyse birinin daha az VRAM ile çalıştırmanın yolunu bulacağını düşünüyorum
gerçekten eski bir Nvidia 2060’ta denedim ve VRAM tepe kullanımı yaklaşık 5GB’tı
ücretsiz çalıştırılabiliyor ama gerçek maliyet yüzünden self-hosting anlamsız hale gelebilir
pahalı bir GPU mu gerekiyor, yoksa 12 yıllık bir dizüstünde de çalışıyor mu diye düşündüm
yaşadığım sorunlar şunlardı:
uvile 3.12 sanal ortamını yeniden kurmak gerektiuv pipyalnızca pytorch deposunda arama yaptıpip install chatterbox-ttssürümü CPU only modunda hatalıprotobuf-compilergerektiriyorbaşkalarının Python projelerini her çalıştırışımda aynı eziyeti yaşamak gerçekten yorucu
SparkTTS biraz daha fazla parametre sunuyor gibi görünüyor ve GitHub kodunda daha ince duygu kontrolü ihtimali de var
benim durumumda prosody ve tonality üzerinde metinden aşırı yönlendirme vererek bazı modellerde istediğim konsepte yaklaşabildim
yine de Elevenlabs’teki sezgisel duygu tasarımına kıyasla çok daha zahmetliydi
buna rağmen bu kadar kısa bir örnekle buraya kadar yaklaşabilmesi oldukça etkileyici
ayrıca tek seferlik örnek dalga dosyası gürültülü olursa Chatterbox bazen sona tanımlanamaz sesler de ekliyor
özellikle Dante’nin İlahi Komedya’sını okurken adeta “cehennemin sesleri” bonusu veriyor
(Amazon bunu açıklayıp açıklamayacak, asıl soru o)
audiobook dönüştürme aracı audiblez
aradan bir yıl geçtiğine göre şimdi kesinlikle daha da iyidir