Chatterbox TTS - Açık kaynak metinden konuşmaya dönüştürme model ailesi

(github.com/resemble-ai)

3 puan yazan GN⁺ 2025-06-12 | 1 yorum | WhatsApp'ta paylaş

Chatterbox, Resemble AI tarafından yayımlanan en yeni açık kaynak metinden konuşmaya dönüştürme model ailesidir; ses klonlama ve çok dilli ses üretimini destekler
En yeni Chatterbox Multilingual V3, 0.5B model boyutunu korurken konuşmacı benzerliğini iyileştirmeyi, halüsinasyonları azaltmayı ve daha doğal konuşma odaklı çok dilli ses üretimini hedefler
Chatterbox-Turbo, İngilizce düşük gecikmeli ses ajanları için 350M'lik bir modeldir; speech-token-to-mel decoder üretimini 10 adımdan 1 adıma indirir ve [laugh], [cough] gibi paralinguistic tag desteği sunar
Model yapısı Turbo, Multilingual V3, Single Language Pack ve mevcut Chatterbox olarak ayrılır; çok dilli model Korece dahil 23 dili destekler ve Single Language Pack 6 özel fine-tuning sunar
Üretilen tüm sesler Resemble AI'nin PerTh watermark özelliğini içerir; MP3 sıkıştırma, ses düzenleme ve genel manipülasyonlardan sonra bile algılama doğruluğunun neredeyse %100 korunduğu belirtilir

Chatterbox TTS genel bakış

Chatterbox, Resemble AI'nin açık kaynak metinden konuşmaya dönüştürme model ailesidir
Demo örnekleri, Hugging Face Space, Podonos değerlendirmesi ve Discord bağlantısı birlikte sunulur

En yeni sürüm: Chatterbox Multilingual V3

Chatterbox Multilingual V3, Chatterbox ailesinin en yeni genel amaçlı çok dilli TTS modelidir
V3, öncekiyle aynı 0.5B model boyutunu korurken şunları iyileştirir
- konuşmacı benzerliği
- halüsinasyonların azaltılması
- diller genelinde daha doğal konuşma odaklı ses
V2 gibi geniş dil kapsamını hedefler, ancak daha kararlı ve daha güçlü ifade yeteneğine sahip üretim sunacak şekilde tasarlanmıştır
Birden fazla dilde çalışan tek bir ses klonlama modeli isteyen kullanıcılar için önerilen çok dilli modeldir

Single Language Pack

Single Language Pack, öncelikli diller için özel fine-tuning model paketidir
Genel amaçlı çok dilli modele göre daha güçlü dil bazlı davranış, daha sıkı kalite kontrolü ve lehçe duyarlı üretim gerektiğinde kullanılır
Sunulan özel model sayısı 6'dır
- Chinese / Demo
- Latam Spanish / Demo
- Brazilian Portuguese / Demo
- Spain Spanish / Demo
- Portugal Portuguese / Demo
- Hindi / Demo

Chatterbox-Turbo

Chatterbox-Turbo, düşük gecikmeli İngilizce ses ajanları için en verimli modeldir
350M parametreli sadeleştirilmiş bir mimari kullanır ve önceki modellere göre daha az hesaplama ile VRAM kullanarak yüksek kaliteli ses üretmek üzere tasarlanmıştır
Darboğaz olan speech-token-to-mel decoder damıtılarak üretim aşaması 10 adımdan 1 adıma indirilmiştir
Turbo, [cough], [laugh], [chuckle] gibi paralinguistic tag desteğini varsayılan olarak sunarak daha gerçekçi ifadeler ekleyebilir
Temel kullanım alanı düşük gecikmeli ses ajanlarıdır, ancak anlatım ve yaratıcı iş akışları için de uygun olduğu belirtilir
Ticari TTS hizmeti 200ms altı ultra düşük gecikme performansı sunar ve ajanlar, uygulamalar ve interaktif medya için prodüksiyon kullanımına uygun olarak tanıtılır

Model yapısı

Model	Boyut	Dil	Başlıca özellikler	Uygun kullanım
Chatterbox-Turbo	350M	English	paralinguistic tag, düşük hesaplama·VRAM	zero-shot ses ajanları, prodüksiyon
Chatterbox-Multilingual V3	500M	23+	konuşmacı benzerliğinde iyileştirme, halüsinasyon azaltma, doğal çok dilli ses	küresel uygulamalar, lokalizasyon, diller arası ses klonlama
Single Language Pack	her biri 500M	6 özel fine-tuning	dil ve bölge bazlı kalite kontrolü	öncelikli diller ve lehçeye duyarlı uygulamalar
Chatterbox	500M	English	CFG ve exaggeration ayarı	yaratıcı kontrol sunan genel zero-shot TTS

Kurulum ve çalıştırma

Paket pip install chatterbox-tts ile kurulur

Kaynaktan kurulum da desteklenir

git clone https://github.com/resemble-ai/chatterbox.git
cd chatterbox
pip install -e .

Geliştirme ve test ortamı Python 3.11 ve Debian 11'dir; bağımlılık sürümleri pyproject.toml içinde sabitlenmiştir
Kaynaktan kurulum modunda kod veya bağımlılıklar değiştirilebilir

Kullanım biçimi

Chatterbox-Turbo, modeli ChatterboxTurboTTS.from_pretrained(device="cuda") ile yükler ve ses klonlama için referans klip yolunu audio_prompt_path olarak alır
Turbo örneği, [chuckle] gibi paralinguistic tag içeren bir cümle üretir
Genel İngilizce model için ChatterboxTTS, çok dilli model için ChatterboxMultilingualTTS kullanılır
Çok dilli V3, ChatterboxMultilingualTTS.from_pretrained(device=device, t3_model="v3") ile yüklenir
- Eski V2 checkpoint kullanmak için t3_model atlanır veya "v2" verilir
Farklı bir sesle sentez yapmak için audio_prompt_path içinde referans ses dosyası belirtilir
Ek örnekler example_tts.py ve example_vc.py içindedir

Desteklenen diller

Genel amaçlı Chatterbox Multilingual modeli şu 23 dili destekler
- Arabic ar
- Danish da
- German de
- Greek el
- English en
- Spanish es
- Finnish fi
- French fr
- Hebrew he
- Hindi hi
- Italian it
- Japanese ja
- Korean ko
- Malay ms
- Dutch nl
- Norwegian no
- Polish pl
- Portuguese pt
- Russian ru
- Swedish sv
- Swahili sw
- Turkish tr
- Chinese zh

Mevcut Chatterbox için ayar ipuçları

Referans klip, belirtilen dil etiketiyle eşleşmelidir
- Aksi halde dil aktarımı çıktısı, referans klibin dilindeki aksanı devralabilir
- Bunu hafifletmek için cfg_weight değeri 0 yapılır
Varsayılan değerler exaggeration=0.5, cfg_weight=0.5 olup çoğu istem ve dilde iyi çalışır
Referans konuşmacının konuşma hızı yüksekse, cfg_weight değerini yaklaşık 0.3e düşürmek hız kontrolüne yardımcı olabilir
Daha ifadeli veya dramatik ses için düşük cfg_weight ve 0.7 üzeri exaggeration denenebilir
- Yüksek exaggeration konuşma hızını artırma eğilimindedir
- cfg_weight azaltmak, bunu daha yavaş ve daha temkinli bir hızla dengelemeye yardımcı olabilir

Yerleşik PerTh watermarking

Chatterbox ile üretilen tüm ses dosyaları Resemble AI'nin Perth watermark özelliğini içerir
Bu watermark, Perceptual Threshold tabanlı ve fark edilemeyen bir sinir ağı watermark'ıdır
MP3 sıkıştırma, ses düzenleme ve yaygın manipülasyonlardan sonra da korunur ve algılama doğruluğunun neredeyse %100 kaldığı belirtilir
Watermark çıkarma işlemi perth.PerthImplicitWatermarker() ve get_watermark() ile yapılır
- Sonuç, watermark yoksa 0.0, watermark varsa 1.0 olarak verilir

Değerlendirme

Chatterbox Turbo, yeniden üretilebilir öznel ses değerlendirme platformu Podonos ile değerlendirilmiştir
Karşılaştırma hedefi rakip TTS sistemleridir; değerlendirme odağı genel tercih, doğallık ve ifade gücüdür
Açık değerlendirme raporları sunulur
Tüm değerlendirmeler aynı koşullarda yürütülmüş olup Podonos üzerinden herkese açık şekilde erişilebilir

Lisans dışı notlar

README, “bu modeli kötü amaçlar için kullanmayın” ifadesini açıkça içerir
Promptların internette serbestçe erişilebilen verilerden alındığı belirtilir

1 yorum

GN⁺ 2025-06-12

Hacker News görüşleri

Demoya buradan bakılabilir: https://resemble-ai.github.io/chatterbox_demopage/
Örnekler aşırı seçilmiş değilse, oldukça iyi bir sürüm. Her seferinde aynı şeyi söylüyorum ama bizzat denediğimde ses yapay zekasında darboğazın ses sentezi değil, transkripsiyon kalitesi tarafında olduğunu gördüm. Son zamanlarda değişti mi bilmiyorum
- Kimsenin bahsetmediği bir 40 saniye sınırı var gibi. Ses 40 saniyeyi aşarsa kesiliyor
- Son deneyimlerime göre LLM, içinde transkripsiyon hataları olsa bile metni oldukça iyi okuyup çıkarım yapabiliyor
  LLM'e alternatif transkriptler ya da güven puanlarını birlikte verme denemesini henüz yapmadım, ama bunları da iyi kullanması muhtemel görünüyor
- Metin içinde bulunan homograf listesini kullanıcıya gösterip her biri için onay alan bir frontend entegrasyonu olsa iyi olurdu
  Yaygın ifade listeleriyle karşılaştırma işlevi de gerekli. LLM'in “live feed” veya “live here” ifadelerini yanlış telaffuz etmesi için pek mazeret yok
- Doğru. Speechmatics kullandım; transkripsiyonu oldukça iyi yapıyor
- Yalnızca İngilizce ve ticari olmayan kullanım içinse Parakeet neredeyse kusursuz derecede iyiydi
  https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2
  Gerçek zamanlı sohbet ve altyazı üretimi için kullanıyorum; 3090'da bir TV dizisi bölümünü 1 dakikadan kısa sürede işliyor. Whisper bende çok fazla halüsinasyon yapıyordu; sınıflandırıcı olarak kullanmak daha faydalı oldu
Burada ücretsiz çalıştırıp deneyebilirsiniz: https://huggingface.co/spaces/ResembleAI/Chatterbox
- Ne yazık ki eğitim veya ince ayar kodunu yayımlamadıkları için, Flux ya da Stable Diffusion için “açık” denildiğinde kastedilen anlamla aynı değil
  Daha iyi “açık” modeller istiyorsanız, rastgele ses klonlama ölçütüne göre MaskGCT, MegaTTS3; ses dönüştürme ölçütüne göre ise Seed-VC, MegaTTS3 daha iyi duyuluyor. Ancak eğitim/ince ayar kodu olan tek model Seed-VC. Zaten ince ayar yapamayacağınız bir modeli kullanmak zorundaysanız ve kendi sesinize daha iyi uyan rastgele klonlamaya ihtiyacınız varsa, Chatterbox yerine bunları kullanmak daha iyi. Özellikle ByteDance'in MegaTTS3'ü güçlü. ByteDance araştırmacıları, ElevenLabs hariç çoğu TTS araştırma ekibinden çok daha ileride; finansman, doktora seviyesinde araştırmacı ve eğitim verisi açısından da çok daha fazlasına sahipler
- Kurcalaması eğlenceli
  Ancak Avustralya aksanımı çok İngiliz, hatta seçkin bir RP aksanı gibi yaptı. Kulağa çok doğal geliyor ama benim aksanımı yeniden üretmiyor. Yine de birini gerçekten taklit etmek amaçlanmıyorsa çoğu TTS kullanımı için şaşırtıcı derecede net ve uygun
- Hugging Face aracının varsayılan referans ses dosyası olarak profesyonel seslendirme sanatçısı Jennifer English örneğini kullanmaları fazla bariz olmuş
- Gizlilik açısından nasıl çalıştığını merak ediyorum. Kayıt örneğini eğitimde kullanabiliyorlar mı?
Chatterbox harika
Kurulumu daha da kolaylaştıran bir API sarmalayıcısı yaptım ve Docker'ı da destekliyor: https://github.com/travisvn/chatterbox-tts-api/
Deneyimime göre yerelde kullanılabilen ses klonlama seçenekleri arasında açık ara en iyisi
- Sarmalayıcıyı denedim; hem Chatterbox TTS hem de API sarmalayıcısı gerçekten etkileyiciydi
  Aşağıdaki sorunun temel düzeyde olmasını mazur görün. Satır içi input nesnesi yerine yerel bir metin dosyası belirtmek için basit bir CLI komutu arıyordum ama bulamadım. Bir ipucu olursa sevinirim
- RTX 50 serisinde çalıştırmak için yaklaşık bir saat uğraştım ama başaramadım; PyTorch 2.7 ile de olmadı
  2.6'ya göre yapılmış gibi.
  "chatterbox-tts 0.1.2 requires torch==2.6.0, but you have torch 2.7.0+cu128 which is incompatible. chatterbox-tts 0.1.2 requires torchaudio==2.6.0, but you have torchaudio 2.7.0+cu128 which is incompatible."
- GPU'suz bir PC'de de kullanılabilir mi?
Chatterbox’ın oluşturduğu tüm ses dosyalarında Resemble AI’nin Perth filigranı olduğu belirtiliyor.
MP3 sıkıştırmasına, ses düzenlemeye ve yaygın manipülasyonlara dayanabilen, neredeyse %100 tespit doğruluğunu koruyan algılanamaz bir sinir ağı filigranı deniyor; yanlış anlamadıysam tts.py içinde apply_watermark çağrısını yorum satırına almak filigranı kolayca kapatmak anlamına gelmiyor mu? https://github.com/resemble-ai/chatterbox/blob/master/src/ch...
Böyle bir filigranın asıl noktasının, model ağırlıklarının içine bir şekilde gömülü olup kolayca ayrıştırılamaması gerektiğini düşünüyordum. Açık kaynak bir model yayımlarken filigranı ayrı bir son işleme adımı olarak ekleyeceklerse, baştan neden filigran koyduklarını anlamıyorum
- Bir tür sorumluluktan kaçınma jesti olabilir. Eski Stable Diffusion’daki içerik filtresine benziyor.
  Ya da eğitim verisi açısından, yanlışlıkla garip verilerin karışmasını önlemek gibi bir amacı da olabilir
- Ayrıştırıcıda tamamen kapatan --no-watermark bayrağı da var. Daha büyük ürünlerde kullanacak alt kullanıcılarına bunu bir “özellik” olarak sunmak için koyduklarını sanmıştım
- OpenAI, Google ve ElevenLabs dışındaki şirketler agresif biçimde açık kaynak olmazsa tamamen anlamsız hale gelmek zorunda kalabilir.
  TTS pazarının liderleri belli ve çok sağlam yerleşmiş durumda; bu yüzden Resemble, Play(HT) gibi yerlerin ağırlıkları sağlayıp geliştiricilere güçlü biçimde uyum sağlaması gerekiyor [1]. Filigranlama bunun için bir sorumluluktan kaçınma mekanizması. Filigran olmazsa 404Media gibi AI karşıtı mecralar başta olmak üzere kötüye kullanım endişeleri güçlü biçimde gündeme gelir [2].
  [1] Doğru yöntem bu. Kaynak kodu ve ağırlıkları sunmalı, kendi API’sini ve ince ayarı da sağlayarak geliştiricilerin zahmet çekmemesini sağlamalılar. Ancak böyle pazar payının bir kısmını geri alabilirler.
  [2] https://www.404media.co/wikipedia-pauses-ai-generated-summar...
Aptalca bir soru olabilir ama çalıştırılabilir minimum donanım gereksinimi kabaca nedir?
- Eski bir CPU’da nasıl çalıştığını söylemeye çalışacaktım ama yaklaşık 30 dakika uğraşmama rağmen çalıştırmayı bile başaramadım.
  Faydalı olur diye sorunları not düşeyim: Python 3.13’te olmuyor; uv ile 3.12 sanal ortamı oluşturunca çözülüyor. numpy 1.26.4 yok diyor ama aslında var; uv pip yalnızca PyTorch deposunda arıyormuş. Başka depoları da kontrol etmesi için --index-strategy bayrağı vermek gerekti. pip install chatterbox-tts sürümünde yalnızca CPU modunda bir hata vardı, bu yüzden Git deposunu klonlamak gerekti; main’in en yeni sürümü Debian’da protobuf-compiler istiyordu. En sonunda yorumlaması zor bir CMake hatası aldım; sanki Python geliştirme header’ları yok diye şikâyet ediyordu. Çıkarım yapmak istiyorum, Python derlemek değil; neden gerekli anlamıyorum.
  Sinirlenmenin üretken olmadığını biliyorum ama başkasının Python projesini çalıştırırken neredeyse her seferinde böyle bir deneyim yaşıyorum. Bir sorunla karşılaşıp geri çekiliyorsun, sonra başka bir sorunla karşılaşıp yine geri çekiliyorsun; bir saat geçse de hâlâ çalışmıyor
- Bu GitHub issue’suna göre 6–7 GB VRAM gerekiyor: https://github.com/resemble-ai/chatterbox/issues/44
  Model iyiyse birilerinin daha az kaynakla çalıştıracak optimizasyon yöntemini bulma ihtimali yüksek.
  Düzenleme: Eski bir Nvidia 2060’ta çalıştırdım; en yüksek VRAM kullanımı yaklaşık 5 GB gibi görünüyor
- Issue sayfasına bakınca şu anda pek iyi optimize edilmemiş gibi görünüyor[1]
  Varsayılan haliyle makul hızda çalıştırmak için epey güçlü tüketici sınıfı donanım gerekiyor gibi. Yine de geliştirme alanı oldukça fazla görünüyor; uzman değilim.
  [1]: https://github.com/resemble-ai/chatterbox/issues/127
- Aptalca bir soru değil, en iyi soru bu.
  Ücretsiz çalıştırılabiliyor olsa bile kiralayıp kullanmak daha ucuzsa, kendi başına çalıştırmanın anlamı kalmıyor
- Ben de bunu sormaya gelmiştim. Dört haneli fiyatlı bir GPU mu gerekiyor, yoksa 12 yıllık bir ThinkPad’de de çalışıyor mu, yoksa ikisinin arasında bir yerde mi merak ediyorum
Duygu abartma özelliği ilginç, ancak yalnızca istediğiniz sesin açıklamasıyla ses oluşturabilen ElevenLabs kadar çok yönlü ve kolay “şekillendirilebilir” bir şey henüz görmedim.
SparkTTS birkaç ek parametre sunuyor ve GitHub proje kodundaki yer tutuculara bakılırsa modelin daha ince ayrıntılı duygu kontrolü için geliştirilebilme ihtimali de var. Şimdiden metnin içine prozodi ve tonu güçlü biçimde yönlendiren ipuçları koyup, sonucu tekrar ses dönüştürmeye vererek istenen sonuca yaklaşma konusunda belli ölçüde başarı elde ettiğim oldu. Ama ElevenLabs’a göre çok daha zahmetli bir süreç
Çok yaygın aksanlarda harikaydı, ancak onun dışındaki bazı aksanlar da oldukça yaygın olmasına rağmen kolayca başka bir aksana sabitlenebiliyor.
Örneğin birkaç İskoç kaydı Avustralya aksanıyla çıktı; epey hafif bir Yorkshire aksanında da aynı şey oldu
- Bu, modelden çok İskoç aksanı hakkında daha fazla şey söylüyor gibi
- İlginçtir, benim Avustralya aksanımı çok İngiliz RP’si gibi bir şeye çevirdi. Birden acayip aristokrat oldum
- Benim aksanım İngiliz RP; sırayla Yorkshire ve İskoç aksanı verdim
- Profesyonel oyuncu gibisin
Bunlar bir kitabı ikna edici biçimde seslendirecek kadar iyi hale geldi mi? Yoksa birkaç paragraf okuduktan sonra ses tutarlılığı bozuluyor mu?
- Bu TTS sistemlerinin çoğu, metin uzadıkça bozulma eğiliminde
  Uzun metinleri paragraf bazında gruplara ayırıp üretmek, ardından en sonda tekrar birleştirmek daha iyi. Ayrıca tek seferlik örnek WAV çok temiz değilse Chatterbox, üretilen sesin sonunda rastgele uğursuz bir vınlama sesi çıkarabiliyordu. Dante’nin Inferno’sunu kaydediyorsanız bu bir bonus sayılabilir
- Mümkün. Bu araçla epub’dan sesli kitap oluşturdum ve sonuç idare eder düzeyde kullanılabilirdi: https://github.com/santinic/audiblez
- Yeterince iyi hale geldiği an Audible yapay zekanın seslendirdiği kitaplarla dolup taşacak; yani yakında öğreniriz. Tabii tek soru Amazon’ın bunu açıklayıp açıklamayacağı
- Bu alandaki bir şirkete danışmanlık yapıyorum; Resemble değil ama kesin olarak söyleyebilirim: kitap seslendirmek mümkün
- Bir yıl önce eğlence olsun diye bir arkadaşıma Carl Rogers terapi sesli kitabı hazırlamıştım; Attenborough tarzı bir anlatımla yapmıştım ve o zaman bile oldukça iyiydi. Şimdi daha da iyi olmuştur
Arkadaşlara ve aileye telefon görüşmelerine daha şüpheci yaklaşmaları gerektiğini düzenli olarak hatırlatmak lazım
Acilen Walmart hediye kartına ihtiyacı olduğunu söyleyen arkadaşın, gerçekten arkadaşınız olmama ihtimali giderek artıyor
- Bizim aile Arjantin aksanlı İspanyolca konuşuyor. Şu ana kadar bu alanda gördüklerime bakılırsa güvende görünüyorum
- Bir gün hükümetin Walmart gibi yerlere baskı yapıp hediye kartı satışını tamamen durdurmasını sağlaması gerekecek gibi
  Taklitçilik o kadar kolay ve ucuz hale geliyor ki yakın gelecekte bu tür dolandırıcılık aramalarının her yeri sarmaması mümkün değil
- Birleşik Krallık’ta yapay zeka tabanlı gelişmiş TTS telefon aramaları epey sık geliyor. Bugün de bir tane aldım
  Araya girip “x hakkında bir şiir yazar mısın?” derseniz güvenilir biçimde eleniyor. Ancak yanıt gecikmesi fazlasıyla belli oluyor
- Telefon dolandırıcılığını önlemenin en kolay yolu, aileyle ve borç verecek kadar yakın arkadaşlarla önceden bir sözlü parola belirlemek
  Gerçek bir durumsa karşı taraf bu parolayı biliyor olur, böylece doğrulama yapılabilir. Yapay zeka sesinin ve videonun bile mümkün olduğu bu yeni çağda, bu parolanın taklitçiliği engellediğini sürekli akılda tutturmak gerekiyor
Mevcut açık kaynak çok dilli TTS alanında en ileri seviye ne durumda? Kokoro İngilizcede harikaydı ama Fransızca, Japonca ve Almanca için hâlâ iyi bir çözüm arıyorum
- Ben de arıyorum. OpenVoice2 birkaç dili destekliyor; hatırladığım kadarıyla 5 civarı, ama henüz kullanılabilir düzeyde bir şey görmedim

Chatterbox TTS - Açık kaynak metinden konuşmaya dönüştürme model ailesi

Chatterbox TTS genel bakış

En yeni sürüm: Chatterbox Multilingual V3

Single Language Pack

Chatterbox-Turbo

Model yapısı

Kurulum ve çalıştırma

Kullanım biçimi

Desteklenen diller

Mevcut Chatterbox için ayar ipuçları

Yerleşik PerTh watermarking

Değerlendirme

Lisans dışı notlar

İlgili okumalar

1 yorum

Hacker News görüşleri