3 puan yazan GN⁺ 2025-06-12 | 1 yorum | WhatsApp'ta paylaş
  • Chatterbox, Resemble AI tarafından yayımlanan en yeni açık kaynaklı TTS (konuşma sentezi) modelidir
  • Rakip ElevenLabs ile yapılan karşılaştırmalı değerlendirmelerde istikrarlı biçimde daha çok tercih edilen sonuçlar göstermektedir
  • Duygusal abartı kontrolü gibi özgün özellikler sunarak çeşitli ses ifade biçimlerini mümkün kılar
  • 500 milyon parametreli Llama omurgası ve 500 bin saatlik arıtılmış veri ile eğitilmiştir
  • Üretilen tüm seslere gömülü Perth filigranı sayesinde yetkisiz kullanım ve tahrifata karşı koruma sağlar

Chatterbox TTS tanıtımı ve önemi

  • Chatterbox, Resemble AI tarafından geliştirilen üretim ortamı düzeyinde açık kaynaklı bir TTS (metinden konuşmaya) modelidir
  • MIT lisansı ile serbestçe kullanılabilir; kapalı kaynak ticari modellerle (ör. ElevenLabs) kıyaslandığında da üstün kalite sunduğunu gösteren sonuçlar yayımlanmıştır
  • Video, meme, oyun, yapay zeka ajanları gibi içerik üretiminin genelinde kullanılabilir ve açık kaynak TTS modelleri arasında ilk kez duygusal abartı kontrolü özelliği sunar
  • Hugging Face Gradio uygulaması veya kendi API'si üzerinden demo ve gerçek kullanım mümkündür; büyük ölçek veya yüksek doğruluk gereksinimlerinde ticari API (200 ms altı ultra düşük gecikme) de sunulur

Başlıca özellikler

  • Son teknoloji zero-shot TTS: Ek veriye ihtiyaç duymadan çeşitli konuşmacı stillerini ifade edebilir
  • 0.5B Llama omurgası: Büyük dil modeli mimarisini konuşma sentezine uygular
  • Duygusal abartı/yoğunluk ayarı: Her konuşmacı için kişilik ve duygu yoğunluğunu ayrıntılı biçimde kontrol etmeyi sağlar
  • Alignment-informed inference: Fonem ve ses hizalama bilgisini yansıtarak son derece kararlı üretim kalitesi sağlar
  • 0.5M saat arıtılmış veri: Büyük ölçekli ve yüksek kaliteli konuşma veri kümesiyle eğitilmiştir
  • Gömülü filigran: Resemble AI'nin Perth (Perceptual Threshold) filigranlama teknolojisiyle üretimlerin izlenmesini ve yetkisiz kullanımın önlenmesini destekler
  • Ses dönüştürme betiği: Kolay kullanılabilen voice conversion işlevi yerleşik olarak sunulur
  • Performans doğrulaması: ElevenLabs karşısında daha iyi değerlendirilen sonuçlar elde edilmiştir

Kullanım ipuçları

  • Genel TTS/ses ajanları: Varsayılan değerler (Exaggeration=0.5, cfg_weight=0.5) çoğu durumda dengeli kalite sağlar
    • Hızlı konuşmacı stili durumunda cfg_weight değerini 0.3 civarına ayarlamak daha doğal bir hız sunabilir
  • Duygusal/dramatik konuşma sentezi: Exaggeration değeri 0.7'nin üzerine çıkarılıp cfg_weight azaltıldığında dramatik konuşma etkisi güçlenir
    • Duygu yoğunluğu (exaggeration) arttıkça konuşma hızı yükselir; cfg_weight düşürüldüğünde daha yavaş ve daha net konuşma ayarlanabilir

Desteklenen diller

  • Şu anda yalnızca İngilizceyi desteklemektedir

Referans/bağımlı açık kaynak

  • Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3, S3Tokenizer gibi çeşitli güncel konuşma ve dil modeli teknolojilerini yansıtır

Gömülü Perth filigranı

  • Perth (Perceptual Threshold) filigranı: Üretilen tüm seslere, ses kalitesini düşürmeden sinir ağı tabanlı bir filigran ekler
  • Filigran MP3 sıkıştırma, ses düzenleme ve işleme sonrasında da korunur
  • Neredeyse %100 doğrulukla otomatik tespit mümkündür; kaynak takibi, tahrifatın önlenmesi ve sorumlu yapay zeka kullanımını destekler

Filigran çıkarma örneği

  • Ayrı bir betikle ilgili filigranın bulunup bulunmadığı doğrulanabilir
  • Python paketleri perth ve librosa kullanılarak sesten filigran değeri (0 veya 1) çıkarılabilir

Topluluk

  • Resmî Discord topluluğu aktiftir; herkes katılabilir ve iş birliği yapabilir

Sorumluluk reddi beyanı

  • Bu modelin kötü niyetli amaçlarla kullanımı yasaktır; istemler yalnızca internette herkese açık verilerden yararlanır

1 yorum

 
GN⁺ 2025-06-12
Hacker News görüşleri
  • Resemble AI’nin Perth (Perceptual Threshold) filigranının Chatterbox ile üretilen tüm ses dosyalarına eklendiğine dair bir açıklama gördüm
    bunun fark edilemeyen sinirsel filigranlar olduğu, MP3 sıkıştırma, ses düzenleme ve çeşitli değişikliklerden sonra bile hayatta kaldığı ve neredeyse %100 tespit doğruluğu sunduğu reklamı yapılıyor
    ama tts.py içinde apply_watermark fonksiyon çağrısını yorum satırına almak filigranı eklemeyi kolayca devre dışı bırakmaya yetmez mi diye merak ettim
    böyle bir filigranın amacı aslında modelin içine gömülü olup kolayca kaldırılamaması olmalı diye düşünüyorum
    Açık kaynak bir modelde filigran ayrı bir sonradan işleme adımı olarak ekleniyorsa, o zaman neden baştan filigran ekleme zahmetine giriliyor, emin değilim
  • Bunun bir tür CYA (Cover Your Ass, kendini koruma) jesti olduğunu tahmin ediyorum
    tıpkı orijinal Stable Diffusion’da bir içerik filtresi olması gibi
    ayrıca eğitim verisine karışmasını önleme niyeti de olabilir
  • Hatta parser içinde --no-watermark bayrağı da var
    sonuçta bunu bir “özellik” gibi sunup daha büyük bir ürüne dahil edecek kullanıcılar için koymuş gibi görünüyor
  • OpenAI, Google, ElevenLabs dışındaki şirketler agresif biçimde açık kaynak yaklaşımına gitmezse tamamen alakasız hale gelecek
    TTS pazarının liderleri zaten belli ve Resemble, PlayHT gibi şirketler geliştiricilere ağırlıkları ve kaynak kodunu açmadan anlamlı bir pazar payı alamaz
    filigranlama ise medyadaki kötüye kullanım eleştirilerine karşı CYA niteliğinde
    bu tür şeyler olmazsa medya ve yapay zeka karşıtı kesim (404Media vb.) kötüye kullanım meselesini gündeme taşıyacak
    kaynak kodu ve ağırlıkları yayımlayıp ayrıca API/fine-tuning seçenekleri sunmak doğru yön gibi görünüyor
    bu arada 404Media haberi
  • Demo sayfası burada
    eğer demo sesleri aşırı seçilmiş örnekler değilse bunun gerçekten çok iyi bir yayın olduğunu düşünüyorum
    her zaman söylediğim gibi, pratikte ses yapay zekasında sınırın çoğu zaman TTS kalitesi değil, konuşma tanıma (transkripsiyon) tarafı olduğunu deneylerimde sürekli hissediyorum
    yakın zamanda bir şey değişmediyse sınır hâlâ orada
  • Son deneyimime göre LLM’ler transkripsiyon hatalarını bile oldukça iyi okuyup kullanabiliyor
    henüz LLM’ye birden fazla transkripsiyon sürümü ya da confidence level vermeyi denemedim ama verilirse bunu iyi kullanabileceğini düşünüyorum
  • Speechmatics’i gerçekten kullandım ve transkripsiyon kalitesi bence oldukça işe yarardı
  • Huggingface demosunda bizzat denediğimde, sayfadaki demo kadar doğal duygusal ifade vermiyordu ve biraz seçilmiş örnek hissi uyandırdı
  • Sentetik veriyle transkripsiyon sorununu aşmak mümkün olabilir mi diye merak ediyorum
  • Demoda küfrün doğrudan yer almasını gerçekten sevdim
    Pulp Fiction’dan alınmış bir cümle olması da eğlenceli
    eski demolar hep fazla sıkıcı ve risksizdi, bundan bıkmıştım
    bağımsız TTS topluluğunda Navy Seals copypasta çok kullanılır ama Resemble gibi bir servis şirketinin böyle cümleler koyması taze hissettirdi
    Copypasta wiki, Navy Seal copypasta örneği
  • Buradan ücretsiz deneyebilirsiniz
  • Denemesi eğlenceliydi
    Avustralya aksanımı verdiğimde çok İngiliz, hatta oldukça yumuşak bir RP telaffuzuyla çıktı
    kulağa çok doğal geliyor ama benim aksanımı yeniden üretiyormuş gibi değil
    gerçek kullanımda çoğu zaman önemli olan şey anlaşılır ve doğal bir ses olduğu için, bu tür kullanım için gayet uygun
  • Ne yazık ki eğitim ya da fine-tuning kodu yayımlanmadığı için Flux veya Stable Diffusion gibi “tamamen açık” düzeyinde değil
    daha iyi “open” modeller arasında şunlar var
    • Zeroshot TTS: MaskGCT, MegaTTS3
    • Zeroshot VC: Seed-VC, MegaTTS3
      gerçekte eğitim/fine-tuning kodu olan tek model Seed-VC ama sıfır örnek performansında hepsi Chatterbox’tan daha iyi
      özellikle ByteDance’in MegaTTS3’ü, ElevenLabs hariç neredeyse hiçbir şirketin yetişemeyeceği seviyede
      ByteDance para, insan gücü ve veri açısından ezici üstünlüğe sahip
      amaç fine-tuning olmadan sıfır örnek ses yeniden üretimiyse bu modeller daha iyi bir seçim olabilir
  • Üretim ortamına hazır TTS API dağıtım uygulama örneği de açık kaynak olarak yayımlandı
    Dağıtılabilir model bağlantısı da eklenmiş
  • Örnek çıkarım kodu ve ses klonlama örneği paylaşılmış
    henüz streaming desteği üzerinde çalışıldığı da belirtiliyor
  • Gerçekten çok yaygın aksanlarda olağanüstü çalıştığını düşünüyorum
    ama beklenenden daha yaygın aksanlarda bile başka aksanlar sızıyor; örneğin İskoç kaydı verip Avustralya aksanı almak gibi
    Yorkshire aksanını da yanlış yakalıyor
  • İskoç aksanı verdiğimde benim Avustralya aksanım bile İngiliz RP’ye dönüştü
  • Bunun modelden çok İskoç aksanının özellikleriyle ilgili bir sorun olduğu görüşü var
  • İngiliz aksanı yapan bir oyuncu gibi geliyor
  • Donanım özellikleri sorusu: minimum sistemde çalışıyor mu diye merak ediyorum
  • GitHub issue sayfasına göre optimizasyon hâlâ pek iyi değil
    bu yüzden varsayılan haliyle oldukça güçlü tüketici donanımı istiyor
    ama ileride optimize edilme ihtimali yüksek görünüyor
    Issue bağlantısı
  • Bu issue temel alınırsa 6–7GB VRAM gerekiyor
    model yeterince değerliyse birinin daha az VRAM ile çalıştırmanın yolunu bulacağını düşünüyorum
    gerçekten eski bir Nvidia 2060’ta denedim ve VRAM tepe kullanımı yaklaşık 5GB’tı
  • Bu soru hiç de önemsiz değil, hatta en iyi soru olabilir
    ücretsiz çalıştırılabiliyor ama gerçek maliyet yüzünden self-hosting anlamsız hale gelebilir
  • Ben de aynı şeyi merak edip araştıranlardandım
    pahalı bir GPU mu gerekiyor, yoksa 12 yıllık bir dizüstünde de çalışıyor mu diye düşündüm
  • Eski bir CPU’da çalışma deneyimimi paylaşmak istedim ama 30 dakikadan fazla süre sadece kurulum ve hatalarla geçti
    yaşadığım sorunlar şunlardı:
    • Python 3.13 desteklenmiyor ve uv ile 3.12 sanal ortamını yeniden kurmak gerekti
    • numpy 1.26.4 tanınmadı, uv pip yalnızca pytorch deposunda arama yaptı
    • pip install chatterbox-tts sürümü CPU only modunda hatalı
    • varsayılan main sürümü Debian’da protobuf-compiler gerektiriyor
    • bilinmeyen bir CMake hatası, Python geliştirme başlıklarının eksik olduğundan şikâyet etti
      başkalarının Python projelerini her çalıştırışımda aynı eziyeti yaşamak gerçekten yorucu
  • Duygu ifadesindeki abartı ilginçti ama Elevenlabs gibi sadece metin açıklamasıyla istenen ses tonunu adeta “oyarak” oluşturabilen bir servis hâlâ bulamadım
    SparkTTS biraz daha fazla parametre sunuyor gibi görünüyor ve GitHub kodunda daha ince duygu kontrolü ihtimali de var
    benim durumumda prosody ve tonality üzerinde metinden aşırı yönlendirme vererek bazı modellerde istediğim konsepte yaklaşabildim
    yine de Elevenlabs’teki sezgisel duygu tasarımına kıyasla çok daha zahmetliydi
  • Demoyu doğrudan kendi sesimin bir parçasıyla test ettiğimde izlenimim şöyleydi
    • çıktı sesimden bazı izler taşıyordu ama aşırı benzer değildi
      buna rağmen bu kadar kısa bir örnekle buraya kadar yaklaşabilmesi oldukça etkileyici
    • CFG/pace değerlerini biraz artırınca ses hemen anlaşılmaz hale geldi
    • aksanım Avustralya olmasına rağmen çıktı bazen İngilizce, bazen Amerikan aksanına kaydı
    • abartılı duygular eğlenceliydi ama hangi duygunun çıkacağı her seferinde değişiyordu
  • Bu tür TTS modellerinin bir kitabı ikna edici biçimde seslendirecek kadar iyi olup olmadığını, birkaç paragraf sonra ses tutarlılığının bozulup bozulmadığını merak ediyorum
  • Çoğu TTS sistemi uzun metinde kaliteyi bozuyor, bu yüzden pratikte paragraf paragraf seslendirip sonra yeniden birleştirmek daha iyi
    ayrıca tek seferlik örnek dalga dosyası gürültülü olursa Chatterbox bazen sona tanımlanamaz sesler de ekliyor
    özellikle Dante’nin İlahi Komedya’sını okurken adeta “cehennemin sesleri” bonusu veriyor
  • Bir gün kalite yeterince yükselirse Audible’ın yapay zeka anlatımlı sesli kitaplarla dolacağını düşünüyorum
    (Amazon bunu açıklayıp açıklamayacak, asıl soru o)
  • Bir epub kitabını gerçekten sesli kitaba dönüştürmeyi denedim ve bu araçla hiç de kötü olmayan sonuçlar aldım
    audiobook dönüştürme aracı audiblez
  • Bu alandaki şirketlere danışmanlık yapıyorum ve mevcut teknolojiyle kitap seslendirme konusunda kesinlikle sorun olmadığını rahatça söyleyebilirim
  • Bir yıl önce bir arkadaşıma Carl Rogers terapi sesli kitabını eğlence olsun diye Attenbrough tarzında sentezleyip dinletmiştim; o zaman bile kalite oldukça iyiydi
    aradan bir yıl geçtiğine göre şimdi kesinlikle daha da iyidir