18 puan yazan GN⁺ 2026-01-16 | 4 yorum | WhatsApp'ta paylaş
  • 100 milyon parametreli Pocket TTS, ses klonlama özelliğine sahip hafif bir metinden konuşmaya dönüştürme modeli olup, sıradan dizüstü bilgisayar CPU’larında bile gerçek zamanlı çalışabiliyor
  • Mevcut büyük LLM tabanlı TTS’ler (1 milyardan fazla parametre) ile küçük Kokoro TTS (82 milyon parametre) arasındaki performans farkını daraltırken, yüksek kalite ve verimliliği aynı anda sağlıyor
  • Yalnızca yaklaşık 5 saniyelik bir ses örneğiyle, konuşmacının ses rengi, duygu, tonlama ve akustik koşullarını doğru biçimde kopyalıyor
  • Continuous Audio Language Model tabanlı mimariyi kullanarak ayrık token’lar yerine sürekli latent vektörleri doğrudan tahmin ediyor; böylece kalite kaybı olmadan model boyutunu küçültüyor
  • MIT lisanslı açık kaynak olarak yayımlanan model, CPU ortamlarında da yüksek kaliteli konuşma sentezini mümkün kılan hafif TTS teknolojisi için yeni bir ölçüt sunuyor

Pocket TTS’ye Genel Bakış

  • Pocket TTS, 100 milyon parametreli bir metinden konuşmaya dönüştürme modeli ve ses klonlama (voice cloning) özelliğini destekliyor
    • Dizüstü bilgisayar CPU’larında bile gerçek zamanlı çalışabiliyor
    • uvx pocket-tts serve veya uvx pocket-tts generate komutlarıyla yerelde çalıştırılabiliyor
  • Kyutai tarafından geliştirildi ve MIT lisansı ile açık kaynak olarak yayımlandı
    • Eğitim verisi olarak yalnızca herkese açık İngilizce konuşma veri setleri kullanıldı
    • Ek özel verilerle genişletilebilme olasılığından da söz ediliyor

Mevcut TTS Modelleriyle Karşılaştırma

  • Güncel TTS teknolojisi ikiye ayrılıyor
    • Büyük LLM tabanlı modeller: ör. Kyutai TTS 1.6B (yaklaşık 1,6 milyar parametre)
      • Çeşitli sesleri, duyguları ve akustik koşulları modelleyebiliyor ancak GPU gerektiriyor
    • Küçük, özelleşmiş modeller: ör. Kokoro TTS (82 milyon parametre)
      • Sabit bir ses seti ve elle tasarlanmış pipeline kullanarak verimli çalışıyor ancak esnekliği sınırlı
  • Pocket TTS bu iki yaklaşımın orta noktasında konumlanıyor ve CPU’da da yüksek kaliteli konuşma sentezi sunabiliyor

Performans Değerlendirmesi

  • Değerlendirme Librispeech test-clean setiyle yapıldı
    • Ses girdileri, 24kHz kalite sağlamak için Adobe Enhance Speech ile temizlendi
  • Karşılaştırılan modeller: F5-TTS, DSM, Chatterbox Turbo, Kokoro TTS
  • Değerlendirme metrikleri:
    • Word Error Rate (WER)
    • Ses kalitesi (ELO)
    • Konuşmacı benzerliği (ELO)
  • Sonuç özeti:
    • Pocket TTS, 1.84 WER ile en düşük hata oranına sahip
    • Ses kalitesi, F5-TTS ve DSM’den daha iyi
    • Konuşmacı benzerliği, referans sesle eşdeğer düzeyde
    • CPU’da gerçek zamandan hızlı çalışabilen tek model
Model Parametre sayısı WER ↓ Ses kalitesi (ELO) ↑ Konuşmacı benzerliği (ELO) ↑ CPU’da gerçek zamanlı çalışma
F5-TTS 336M 2.21 1949 ± 27 1946 ± 26
Kyutai TTS 1.6B 750M 1.84 1959 ± 25 2037 ± 21
Chatterbox Turbo 350M 3.24 2055 ± 23 2012 ± 22
Kokoro 82M 1.93 Ses klonlama yok Ses klonlama yok
Pocket TTS 100M 1.84 2016 ± 25 1898 ± 26
  • Intel Core Ultra 7 165H ve Apple M3 CPU’larında yapılan testlerde, yalnızca Pocket TTS ile Kokoro gerçek zamanlı sentez yapabildi

Mimari

  • Pocket TTS, Continuous Audio Language Model araştırmasına dayanarak tasarlandı
    • Geleneksel yaklaşım ayrık ses token’larını tahmin ederken, Pocket TTS sürekli latent vektörleri doğrudan tahmin ediyor
    • Bu sayede RQ-transformer darboğazı ortadan kaldırılıyor ve model hafifletiliyor

Neural Audio Codec

  • Mimi codec’i temel alınarak tasarlandı
    • Mimi ayrık token’larla sıkıştırma yaparken, Pocket TTS sürekli latent gösterimler kullanıyor
    • Normal dağılımla normalize edilmiş VAE eğitimi uygulanıyor
    • WavLM, cosine similarity loss ile iç temsillere distillation yoluyla aktarılıyor
    • RVQ aşamaları kaldırılıyor ve distillation loss tüm latent gösterime uygulanıyor

Generative Model

  • Masked Autoregressive (MAR) framework’ü temel alıyor
    • Causal Transformer omurgası ve MLP sampler’dan oluşuyor
    • Lagrangian Self-Distillation (LSD) loss kullanılarak 1-step sampling gerçekleştiriliyor
    • Çıkarım sırasında, tahmin edilen latent vektörler otokorelasyonlu biçimde geri besleniyor

Ses ve Metin Koşullandırma

  • Model girdisi, ses prompt’u (birkaç saniye) ile metni birleştiriyor
    • Ses, codec encoder ile; metin ise SentencePiece tokenizer ile gömülüyor

Model Boyutu Bileşimi

  • Üretici model (Transformer + MLP): 90 milyon parametre
  • Codec decoder: 10 milyon parametre
  • Codec encoder: 18 milyon parametre (ses örneği kodlanırken yalnızca bir kez kullanılıyor)

Eğitim Verisi

  • Tamamı herkese açık İngilizce konuşma veri setlerinden oluşuyor; toplam 88.000 saat
    • AMI, EARNINGS22, GIGASpeech, SPGISpeech, TED-LIUM, VoxPopuli, LibriHeavy, Emilia

Başlıca Teknik Katkılar

Head Batch Multiplier

  • Transformer’daki hesaplama darboğazını hafifletmek için z vektörü birden çok kez yeniden kullanılıyor
    • Her giriş dizisi için z bir kez hesaplanıp 8 kez loss hesaplamasında yeniden kullanılıyor
    • Verimliliği artırma ve eğitimi kararlı hâle getirme etkisi sağlıyor

Gaussian Temperature Sampling

  • Sürekli uzayda da sampling temperature kontrolü uygulanıyor
    • Gaussian noise varyansının azaltılmasıyla kalite artıyor
    • 0.7 temperature değerinde iyi sonuçlar gözlemlenmiş

Latent Classifier-Free Guidance (Latent CFG)

  • Mevcut CFG, latent değişken (z) düzeyinde uygulanıyor
    • Koşullu ve koşulsuz çıktılar lineer olarak birleştirilerek kalite artırılıyor
    • α=1.5 kullanılıyor
    • SoundReactor araştırmasında da benzer bir kavram yer alıyor

Distillation

  • CFG modelinin öğretmen model olarak kullanılmasıyla, hafif bir öğrenci modele distillation yapılıyor
    • Öğretmen modelin MLP head’i sabitleniyor ve öğrenci model L2 loss ile z’yi öğreniyor
    • 24 katmanlı öğretmen model → 6 katmanlı öğrenci model küçültmesi mümkün oluyor

Sonuç

  • Pocket TTS, CPU’da da gerçek zamanlı yüksek kaliteli konuşma sentezi yapabilen hafif bir TTS modeli
  • Sürekli latent uzay tabanlı mimariyi, verimli eğitim tekniklerini ve ses klonlama özelliğini bir araya getiriyor
  • Açık kaynak MIT lisansı ile yayımlanması, geliştiricilere ve araştırmacılara yeniden üretilebilirlik ve genişletilebilirlik sağlıyor

4 yorum

 
xguru 2026-01-16

Korece destekleyen açık TTS modelleri pek görünmüyor. Daha önce yayınlanan Kokoro-82M modelinin Koreceyi desteklediği söyleniyordu ama kalitesinin çok iyi olmadığına dair şeyler duymuştum, Kısaca bakınca GPT-Sovits ile üretip kullanmanın ya da Edge-TTS gibi bir şeyle yapmanın fena olmayan sonuçlar verdiği de söyleniyor.

Bu aralar vibe coding yaparken Whisper ile birleştirince ilginç bir şeyler çıkabilir gibi geliyor ama aklıma bir fikir gelmiyor, haha

 
ng0301 2026-01-18

Geçenlerde Supertonic’te Koreceyi de destekleyen bir model çıkmıştı, bir bakın derim.

Tıkla-çalıştır bir kütüphane de yaptım!

https://www.npmjs.com/package/easy-supertonic-tts

 
bichi 2026-01-19

Harika görünüyor ama yaparken hedef kaynak adresi de birlikte olsa iyi olurdu; öyle rastgele kuramam da hehe

 
GN⁺ 2026-01-16
Hacker News yorumları
  • Yazıma bu kadar ilgi gelmesine gerçekten çok sevindim
    Paris'te Kyutai araştırmasına dayalı kurumsal düzeyde ses çözümleri geliştiren bir ekibin parçasıyım
    Bu alanda bir şeyler geliştiren varsa, yakında gelecek modelleri ve özellikleri paylaşmak isterim
    Profilimdeki e-posta üzerinden bana ulaşabilirsiniz

    • Harika bir çalışma. Bence günlük cihazlarda bile yerelde çalıştırılabilecek seviyeye kadar sınırları zorlayan bir başarı
  • Uzun vaka incelemesini okurken bir tarayıcı eklentisine ihtiyaç olduğunu fark ettim ve tarayıcı arayüzünü kendim yaptım
    Ortaya çıkan şey Pocket Reader

  • İlgimi çektiği için bunu hemen bir MCP sunucusuna dönüştürdüm; Claude da iş bittiğinde haber veriyor
    speak_when_done

    • macOS'ta zaten oldukça doğal gelen bir TTS özelliği yerleşik olarak var
      Ben de benzer bir araç yapıp say komutunu arka plan süreci olarak çalıştırdım, ama iyi bir sesi tutarlı şekilde ayarlamak zordu
      O doğal ses sanki bir yerlere gizlenmiş gibi
    • Ben de yakın zamanda piper-tts ile benzer bir şey yaptım
      speak-mcp
    • Ben de aynı nedenle Pushover kurup bildirimleri telefona göndermesini sağladım
      Şimdi sizin sunucunuzu da deneyeceğim
  • Bu sefer kod kalitesi gerçekten çok iyi
    Genelde yeni modellerin kod tabanları gereksiz bağımlılık çöplüğüyle dolu olur, ama bu kez yazılım mühendisliği açısından da harika

  • Paylaştığınız için teşekkürler! Ben bir Kokoro hayranıyım ve yerel bir sesli asistanı kendim kurdum
    ova projesi
    Pocket TTS'yi de kesinlikle deneyeceğim

    • TTS performansı açısından Kokoro'nun çok daha iyi olduğunu düşünüyorum
      Ama Pocket TTS kapalı olduğu için ses klonlama özelliğini kontrol edemiyorum
    • Depo çok güzel! Ben de deneyeceğim
      Acaba mlx tabanlı mı yoksa Hugging Face transformers tabanlı mı merak ediyorum
  • Bu projenin küçük bir statik ikili dosya olarak dağıtılıp dağıtılamayacağını merak ediyorum
    Şu anda bağımlılıkları epey büyük

    • İlgili konu burada takip edilebilir
  • Gerçekten çok hoşuma gitti
    Ama MIT lisansı deniyor, README'de ayrıca bir Yasaklı Kullanım (Prohibited Use) bölümü var; bu yüzden özgür olmayan yazılım mı diye kafam karıştı

    • Benim anladığım kadarıyla kod MIT, ama model ayrı lisanslı
      Görseller ve sesler gibi ML modelleri de yazılım sayılmayabilir
      Hugging Face model kartında da aynı yasak maddesi var
    • MIT lisansında “kısıtlama olmaksızın kullanılabilir” ifadesi var
      Bu yüzden README'deki yasak maddeleri hukuken çelişkili olabilir
    • Yasak maddesi “suç işlemek için kullanmayın” seviyesinde, bu yüzden hukuki etkisi çok sınırlı gibi duruyor
    • “Kullanabilirsiniz ama şu amaçlarla kullanamazsınız” deniyorsa, bunun gerçekten lisans ihlali sayılıp sayılmadığı belirsiz
    • Yasak maddesi gereksiz bir biçimsel süs gibi geliyor
  • M1 Mac'te uvx pocket-tts serve komutunu çalıştırdım
    Test için İki Şehrin Hikâyesi'nin ilk paragrafını okuttum, ama Javert sesi cümlelerin ortasında bazı kısımları atlıyordu
    Örneğin “it was the age of foolishness” gibi bölümler söylenmedi
    Bu güveni azaltıyor
    İlgili issue'yu buraya açtım

    • Benim testimde de “we had everything before us” kısmı atlandı. Kesinlikle iyi bir işaret değil
    • Ben de aynı durumu gördüm. Cümle atlama ya da kelime sırasını değiştirme gibi çıktı bozulmaları vardı (Win10 RTX 5070 Ti)
    • Eponine sesi de “we had nothing before us” kısmını atlıyor ve son cümleyi söylemiyor. İçeride bir şeyler yanlış gidiyor gibi
  • Ben şimdiye kadar ses modellerini çok kullanmadım ama Pocket TTS sayesinde unmute.sh'i keşfettim
    Açık kaynak ve sanırım aynı şirket tarafından yapılmış
    Bu modeller homelab ortamında bile düşük maliyetle gayet kullanılabilir görünüyor
    Açık kaynak modellerde seviye o kadar yükseldi ki neredeyse her kullanım için uygun bir tane var
    Gerçek giriş engelinin kaldığı tek alan sanki kodlama modelleri
    Deepseek 4'ün Claude Sonnet'i geçip geçemeyeceğini görmek ilginç olacak

  • Bunu Codex eklentime entegre ettim ve her turun sonunda özeti sesli okutuyorum; şaşırtıcı derecede iyi çalışıyor
    MacBook'umda Samantha'dan çok daha akıcı çalışıyor
    agentify-sh/speak