Kitten TTS - Yalnızca CPU ile çalışan 25MB'lık açık kaynak TTS modeli

(github.com/KittenML)

21 puan yazan GN⁺ 2025-08-07 | 2 yorum | WhatsApp'ta paylaş

Kitten TTS, hafiflik ile yüksek ses kalitesini aynı anda hedefleyen açık kaynak bir TTS (text-to-speech) modeli
Yalnızca 15 milyon parametre kullanarak model boyutunu 25MB'ın altında tutuyor
- Diğer büyük TTS'lerden farklı olarak mobil, gömülü sistemler ve benzeri tüm ortamlarda çalışabilmesi en büyük özelliklerinden biri
GPU olmadan da tüm cihazlarda yüksek kaliteli konuşma sentezi gerçekleştirebiliyor
Çeşitli premium ses seçenekleri sunarak gerçek insan sesine yakın yüksek kaliteli ses sentezi sağlıyor
Hızlı ses çıkarımı sayesinde gerçek zamanlı sentez için optimize edilmiş
Geliştirici önizleme modeli yayımlanmış durumda; ileride eğitim tamamlanmış tam model ağırlıkları, mobil SDK, web sürümü gibi bileşenler kademeli olarak yayımlanacak

2 yorum

hybridego 2025-08-07

Keşke Korece modeli de olsa..

GN⁺ 2025-08-07

Hacker News görüşleri

Ubuntu 24 üzerinde Razer Blade 16 ve Intel Core i9-14900HX ile basit bir benchmark yaptım
İlk gecikme, kısa metin için yaklaşık 315 ms ve konuşma üretim hızı metin uzunluğuna bağlı olarak gerçek zamanın saniyede 3.35~5.5 katı arasında
Model yaklaşık 710 ms içinde yükleniyor
4 farklı ses arasında performans farkı neredeyse yok ve gerçek zamanın en fazla yaklaşık 5 katı hız korunuyor
- Benim Intel Celeron N4020 CPU'mda (1.10GHz) yüklenmesi 6 saniye sürüyor ve metin uzunluğundan bağımsız olarak neredeyse gerçek zamanlı çalışıyor
- Benchmark'ı çalıştırdığın için teşekkürler
  Model şu anda hâlâ optimize edilmedi
  Prodüksiyon SDK'si çıktığında yükleme gibi kısımları da optimize etmeyi planlıyoruz
Reddit'te KittenTTS tarafından üretilmiş ses örnekleri var
Reddit ses örneği
- Farklı seslerin hepsini içeren kısa bir video da var
  YouTube videosu
- Reddit videosu gerçekten harika
  25MB bile olmayan bir boyutta ve sadece CPU kullanarak bu kaliteyi vermesi şaşırtıcı
  İnsanların buna “eh işte bir model” demesini anlamıyorum
- Ses çok net ve berrak
  Ana dili İngilizce olmayan biri olarak benim için bile anlaşılması kolay
- Biraz yavaş duyuluyor ve sanki bir animasyondan çıkmış gibi bir sesi var
- Acaba Futurama karakter sesleriyle çapraz eğitim mi yapıldı?
Umarım gelecek bu tür modellerin olur
Çevrimdışı, küçük ML modellerinin ucuz ve her yerde bulunabilen donanımlarda çıkarım yaptığı bir dönem
Başka cihazlara ya da uygulamalara kolayca entegre edilebilir, hatta başka modeller üzerinde bile çalıştırılabilir
- Apple'ın SLM'lerle (küçük dil modelleri) çizdiği vizyon tam olarak bu
  Diyelim ki yalnızca takvim etkinliklerini yöneten bir model var, insanlığın tüm bilgisini içermesi gerekmiyor
  Sadece gerekli olana, yani takvim yönetimine odaklanması yeterli
- Tek amaçlı özel donanım üzerinde model çalıştırırsan enerji verimliliği çok yüksek olur
  Hatta sadece dirençlerle bile sinir ağı çalıştırabilirsin (transistör olmadan)
  Elbette böyle donanımlar genel amaçlı değildir ve modeli yükseltmek zordur
  Ama birçok kullanım senaryosunda bu kadarı yeterlidir
- Bir kere satın alıp her şeyi çalıştırabildiğin modellerle
  abonelik modeline bağlanan ve yalnızca en zengin mega şirketlerin satın alabileceği donanım gerektiren modeller arasında
  hangisinin daha başarılı olacağını merak ediyorum
- Aslında ulaşmaya çalıştığımız hedef tam da bu
- Bizim vizyonumuz da tam olarak bu
25MB boyut zaten etkileyici ama asıl yenilikçi nokta, KittenTTS'nin Apache-2.0 lisansıyla yayımlanmış olması
Bu kombinasyon sayesinde tamamen çevrimdışı çalışan bir konuşma motorunu Pi Zero sınıfı donanıma ya da pille çalışan oyuncaklara doğrudan gömebilirsiniz
GPU, bulut çağrıları veya kısıtlayıcı lisanslarla uğraşmanız gerekmez
Donanım ya da lisans sorununu tek hamlede bir “paketleme sorunu”na dönüştürüyor
Kaliteyi artırmak daha sonraki bir mesele; bence asıl oyun değiştirici olan, bu dağıtım sınıfını mümkün kılması
- Biz de ileride yüksek kaliteli ultra küçük AI modelleri üretme konusunda gerçekten heyecanlıyız
  Yerel ses arayüzlerinin kaçınılmaz olduğuna inanıyoruz ve gelecekte bu alanın temel oyuncularından biri olmak istiyoruz
  Bu model bir ön izleme sürümü ve gelecek hafta civarı çok daha olgun bir sürümü daha yayımlayacağız
  Ayrıca yaklaşık 80M'lik bir modeli de paylaşmayı planlıyoruz
- KittenTTS'nin Apache-2.0 olduğundan bahsettin ama
  GitHub'daki kaynak koda bakarsan phonemizer kullandığını görürsün
  phonemizer GPL-3.0 lisanslı
  Bu yüzden şu anda fiilen GPL
  (Not: Bu yorumun LLM tarafından yazılmış gibi göründüğünü de eklemiş)
- Festival'in festvox-kallpc16k modeli yaklaşık 6MB, festvox-kallpc8k ise yaklaşık 3.5MB
  eSpeak NG'nin çok dilli verisi yaklaşık 12MB
  Bu model muhtemelen daha doğal ses üretir
  Ama eski ya da düşük özellikli bilgisayarlar da eskiden beri gayet iyi TTS yapabiliyordu
- KittenTTS Apache-2.0 ise
  eğitim verisinin durumu ne diye merak ediyorum
  Model, eğitim girişlerini neredeyse birebir geri üretebilecek kadar benzer çıktılar verse bile
  hukuken tamamen türetilmiş eser olmadığından emin olabilir miyiz?
- espeak-ng'ye bağımlı olduğu için GPLv3
Bir web sürümü var
Demoyu aç
Ses fena değil ama boyutu düşünülünce oldukça etkileyici
- SF filmlerinde robot sesini “gerçek robot gibi” yapmak için sesin kasıtlı olarak tuhaf biçimde bozulması komik değil mi?
  Açıkça insan sesi olmayan bir robot sesi, aslında birçok ortamda daha çekici ve daha uygun olabilir
  Örneğin akıllı bir tost makinesinin BBC haber sunucusu gibi konuşmasına gerek yok
  Telaffuz anlaşılır olsun yeter
- Demoda örnek metni okuttum ama örneklerdeki kadar iyi gelmedi
  Denemek isteyenler için örnek metni bırakıyorum
  
  Kitten TTS is an open-source series of tiny and expressive text-to-speech models for on-device applications. Our smallest model is less than 25 megabytes.
- Demoyu 6 cümleyle çalıştırınca hata verdi
  3 cümleye düşürünce düzgün çalıştı
  Metin uzunluğu sınırı modelden mi kaynaklanıyor, yoksa demonun kısıtı mı merak ediyorum
- Benim ortamımda hiç çalışmıyor
  Backend modülünde 404 hatası alıyorum
  404 hata örneği bağlantısı
- Aradığım bağlantı tam buydu
  Reddit demosu idare eder, bana birkaç yıl öncesinin seviyesinde gibi geldi
  Ama bizzat deneyince tüm örnekler neredeyse anlaşılmaz düzeydeydi
Sistem gereksinimlerinde "neredeyse her yerde çalışır" yazmasına güldüm
Bir makinede Python sürümü çok düşük,
başka bir makinede ise Python sürümü çok yüksek olduğu için paket bağımlılık sorunları yüzünden kurulamıyor
- Bu sorunu çözmek için birkaç PR gönderdim
  PR 21, PR 24, PR 25
  uv yüklüyse, merge ettiğim referans branch üzerinden
```
uvx --from git+https://github.com/akx/KittenTTS.git@pr-21-22-24-25 kittentts --output output.wav --text "This high quality TTS model works without a GPU"
```
  şöyle çalıştırabilirsiniz
- uvx ile kurulum yapmak Python ortamı sorunlarının çoğunu çözer
  uv kurulum kılavuzu
- Python seçtiğinde bir sorunu çözersin ama aynı anda onlarca yeni sorun üretmiş olursun
- Fedora'da uygun bir g++ sürümü olmadığı için çalışmıyor
- Sorun Python
Kendim denedim; model boyutu ve hız gayet iyi
Ama kurulum için çok fazla kütüphane ve ek bileşen gerekiyor
Bu da sonunda seni 25MB'den epey uzaklaştırıyor
Yine de harika bir proje
- Bağımlılık sorunuyla ilgili iyi bir nokta
  Kurulumu ve kullanımı kolaylaştırmak, ayrıca insanların istediği GPU desteği ile uzun metin işleme özelliklerini eklemek için
  bu model için kendi kendine barındırılabilen bir sunucu yaptım
  Kitten-TTS-Server
  Standart bir Python venv ortamında doğrudan çalışıyor, bu yüzden çakışma derdi yok
  Sadece git clone, pip install ve python server.py yeterli
- ONNX'ten söz edildiğine göre ONNX modeli ya zaten var ya da yakında eklenecek diye tahmin ediyorum
  ONNX runtime tek bir kütüphane ve C# tarafında sıkıştırıldığında yaklaşık 115MB oluyor
  Çok küçük sayılmaz ama gerçekten çalıştırmak için gereken kod birkaç satır, dolayısıyla bağımlılık da az
- Birden çok kütüphaneyi aynı anda kullanmak hızlı geliştirme ve iterasyon için yardımcı olur
  Sonra özellikler oturunca gereksiz kütüphaneler temizlenir
Model boyutundan (MB cinsinden) ziyade CPU'da çalışması ve kalitesi daha önemli; tek endişem gecikme
Çevrimdışı ve ek eğitim olmadan konuşmadan metne dönüştüren modellerin de mümkün olup olmadığını merak ediyorum
AI ile doğal hızda, sanki insanlar konuşuyormuş gibi sohbet edebildiğimiz bir dönem gerçekten etkileyici olurdu
- Nvidia'nın parakeet modeli şu anda İngilizce için en güncel olanı
  Whisper'dan 10 kat hızlı ve benim orta sınıf AMD CPU'mda bile gerçek zamandan çok daha hızlı çalışıyor
- Whisper ile çevrimdışı konuşma tanıma mümkün
  Bazı uygulamalar tamamen çevrimdışı dikte ya da transkripsiyon destekliyor
- Örnek olarak "The brown fox jumps over the lazy dog.." metninde
  ortalama üretim süresi 1.28 saniye, saniye başına yaklaşık 30.35 karakter
  AMD Ryzen 7 5800H üzerinde
- Çevrimdışı konuşma tanıma modeli olarak OpenAI'nin whisper'ı en bilinenlerden biri
  Whisper resmî deposu
- TTS modellerinde gecikmeyi etkileyen faktörler hakkında bilgisi olan var mı?
Oldukça etkileyici
Belirli alanlarda, örneğin gömülü sistemlerde, kullanılabileceği yerler kesinlikle var
Yine de kalitesi büyük modellerin yerini alacak kadar kusursuz görünmüyor
Çevrimdışı kullanımda en yüksek kaliteli açık TTS modellerinin fish-speech ve f5-tts olduğunu düşünüyorum
F5-TTS'yi eski bir NVidia 1660 (6GB VRAM) üzerinde çalıştırdım ve gayet iyi iş gördü
Daha yeni donanımlarda daha yüksek kalite, çok dillilik ve zero-shot özelliklerine makul maliyetle ulaşılabiliyor
Android tarafında SherpaTTS'nin uyumluluğu iyi
- Bu model bir ön izleme sürümü ve gelecekte kaliteyi çok daha fazla artırmayı planlıyoruz
- Fish Speech'in ağırlıkları ticari kullanıma açık değil
  VRAM gereksinimini merak ediyorum; KittenTTS 15 milyon parametreye sahip olduğu için 100 doların altındaki düşük güç tüketimli bilgisayarlarda bile çalışabilir
  Senin bahsettiğin 6GB GPU artık zaten eski sayılır
Kalite beklediğim kadar etkileyici değil
Hedefim doğal konuşma
piper ve kokoro da beni tatmin etmedi, XTTS'nin kurulumu ise biraz zahmetliydi
Konuşma tanımada (STT) whisper gerçekten kral
İyi bir TTS'yi özlüyorum
GPU kullanımı yüksek olsa da olur, yeter ki kalite iyi olsun
Bu model de açıkçası şu an kokoro'dan daha kötü
- Bence şu anda açık ağırlıklarda SOTA kalite chatterbox
- Gördüğüm en iyi açık kaynak TTS Dia
  Bazı sınırlamaları var ama dizüstünde bile iyi çalışıyor
- Pinokio'yu da bir denemekte fayda var
- Chatterbox'ı denemek de mantıklı olabilir
- Eğer GPU kaynağın bol ise burada kaliteye fazla takılmaya gerek yok
  Önemli olan bu modelin GPU olmadan da çalışabilmesi
  Eskiden Tacotron2 öncesi dönemde GlowTTS, MelGAN gibi küçük TTS ve vocoder modellerini Digital Ocean bulutunda ucuza çalıştırıyordum
  Sonrasında eğilim giderek daha büyük modellere kaydı
  Ama bence bundan sonra küçük modellerin doğrudan cihazların içine gömüldüğü bir döneme gireceğiz
  Raspberry Pi, oyuncaklar ve ağ bağlantısı gerektirmeyen çeşitli küçük cihazlarda kullanılacak
  Edge AI; robotlar, oyuncaklar, tüketici cihazları ve oyun alanında muazzam bir genişleme yaratacak

Kitten TTS - Yalnızca CPU ile çalışan 25MB'lık açık kaynak TTS modeli

İlgili okumalar

2 yorum

Hacker News görüşleri