5 puan yazan GN⁺ 2026-03-20 | 1 yorum | WhatsApp'ta paylaş
  • ONNX tabanlı, State-of-the-art hafif metinden konuşmaya (TTS) kütüphanesi; yalnızca CPU ile yüksek kaliteli konuşma sentezi gerçekleştirir
  • Model boyutu 15M~80M parametre (25~80MB) aralığındadır ve GPU olmadan da verimli çalışabilir
  • 8 yerleşik ses, hız ayarı, metin ön işleme hattı ve 24kHz ses çıkışı özellikleri sunar
  • Hugging Face üzerinden doğrudan kullanılabilir ve Python API ile kolayca entegre edilebilir
  • Uç cihazlara dağıtım ve ticari entegrasyon desteğini hedefleyen açık kaynaklı bir TTS çözümüdür

Kitten TTS genel bakış

  • Kitten TTS, ONNX tabanlı açık kaynaklı bir TTS kütüphanesidir ve GPU olmadan CPU üzerinde yüksek kaliteli konuşma sentezi yapar
    • Model boyutu 15M~80M parametre, disk üzerinde ise 25~80MB'dir
    • 0.8 sürümünde 15M, 40M ve 80M modeller sunulmaktadır
  • Şu anda geliştirici önizleme aşamasındadır ve API gelecekte değişebilir
  • Ticari destek (entegrasyon desteği, özel sesler, kurumsal lisans) sağlanır

Temel özellikler

  • Son derece hafif yapı: int8 tabanında 25MB'den başlar ve uç ortam dağıtımları için uygundur
  • CPU optimizasyonu: GPU olmadan da verimli ONNX çıkarımı gerçekleştirir
  • 8 yerleşik ses: Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, Leo
  • Hız ayarlama özelliği: konuşma hızını speed parametresiyle kontrol eder
  • Metin ön işleme hattı: sayıları, para birimlerini, birimleri vb. otomatik işler
  • 24kHz çıkış: standart örnekleme oranında yüksek kaliteli ses üretir

Sunulan modeller

  • Dört model sunulmaktadır
    • kitten-tts-mini (80M, 80MB)
    • kitten-tts-micro (40M, 41MB)
    • kitten-tts-nano (15M, 56MB)
    • kitten-tts-nano (int8, 15M, 25MB)
  • Bazı kullanıcılar kitten-tts-nano-0.8-int8 modelinde sorun bildirmiştir; issue açılması önerilir

Demo ve kullanım

  • Hugging Face Spaces üzerinde tarayıcıdan doğrudan denenebilir
  • Python 3.8 ve üzeri ile yalnızca pip kullanılarak kurulabilir
  • Temel kullanım örneği:
    • from kittentts import KittenTTS
    • model = KittenTTS("KittenML/kitten-tts-mini-0.8")
    • audio = model.generate("텍스트", voice="Jasper")
  • Gelişmiş özellikler: hız ayarı (speed), dosyaya kaydetme (generate_to_file), kullanılabilir ses listesini sorgulama

API yapısı

  • KittenTTS(model_name, cache_dir=None)
    • Modeli Hugging Face Hub üzerinden yükler
  • model.generate(text, voice, speed, clean_text)
    • Metni 24kHz sese dönüştürür
  • model.generate_to_file(text, output_path, voice, speed, sample_rate, clean_text)
    • Sentezlenen sesi doğrudan dosyaya kaydeder
  • model.available_voices
    • Kullanılabilir ses listesini döndürür

Sistem gereksinimleri

  • İşletim sistemi: Linux, macOS, Windows
  • Python: 3.8 ve üzeri
  • Donanım: Yalnızca CPU gerekir, GPU gerekli değildir
  • Disk alanı: modele bağlı olarak 25~80MB
  • Sanal ortam (venv, conda vb.) kullanılması önerilir

Yol haritası

  • Çıkarım motoru optimizasyonu, mobil SDK, yüksek kaliteli modeller, çok dilli TTS, KittenASR planlanıyor
  • Apache License 2.0

1 yorum

 
GN⁺ 2026-03-20
Hacker News yorumları
  • Kitten TTS için CLI sarmalayıcısı olan purr'u yaptım
    kitten paketi kittentts → misaki[en] → spacy-curated-transformers şeklinde bir bağımlılık zincirine sahip
    Bu yüzden uv ile doğrudan kurunca torch ve NVIDIA CUDA paketlerini (birkaç GB) çekiyor, ama bunlar aslında çalıştırmak için gerekmiyor

    • Kurulum betiği bende iyi çalıştı
      İlk çalıştırmada “OSError: PortAudio library not found” hatasını aldım, ama apt install libportaudio2 ile çözdüm
    • Gerçekten teşekkürler. Bağımlılık zinciri bozulduğu için kurulum sürekli başarısız oluyordu, bu bunun çözümü oldu
      Yalnız gereksiz bağımlılıkları kaldırırken herhangi bir işlev kaybı olup olmadığını merak ediyorum
  • Gerçekten harika bir proje
    Yakında kendim deneyeceğim
    Ama bir şey merak ediyorum — neden komut satırı çalıştırılabilir dosyası olarak dağıtılmadı?
    API de neredeyse manpage tarzında, o yüzden hızlıca yapılabilirmiş gibi duruyor. Sadece merak ettim

    • İyi fikir. Onu da yapmayı planlıyorum
      Önce onnx sürümü için geri bildirim almak, sonra da komut satırı çalıştırılabilir dosyasını ekleyerek çalıştırma sürecini basitleştirmek istiyorum
  • OpenClaw'da hoşuma giden şey, Discord'da sadece GitHub URL'si gönderince hemen sesli mesaj üretebilmesiydi
    Birkaç dakika içinde benchmark ve örnek sesleri de aldım
    Kalite boyutuna göre etkileyici. Ses mükemmel değil ama kötü de değil
    Intel 9700 CPU'da 80M model için yaklaşık 1.5x gerçek zaman hızındaydı, 3080 GPU'da da daha hızlı değildi

    • Daha profesyonel sesler ve DIY özel sesler eklemeyi planlıyorum
      Şu anda ifadeyi göstermek için anime tarzı bir ses ekledim
      GPU'da neden yavaş olduğunu GitHub issue ya da Discord üzerinden paylaşırsan iyi olur. Örnek kod da ekleyeceğim
    • Güzel bir kullanım örneği. E-posta gibi güvenlik açığı olan bağlantılar olmadan sandbox içinde test edilip dağıtılabilen yapısı ilginç geldi
    • Kıskanmaktan başka bir şey diyemiyorum. Benim çalıştırmam çok daha uzun sürdü
      Python sürüm çakışmalarını önlemek için uğraştım, Docker ile de denedim ama sonunda elle kurmam gerekti
      Sonunda çalıştı ama Python'dan gerçekten nefret ediyorum
  • Şu an yalnızca Amerikan aksanı destekleniyor gibi görünüyor
    Benim kişisel olarak ilgilendiğim aksanlar İrlanda, Birleşik Krallık ve Galler aksanları. Amerikan aksanını pek sevmiyorum

  • Cihaz üzerinde çalışan TTS, erişilebilirlik aracı olarak gerçekten harika
    Çoğu cihaz çevrimiçi servislere bağımlı, böyle yerel bir yaklaşım çok daha iyi

    • Geri bildirim için teşekkürler. Yakında farklı kullanım amaçlarına yönelik daha fazla küçük model yayınlayacağım
  • Önceki modellere göre çok daha belirgin bir iyileşme hissediliyor
    Gerçekten etkileyici. Paylaştığın için teşekkürler

    • Teşekkürler. Bu modeller öncekilerden çok daha iyi oldu
      Şu anda 15M model eski 80M modelden daha iyi ve bu gelişim hızını sürdürmeyi planlıyorum
  • İleride yalnızca Japonca için bir model de görmek isterim
    Qwen3-tts Japoncayı destekliyor ama bazen içine Çince karışıyor, bu yüzden kullanamıyorum

    • Ön işleme aşamasında hiragana dönüşümü denemeyi düşünebilirsin
      Ama bunu yaparsan perde bilgisi (ör. 飴 vs 雨) kaybolabilir
    • Bir sonraki modelde (yaklaşık 3 hafta sonra planlanıyor) Japonca desteği olacak
      Kullanım senaryolarını paylaşırsan kaliteyi iyileştirmede dikkate almak isterim
  • Model boyutuna göre performansı etkileyiciydi
    Ama sayıların telaffuzunda sorun vardı
    “Startup finished in 135 ms.” denedim ve sayı gürültü gibi çıktı
    “one hundred and thirty five seconds” olarak değiştirince biraz daha iyi oldu

    • Bu sorunu model seviyesinde de düzeltiyoruz
      O zamana kadar metin ön işleme ekleyerek çözülebilir
      Çoğu TTS modeli sayıları ve birimleri metne çevirerek bunu ele alıyor
    • Geri bildirim için teşekkürler. Özel ön işleme ile vakaların %95'i çözülebilir
      Bir sonraki sürümde model tarafında da düzeltilecek
    • Bu arada doğru kelime “pronounce” ya da “pronouncing”. “pronounciating” bir yazım hatası
  • Dört modeli karşılaştıran örnek sesleri birlikte göstermek iyi olurdu
    Her modelin aynı cümleyi okuduğu örnekler olsa anlamak daha kolay olurdu

  • Bunun açık kaynak mı yoksa açık ağırlıklı bir model mi olduğunu merak ediyorum

    • Evet, açık kaynak
      Bu hafta sonuna kadar MIT lisanslı bir phonemizer da eklemeyi planlıyorum, böylece özgürce kullanılabilecek