21 puan yazan GN⁺ 2025-08-07 | 2 yorum | WhatsApp'ta paylaş
  • Kitten TTS, hafiflik ile yüksek ses kalitesini aynı anda hedefleyen açık kaynak bir TTS (text-to-speech) modeli
  • Yalnızca 15 milyon parametre kullanarak model boyutunu 25MB'ın altında tutuyor
    • Diğer büyük TTS'lerden farklı olarak mobil, gömülü sistemler ve benzeri tüm ortamlarda çalışabilmesi en büyük özelliklerinden biri
  • GPU olmadan da tüm cihazlarda yüksek kaliteli konuşma sentezi gerçekleştirebiliyor
  • Çeşitli premium ses seçenekleri sunarak gerçek insan sesine yakın yüksek kaliteli ses sentezi sağlıyor
  • Hızlı ses çıkarımı sayesinde gerçek zamanlı sentez için optimize edilmiş
  • Geliştirici önizleme modeli yayımlanmış durumda; ileride eğitim tamamlanmış tam model ağırlıkları, mobil SDK, web sürümü gibi bileşenler kademeli olarak yayımlanacak

2 yorum

 
hybridego 2025-08-07

Keşke Korece modeli de olsa..

 
GN⁺ 2025-08-07
Hacker News görüşleri
  • Ubuntu 24 üzerinde Razer Blade 16 ve Intel Core i9-14900HX ile basit bir benchmark yaptım
    İlk gecikme, kısa metin için yaklaşık 315 ms ve konuşma üretim hızı metin uzunluğuna bağlı olarak gerçek zamanın saniyede 3.35~5.5 katı arasında
    Model yaklaşık 710 ms içinde yükleniyor
    4 farklı ses arasında performans farkı neredeyse yok ve gerçek zamanın en fazla yaklaşık 5 katı hız korunuyor

    • Benim Intel Celeron N4020 CPU'mda (1.10GHz) yüklenmesi 6 saniye sürüyor ve metin uzunluğundan bağımsız olarak neredeyse gerçek zamanlı çalışıyor

    • Benchmark'ı çalıştırdığın için teşekkürler
      Model şu anda hâlâ optimize edilmedi
      Prodüksiyon SDK'si çıktığında yükleme gibi kısımları da optimize etmeyi planlıyoruz

  • Reddit'te KittenTTS tarafından üretilmiş ses örnekleri var
    Reddit ses örneği

    • Farklı seslerin hepsini içeren kısa bir video da var
      YouTube videosu

    • Reddit videosu gerçekten harika
      25MB bile olmayan bir boyutta ve sadece CPU kullanarak bu kaliteyi vermesi şaşırtıcı
      İnsanların buna “eh işte bir model” demesini anlamıyorum

    • Ses çok net ve berrak
      Ana dili İngilizce olmayan biri olarak benim için bile anlaşılması kolay

    • Biraz yavaş duyuluyor ve sanki bir animasyondan çıkmış gibi bir sesi var

    • Acaba Futurama karakter sesleriyle çapraz eğitim mi yapıldı?

  • Umarım gelecek bu tür modellerin olur
    Çevrimdışı, küçük ML modellerinin ucuz ve her yerde bulunabilen donanımlarda çıkarım yaptığı bir dönem
    Başka cihazlara ya da uygulamalara kolayca entegre edilebilir, hatta başka modeller üzerinde bile çalıştırılabilir

    • Apple'ın SLM'lerle (küçük dil modelleri) çizdiği vizyon tam olarak bu
      Diyelim ki yalnızca takvim etkinliklerini yöneten bir model var, insanlığın tüm bilgisini içermesi gerekmiyor
      Sadece gerekli olana, yani takvim yönetimine odaklanması yeterli

    • Tek amaçlı özel donanım üzerinde model çalıştırırsan enerji verimliliği çok yüksek olur
      Hatta sadece dirençlerle bile sinir ağı çalıştırabilirsin (transistör olmadan)
      Elbette böyle donanımlar genel amaçlı değildir ve modeli yükseltmek zordur
      Ama birçok kullanım senaryosunda bu kadarı yeterlidir

    • Bir kere satın alıp her şeyi çalıştırabildiğin modellerle
      abonelik modeline bağlanan ve yalnızca en zengin mega şirketlerin satın alabileceği donanım gerektiren modeller arasında
      hangisinin daha başarılı olacağını merak ediyorum

    • Aslında ulaşmaya çalıştığımız hedef tam da bu

    • Bizim vizyonumuz da tam olarak bu

  • 25MB boyut zaten etkileyici ama asıl yenilikçi nokta, KittenTTS'nin Apache-2.0 lisansıyla yayımlanmış olması
    Bu kombinasyon sayesinde tamamen çevrimdışı çalışan bir konuşma motorunu Pi Zero sınıfı donanıma ya da pille çalışan oyuncaklara doğrudan gömebilirsiniz
    GPU, bulut çağrıları veya kısıtlayıcı lisanslarla uğraşmanız gerekmez
    Donanım ya da lisans sorununu tek hamlede bir “paketleme sorunu”na dönüştürüyor
    Kaliteyi artırmak daha sonraki bir mesele; bence asıl oyun değiştirici olan, bu dağıtım sınıfını mümkün kılması

    • Biz de ileride yüksek kaliteli ultra küçük AI modelleri üretme konusunda gerçekten heyecanlıyız
      Yerel ses arayüzlerinin kaçınılmaz olduğuna inanıyoruz ve gelecekte bu alanın temel oyuncularından biri olmak istiyoruz
      Bu model bir ön izleme sürümü ve gelecek hafta civarı çok daha olgun bir sürümü daha yayımlayacağız
      Ayrıca yaklaşık 80M'lik bir modeli de paylaşmayı planlıyoruz

    • KittenTTS'nin Apache-2.0 olduğundan bahsettin ama
      GitHub'daki kaynak koda bakarsan phonemizer kullandığını görürsün
      phonemizer GPL-3.0 lisanslı
      Bu yüzden şu anda fiilen GPL
      (Not: Bu yorumun LLM tarafından yazılmış gibi göründüğünü de eklemiş)

    • Festival'in festvox-kallpc16k modeli yaklaşık 6MB, festvox-kallpc8k ise yaklaşık 3.5MB
      eSpeak NG'nin çok dilli verisi yaklaşık 12MB
      Bu model muhtemelen daha doğal ses üretir
      Ama eski ya da düşük özellikli bilgisayarlar da eskiden beri gayet iyi TTS yapabiliyordu

    • KittenTTS Apache-2.0 ise
      eğitim verisinin durumu ne diye merak ediyorum
      Model, eğitim girişlerini neredeyse birebir geri üretebilecek kadar benzer çıktılar verse bile
      hukuken tamamen türetilmiş eser olmadığından emin olabilir miyiz?

    • espeak-ng'ye bağımlı olduğu için GPLv3

  • Bir web sürümü var
    Demoyu aç
    Ses fena değil ama boyutu düşünülünce oldukça etkileyici

    • SF filmlerinde robot sesini “gerçek robot gibi” yapmak için sesin kasıtlı olarak tuhaf biçimde bozulması komik değil mi?
      Açıkça insan sesi olmayan bir robot sesi, aslında birçok ortamda daha çekici ve daha uygun olabilir
      Örneğin akıllı bir tost makinesinin BBC haber sunucusu gibi konuşmasına gerek yok
      Telaffuz anlaşılır olsun yeter

    • Demoda örnek metni okuttum ama örneklerdeki kadar iyi gelmedi
      Denemek isteyenler için örnek metni bırakıyorum

      Kitten TTS is an open-source series of tiny and expressive text-to-speech models for on-device applications. Our smallest model is less than 25 megabytes.

    • Demoyu 6 cümleyle çalıştırınca hata verdi
      3 cümleye düşürünce düzgün çalıştı
      Metin uzunluğu sınırı modelden mi kaynaklanıyor, yoksa demonun kısıtı mı merak ediyorum

    • Benim ortamımda hiç çalışmıyor
      Backend modülünde 404 hatası alıyorum
      404 hata örneği bağlantısı

    • Aradığım bağlantı tam buydu
      Reddit demosu idare eder, bana birkaç yıl öncesinin seviyesinde gibi geldi
      Ama bizzat deneyince tüm örnekler neredeyse anlaşılmaz düzeydeydi

  • Sistem gereksinimlerinde "neredeyse her yerde çalışır" yazmasına güldüm
    Bir makinede Python sürümü çok düşük,
    başka bir makinede ise Python sürümü çok yüksek olduğu için paket bağımlılık sorunları yüzünden kurulamıyor

    • Bu sorunu çözmek için birkaç PR gönderdim
      PR 21, PR 24, PR 25
      uv yüklüyse, merge ettiğim referans branch üzerinden

      uvx --from git+https://github.com/akx/KittenTTS.git@pr-21-22-24-25 kittentts --output output.wav --text "This high quality TTS model works without a GPU"
      

      şöyle çalıştırabilirsiniz

    • uvx ile kurulum yapmak Python ortamı sorunlarının çoğunu çözer
      uv kurulum kılavuzu

    • Python seçtiğinde bir sorunu çözersin ama aynı anda onlarca yeni sorun üretmiş olursun

    • Fedora'da uygun bir g++ sürümü olmadığı için çalışmıyor

    • Sorun Python

  • Kendim denedim; model boyutu ve hız gayet iyi
    Ama kurulum için çok fazla kütüphane ve ek bileşen gerekiyor
    Bu da sonunda seni 25MB'den epey uzaklaştırıyor
    Yine de harika bir proje

    • Bağımlılık sorunuyla ilgili iyi bir nokta
      Kurulumu ve kullanımı kolaylaştırmak, ayrıca insanların istediği GPU desteği ile uzun metin işleme özelliklerini eklemek için
      bu model için kendi kendine barındırılabilen bir sunucu yaptım
      Kitten-TTS-Server
      Standart bir Python venv ortamında doğrudan çalışıyor, bu yüzden çakışma derdi yok
      Sadece git clone, pip install ve python server.py yeterli

    • ONNX'ten söz edildiğine göre ONNX modeli ya zaten var ya da yakında eklenecek diye tahmin ediyorum
      ONNX runtime tek bir kütüphane ve C# tarafında sıkıştırıldığında yaklaşık 115MB oluyor
      Çok küçük sayılmaz ama gerçekten çalıştırmak için gereken kod birkaç satır, dolayısıyla bağımlılık da az

    • Birden çok kütüphaneyi aynı anda kullanmak hızlı geliştirme ve iterasyon için yardımcı olur
      Sonra özellikler oturunca gereksiz kütüphaneler temizlenir

  • Model boyutundan (MB cinsinden) ziyade CPU'da çalışması ve kalitesi daha önemli; tek endişem gecikme
    Çevrimdışı ve ek eğitim olmadan konuşmadan metne dönüştüren modellerin de mümkün olup olmadığını merak ediyorum
    AI ile doğal hızda, sanki insanlar konuşuyormuş gibi sohbet edebildiğimiz bir dönem gerçekten etkileyici olurdu

    • Nvidia'nın parakeet modeli şu anda İngilizce için en güncel olanı
      Whisper'dan 10 kat hızlı ve benim orta sınıf AMD CPU'mda bile gerçek zamandan çok daha hızlı çalışıyor

    • Whisper ile çevrimdışı konuşma tanıma mümkün
      Bazı uygulamalar tamamen çevrimdışı dikte ya da transkripsiyon destekliyor

    • Örnek olarak "The brown fox jumps over the lazy dog.." metninde
      ortalama üretim süresi 1.28 saniye, saniye başına yaklaşık 30.35 karakter
      AMD Ryzen 7 5800H üzerinde

    • Çevrimdışı konuşma tanıma modeli olarak OpenAI'nin whisper'ı en bilinenlerden biri
      Whisper resmî deposu

    • TTS modellerinde gecikmeyi etkileyen faktörler hakkında bilgisi olan var mı?

  • Oldukça etkileyici
    Belirli alanlarda, örneğin gömülü sistemlerde, kullanılabileceği yerler kesinlikle var
    Yine de kalitesi büyük modellerin yerini alacak kadar kusursuz görünmüyor
    Çevrimdışı kullanımda en yüksek kaliteli açık TTS modellerinin fish-speech ve f5-tts olduğunu düşünüyorum
    F5-TTS'yi eski bir NVidia 1660 (6GB VRAM) üzerinde çalıştırdım ve gayet iyi iş gördü
    Daha yeni donanımlarda daha yüksek kalite, çok dillilik ve zero-shot özelliklerine makul maliyetle ulaşılabiliyor
    Android tarafında SherpaTTS'nin uyumluluğu iyi

    • Bu model bir ön izleme sürümü ve gelecekte kaliteyi çok daha fazla artırmayı planlıyoruz

    • Fish Speech'in ağırlıkları ticari kullanıma açık değil
      VRAM gereksinimini merak ediyorum; KittenTTS 15 milyon parametreye sahip olduğu için 100 doların altındaki düşük güç tüketimli bilgisayarlarda bile çalışabilir
      Senin bahsettiğin 6GB GPU artık zaten eski sayılır

  • Kalite beklediğim kadar etkileyici değil
    Hedefim doğal konuşma
    piper ve kokoro da beni tatmin etmedi, XTTS'nin kurulumu ise biraz zahmetliydi
    Konuşma tanımada (STT) whisper gerçekten kral
    İyi bir TTS'yi özlüyorum
    GPU kullanımı yüksek olsa da olur, yeter ki kalite iyi olsun
    Bu model de açıkçası şu an kokoro'dan daha kötü

    • Bence şu anda açık ağırlıklarda SOTA kalite chatterbox

    • Gördüğüm en iyi açık kaynak TTS Dia
      Bazı sınırlamaları var ama dizüstünde bile iyi çalışıyor

    • Pinokio'yu da bir denemekte fayda var

    • Chatterbox'ı denemek de mantıklı olabilir

    • Eğer GPU kaynağın bol ise burada kaliteye fazla takılmaya gerek yok
      Önemli olan bu modelin GPU olmadan da çalışabilmesi
      Eskiden Tacotron2 öncesi dönemde GlowTTS, MelGAN gibi küçük TTS ve vocoder modellerini Digital Ocean bulutunda ucuza çalıştırıyordum
      Sonrasında eğilim giderek daha büyük modellere kaydı
      Ama bence bundan sonra küçük modellerin doğrudan cihazların içine gömüldüğü bir döneme gireceğiz
      Raspberry Pi, oyuncaklar ve ağ bağlantısı gerektirmeyen çeşitli küçük cihazlarda kullanılacak
      Edge AI; robotlar, oyuncaklar, tüketici cihazları ve oyun alanında muazzam bir genişleme yaratacak