Kitten TTS - Yalnızca CPU ile çalışan 25MB'lık açık kaynak TTS modeli
(github.com/KittenML)- Kitten TTS, hafiflik ile yüksek ses kalitesini aynı anda hedefleyen açık kaynak bir TTS (text-to-speech) modeli
- Yalnızca 15 milyon parametre kullanarak model boyutunu 25MB'ın altında tutuyor
- Diğer büyük TTS'lerden farklı olarak mobil, gömülü sistemler ve benzeri tüm ortamlarda çalışabilmesi en büyük özelliklerinden biri
- GPU olmadan da tüm cihazlarda yüksek kaliteli konuşma sentezi gerçekleştirebiliyor
- Çeşitli premium ses seçenekleri sunarak gerçek insan sesine yakın yüksek kaliteli ses sentezi sağlıyor
- Hızlı ses çıkarımı sayesinde gerçek zamanlı sentez için optimize edilmiş
- Geliştirici önizleme modeli yayımlanmış durumda; ileride eğitim tamamlanmış tam model ağırlıkları, mobil SDK, web sürümü gibi bileşenler kademeli olarak yayımlanacak
2 yorum
Keşke Korece modeli de olsa..
Hacker News görüşleri
Ubuntu 24 üzerinde Razer Blade 16 ve Intel Core i9-14900HX ile basit bir benchmark yaptım
İlk gecikme, kısa metin için yaklaşık 315 ms ve konuşma üretim hızı metin uzunluğuna bağlı olarak gerçek zamanın saniyede 3.35~5.5 katı arasında
Model yaklaşık 710 ms içinde yükleniyor
4 farklı ses arasında performans farkı neredeyse yok ve gerçek zamanın en fazla yaklaşık 5 katı hız korunuyor
Benim Intel Celeron N4020 CPU'mda (1.10GHz) yüklenmesi 6 saniye sürüyor ve metin uzunluğundan bağımsız olarak neredeyse gerçek zamanlı çalışıyor
Benchmark'ı çalıştırdığın için teşekkürler
Model şu anda hâlâ optimize edilmedi
Prodüksiyon SDK'si çıktığında yükleme gibi kısımları da optimize etmeyi planlıyoruz
Reddit'te KittenTTS tarafından üretilmiş ses örnekleri var
Reddit ses örneği
Farklı seslerin hepsini içeren kısa bir video da var
YouTube videosu
Reddit videosu gerçekten harika
25MB bile olmayan bir boyutta ve sadece CPU kullanarak bu kaliteyi vermesi şaşırtıcı
İnsanların buna “eh işte bir model” demesini anlamıyorum
Ses çok net ve berrak
Ana dili İngilizce olmayan biri olarak benim için bile anlaşılması kolay
Biraz yavaş duyuluyor ve sanki bir animasyondan çıkmış gibi bir sesi var
Acaba Futurama karakter sesleriyle çapraz eğitim mi yapıldı?
Umarım gelecek bu tür modellerin olur
Çevrimdışı, küçük ML modellerinin ucuz ve her yerde bulunabilen donanımlarda çıkarım yaptığı bir dönem
Başka cihazlara ya da uygulamalara kolayca entegre edilebilir, hatta başka modeller üzerinde bile çalıştırılabilir
Apple'ın SLM'lerle (küçük dil modelleri) çizdiği vizyon tam olarak bu
Diyelim ki yalnızca takvim etkinliklerini yöneten bir model var, insanlığın tüm bilgisini içermesi gerekmiyor
Sadece gerekli olana, yani takvim yönetimine odaklanması yeterli
Tek amaçlı özel donanım üzerinde model çalıştırırsan enerji verimliliği çok yüksek olur
Hatta sadece dirençlerle bile sinir ağı çalıştırabilirsin (transistör olmadan)
Elbette böyle donanımlar genel amaçlı değildir ve modeli yükseltmek zordur
Ama birçok kullanım senaryosunda bu kadarı yeterlidir
Bir kere satın alıp her şeyi çalıştırabildiğin modellerle
abonelik modeline bağlanan ve yalnızca en zengin mega şirketlerin satın alabileceği donanım gerektiren modeller arasında
hangisinin daha başarılı olacağını merak ediyorum
Aslında ulaşmaya çalıştığımız hedef tam da bu
Bizim vizyonumuz da tam olarak bu
25MB boyut zaten etkileyici ama asıl yenilikçi nokta, KittenTTS'nin Apache-2.0 lisansıyla yayımlanmış olması
Bu kombinasyon sayesinde tamamen çevrimdışı çalışan bir konuşma motorunu Pi Zero sınıfı donanıma ya da pille çalışan oyuncaklara doğrudan gömebilirsiniz
GPU, bulut çağrıları veya kısıtlayıcı lisanslarla uğraşmanız gerekmez
Donanım ya da lisans sorununu tek hamlede bir “paketleme sorunu”na dönüştürüyor
Kaliteyi artırmak daha sonraki bir mesele; bence asıl oyun değiştirici olan, bu dağıtım sınıfını mümkün kılması
Biz de ileride yüksek kaliteli ultra küçük AI modelleri üretme konusunda gerçekten heyecanlıyız
Yerel ses arayüzlerinin kaçınılmaz olduğuna inanıyoruz ve gelecekte bu alanın temel oyuncularından biri olmak istiyoruz
Bu model bir ön izleme sürümü ve gelecek hafta civarı çok daha olgun bir sürümü daha yayımlayacağız
Ayrıca yaklaşık 80M'lik bir modeli de paylaşmayı planlıyoruz
KittenTTS'nin Apache-2.0 olduğundan bahsettin ama
GitHub'daki kaynak koda bakarsan phonemizer kullandığını görürsün
phonemizer GPL-3.0 lisanslı
Bu yüzden şu anda fiilen GPL
(Not: Bu yorumun LLM tarafından yazılmış gibi göründüğünü de eklemiş)
Festival'in festvox-kallpc16k modeli yaklaşık 6MB, festvox-kallpc8k ise yaklaşık 3.5MB
eSpeak NG'nin çok dilli verisi yaklaşık 12MB
Bu model muhtemelen daha doğal ses üretir
Ama eski ya da düşük özellikli bilgisayarlar da eskiden beri gayet iyi TTS yapabiliyordu
KittenTTS Apache-2.0 ise
eğitim verisinin durumu ne diye merak ediyorum
Model, eğitim girişlerini neredeyse birebir geri üretebilecek kadar benzer çıktılar verse bile
hukuken tamamen türetilmiş eser olmadığından emin olabilir miyiz?
espeak-ng'ye bağımlı olduğu için GPLv3
Bir web sürümü var
Demoyu aç
Ses fena değil ama boyutu düşünülünce oldukça etkileyici
SF filmlerinde robot sesini “gerçek robot gibi” yapmak için sesin kasıtlı olarak tuhaf biçimde bozulması komik değil mi?
Açıkça insan sesi olmayan bir robot sesi, aslında birçok ortamda daha çekici ve daha uygun olabilir
Örneğin akıllı bir tost makinesinin BBC haber sunucusu gibi konuşmasına gerek yok
Telaffuz anlaşılır olsun yeter
Demoda örnek metni okuttum ama örneklerdeki kadar iyi gelmedi
Denemek isteyenler için örnek metni bırakıyorum
Demoyu 6 cümleyle çalıştırınca hata verdi
3 cümleye düşürünce düzgün çalıştı
Metin uzunluğu sınırı modelden mi kaynaklanıyor, yoksa demonun kısıtı mı merak ediyorum
Benim ortamımda hiç çalışmıyor
Backend modülünde 404 hatası alıyorum
404 hata örneği bağlantısı
Aradığım bağlantı tam buydu
Reddit demosu idare eder, bana birkaç yıl öncesinin seviyesinde gibi geldi
Ama bizzat deneyince tüm örnekler neredeyse anlaşılmaz düzeydeydi
Sistem gereksinimlerinde "neredeyse her yerde çalışır" yazmasına güldüm
Bir makinede Python sürümü çok düşük,
başka bir makinede ise Python sürümü çok yüksek olduğu için paket bağımlılık sorunları yüzünden kurulamıyor
Bu sorunu çözmek için birkaç PR gönderdim
PR 21, PR 24, PR 25
uvyüklüyse, merge ettiğim referans branch üzerindenşöyle çalıştırabilirsiniz
uvx ile kurulum yapmak Python ortamı sorunlarının çoğunu çözer
uv kurulum kılavuzu
Python seçtiğinde bir sorunu çözersin ama aynı anda onlarca yeni sorun üretmiş olursun
Fedora'da uygun bir g++ sürümü olmadığı için çalışmıyor
Sorun Python
Kendim denedim; model boyutu ve hız gayet iyi
Ama kurulum için çok fazla kütüphane ve ek bileşen gerekiyor
Bu da sonunda seni 25MB'den epey uzaklaştırıyor
Yine de harika bir proje
Bağımlılık sorunuyla ilgili iyi bir nokta
Kurulumu ve kullanımı kolaylaştırmak, ayrıca insanların istediği GPU desteği ile uzun metin işleme özelliklerini eklemek için
bu model için kendi kendine barındırılabilen bir sunucu yaptım
Kitten-TTS-Server
Standart bir Python venv ortamında doğrudan çalışıyor, bu yüzden çakışma derdi yok
Sadece git clone, pip install ve python server.py yeterli
ONNX'ten söz edildiğine göre ONNX modeli ya zaten var ya da yakında eklenecek diye tahmin ediyorum
ONNX runtime tek bir kütüphane ve C# tarafında sıkıştırıldığında yaklaşık 115MB oluyor
Çok küçük sayılmaz ama gerçekten çalıştırmak için gereken kod birkaç satır, dolayısıyla bağımlılık da az
Birden çok kütüphaneyi aynı anda kullanmak hızlı geliştirme ve iterasyon için yardımcı olur
Sonra özellikler oturunca gereksiz kütüphaneler temizlenir
Model boyutundan (MB cinsinden) ziyade CPU'da çalışması ve kalitesi daha önemli; tek endişem gecikme
Çevrimdışı ve ek eğitim olmadan konuşmadan metne dönüştüren modellerin de mümkün olup olmadığını merak ediyorum
AI ile doğal hızda, sanki insanlar konuşuyormuş gibi sohbet edebildiğimiz bir dönem gerçekten etkileyici olurdu
Nvidia'nın parakeet modeli şu anda İngilizce için en güncel olanı
Whisper'dan 10 kat hızlı ve benim orta sınıf AMD CPU'mda bile gerçek zamandan çok daha hızlı çalışıyor
Whisper ile çevrimdışı konuşma tanıma mümkün
Bazı uygulamalar tamamen çevrimdışı dikte ya da transkripsiyon destekliyor
Örnek olarak "The brown fox jumps over the lazy dog.." metninde
ortalama üretim süresi 1.28 saniye, saniye başına yaklaşık 30.35 karakter
AMD Ryzen 7 5800H üzerinde
Çevrimdışı konuşma tanıma modeli olarak OpenAI'nin whisper'ı en bilinenlerden biri
Whisper resmî deposu
TTS modellerinde gecikmeyi etkileyen faktörler hakkında bilgisi olan var mı?
Oldukça etkileyici
Belirli alanlarda, örneğin gömülü sistemlerde, kullanılabileceği yerler kesinlikle var
Yine de kalitesi büyük modellerin yerini alacak kadar kusursuz görünmüyor
Çevrimdışı kullanımda en yüksek kaliteli açık TTS modellerinin fish-speech ve f5-tts olduğunu düşünüyorum
F5-TTS'yi eski bir NVidia 1660 (6GB VRAM) üzerinde çalıştırdım ve gayet iyi iş gördü
Daha yeni donanımlarda daha yüksek kalite, çok dillilik ve zero-shot özelliklerine makul maliyetle ulaşılabiliyor
Android tarafında SherpaTTS'nin uyumluluğu iyi
Bu model bir ön izleme sürümü ve gelecekte kaliteyi çok daha fazla artırmayı planlıyoruz
Fish Speech'in ağırlıkları ticari kullanıma açık değil
VRAM gereksinimini merak ediyorum; KittenTTS 15 milyon parametreye sahip olduğu için 100 doların altındaki düşük güç tüketimli bilgisayarlarda bile çalışabilir
Senin bahsettiğin 6GB GPU artık zaten eski sayılır
Kalite beklediğim kadar etkileyici değil
Hedefim doğal konuşma
piper ve kokoro da beni tatmin etmedi, XTTS'nin kurulumu ise biraz zahmetliydi
Konuşma tanımada (STT) whisper gerçekten kral
İyi bir TTS'yi özlüyorum
GPU kullanımı yüksek olsa da olur, yeter ki kalite iyi olsun
Bu model de açıkçası şu an kokoro'dan daha kötü
Bence şu anda açık ağırlıklarda SOTA kalite chatterbox
Gördüğüm en iyi açık kaynak TTS Dia
Bazı sınırlamaları var ama dizüstünde bile iyi çalışıyor
Pinokio'yu da bir denemekte fayda var
Chatterbox'ı denemek de mantıklı olabilir
Eğer GPU kaynağın bol ise burada kaliteye fazla takılmaya gerek yok
Önemli olan bu modelin GPU olmadan da çalışabilmesi
Eskiden Tacotron2 öncesi dönemde GlowTTS, MelGAN gibi küçük TTS ve vocoder modellerini Digital Ocean bulutunda ucuza çalıştırıyordum
Sonrasında eğilim giderek daha büyük modellere kaydı
Ama bence bundan sonra küçük modellerin doğrudan cihazların içine gömüldüğü bir döneme gireceğiz
Raspberry Pi, oyuncaklar ve ağ bağlantısı gerektirmeyen çeşitli küçük cihazlarda kullanılacak
Edge AI; robotlar, oyuncaklar, tüketici cihazları ve oyun alanında muazzam bir genişleme yaratacak