- Kokoro v0.19, kısa süre önce duyurulan bir metinden konuşmaya dönüştürme modeli; 82M parametreye sahip ve çok yüksek kaliteli çıktı sunuyor
- Apache lisanslıdır ve 100 saatten az ses verisiyle eğitilmiştir
- Amerikan İngilizcesi, Britanya İngilizcesi, Fransızca, Korece, Japonca ve Çinceyi destekler; ayrıca çeşitli yüksek kaliteli sesler sunar
-
Kokoro'nun kullanımı
- Kullanıcılar, e-kitapları sesli kitaba dönüştürebilen Audiblez adlı araç üzerinden Kokoro'yu kullanabilir.
- Audiblez, .epub dosyalarını ayrıştırarak kitabın ana metnini iyi kaydedilmiş ses dosyalarına dönüştürür.
- Örneğin, M2 MacBook Pro üzerinde yaklaşık 100.000 kelimelik bir kitabı dönüştürmek yaklaşık 2 saat sürer.
-
Kurulum ve çalıştırma yöntemi
- Audiblez, Python 3 yüklü bir bilgisayarda
pip üzerinden kurulabilir.
- Python 3.13'te çalışmaz.
- Yaklaşık 360MB ek dosya indirilmelidir.
- Bir
.epub dosyasını sesli kitaba dönüştürmek için bir komut çalıştırılmalıdır.
-
Desteklenen diller ve sesler
-l seçeneğiyle dil belirtilebilir; desteklenen dil kodları en-us, en-gb, fr-fr, ja, ko ve cmn'dir.
-v seçeneğiyle ses seçilebilir ve çeşitli sesler sunulur.
-
Bölüm algılama
- Bölüm algılama biraz kararsız olsa da çoğu
.epub dosyasında temel bölümleri bulabilir.
- İlgilendiğiniz bölüm dahil edilmezse, koddaki
is_chapter işlevini ayarlamayı deneyebilirsiniz.
-
Kaynak kodu ve iyileştirmeler
- Audiblez projesine GitHub üzerinden ulaşılabilir.
- Gelecekteki iyileştirmeler arasında daha iyi bölüm algılama, bölüm gezintisi ekleme ve görseller için anlatım ekleme yer alır.
3 yorum
Bundan daha büyük ve daha iyi modeller de var, ama kullanım amacının farklı olduğunu düşünmek lazım.
Kokoro küçük olduğu için hızlı ve kalitesi de fena değil; bu açıdan oldukça iyi tepki alıyor.
Korece sürüm Rusça gibi geliyor. Dinlenemeyecek düzeyde.
Hacker News görüşleri
Sesli kitap anlatıcısı metni iyi yorumladığında bazen bunu hissedebiliyorum; bu yüzden yapay zeka seslerinin kullanımına karşı karışık duygularım var
Yapay zeka tarafından üretilen sesleri 1 dakikadan fazla dinlemek zor; YouTube'da yapay zeka sesi duyunca hemen geçiyorum
Özel sesle TTS üretimi için açık kaynak seçenek önerileri isteniyor
Metin ile ses arasında tek tuşla geçiş yapabilen bir e-kitap okuyucu isteniyor
Belirli bir sesli kitap anlatıcısının sesiyle e-kitabı sesli kitaba dönüştürme fikri var
Çeşitli TTS modelleri denendi, ancak çoğu vasattı, Mac'te çalışmıyordu ya da çok yavaştı
2025'te sinir ağları kullanılarak arka plan müziği, ses efektleri ve dramatik anlatımı olan sesli kitaplar üretilebilecek
"kokoro" Japoncada "kalp" anlamına geliyor
Calibre e-kitap yönetim yazılımına bir eklenti eklenip epub kütüphanesindeki seçili başlıkların kolayca sesli sürüme dönüştürülebilmesi isteniyor
Değişken hız argümanının eklenmesinden büyük memnuniyet duyuluyor