Kokoro-82M modeliyle e-kitapları sesli kitaba dönüştürme

(claudio.uk)

24 puan yazan GN⁺ 2025-01-16 | 3 yorum | WhatsApp'ta paylaş

Kokoro v0.19, kısa süre önce duyurulan bir metinden konuşmaya dönüştürme modeli; 82M parametreye sahip ve çok yüksek kaliteli çıktı sunuyor
- Apache lisanslıdır ve 100 saatten az ses verisiyle eğitilmiştir
- Amerikan İngilizcesi, Britanya İngilizcesi, Fransızca, Korece, Japonca ve Çinceyi destekler; ayrıca çeşitli yüksek kaliteli sesler sunar
Kokoro'nun kullanımı
- Kullanıcılar, e-kitapları sesli kitaba dönüştürebilen Audiblez adlı araç üzerinden Kokoro'yu kullanabilir.
- Audiblez, .epub dosyalarını ayrıştırarak kitabın ana metnini iyi kaydedilmiş ses dosyalarına dönüştürür.
- Örneğin, M2 MacBook Pro üzerinde yaklaşık 100.000 kelimelik bir kitabı dönüştürmek yaklaşık 2 saat sürer.
Kurulum ve çalıştırma yöntemi
- Audiblez, Python 3 yüklü bir bilgisayarda pip üzerinden kurulabilir.
- Python 3.13'te çalışmaz.
- Yaklaşık 360MB ek dosya indirilmelidir.
- Bir .epub dosyasını sesli kitaba dönüştürmek için bir komut çalıştırılmalıdır.
Desteklenen diller ve sesler
- -l seçeneğiyle dil belirtilebilir; desteklenen dil kodları en-us, en-gb, fr-fr, ja, ko ve cmn'dir.
- -v seçeneğiyle ses seçilebilir ve çeşitli sesler sunulur.
Bölüm algılama
- Bölüm algılama biraz kararsız olsa da çoğu .epub dosyasında temel bölümleri bulabilir.
- İlgilendiğiniz bölüm dahil edilmezse, koddaki is_chapter işlevini ayarlamayı deneyebilirsiniz.
Kaynak kodu ve iyileştirmeler
- Audiblez projesine GitHub üzerinden ulaşılabilir.
- Gelecekteki iyileştirmeler arasında daha iyi bölüm algılama, bölüm gezintisi ekleme ve görseller için anlatım ekleme yer alır.

3 yorum

crawler 2025-01-16

Bundan daha büyük ve daha iyi modeller de var, ama kullanım amacının farklı olduğunu düşünmek lazım.
Kokoro küçük olduğu için hızlı ve kalitesi de fena değil; bu açıdan oldukça iyi tepki alıyor.

munggo 2025-01-16

Korece sürüm Rusça gibi geliyor. Dinlenemeyecek düzeyde.

GN⁺ 2025-01-16

Hacker News görüşleri

Sesli kitap anlatıcısı metni iyi yorumladığında bazen bunu hissedebiliyorum; bu yüzden yapay zeka seslerinin kullanımına karşı karışık duygularım var
- Birden fazla anlatıcının ve her karakter için farklı seslerin olduğu sesli kitaplar özel bir deneyim sunuyor
- Bazen diyalog sırasında kimin konuştuğunu anlamanın tek ipucu ses tonundaki değişim oluyor
- Amatör e-kitaplar veya Project Gutenberg gibi kamu malı sesli kitaplar yerine yapay zeka seslerini tercih ediyorum
Yapay zeka tarafından üretilen sesleri 1 dakikadan fazla dinlemek zor; YouTube'da yapay zeka sesi duyunca hemen geçiyorum
- Bunun nedeni beynimizin konuşmacının duygusunu, duraklamalarını, görünmeyen gülümsemesini vb. algılamaya çalışması olabilir
- Modeller gelişecek ve yapay zeka tarafından üretilen sesi ayırt etmek zorlaşacak
Özel sesle TTS üretimi için açık kaynak seçenek önerileri isteniyor
- Coqui TTS denenecek
Metin ile ses arasında tek tuşla geçiş yapabilen bir e-kitap okuyucu isteniyor
- Kanepede kitap okurken bulaşık yıkamaya geçince ses moduna geçebilme fikri hayal ediliyor
Belirli bir sesli kitap anlatıcısının sesiyle e-kitabı sesli kitaba dönüştürme fikri var
- Infinite Conversation projesinden ilham alınmış, ancak henüz hayata geçirilememiş
Çeşitli TTS modelleri denendi, ancak çoğu vasattı, Mac'te çalışmıyordu ya da çok yavaştı
- Bu model hızlı, kurulumu kolay ve yeterince iyi bir ses sunuyor
- Sesli kitap sürümü olmayan kitaplar okunmuyor
- Geçmişte elevenlabs kullanıldı, ancak kişisel kullanım için pahalı
2025'te sinir ağları kullanılarak arka plan müziği, ses efektleri ve dramatik anlatımı olan sesli kitaplar üretilebilecek
"kokoro" Japoncada "kalp" anlamına geliyor
Calibre e-kitap yönetim yazılımına bir eklenti eklenip epub kütüphanesindeki seçili başlıkların kolayca sesli sürüme dönüştürülebilmesi isteniyor
Değişken hız argümanının eklenmesinden büyük memnuniyet duyuluyor

Kokoro-82M modeliyle e-kitapları sesli kitaba dönüştürme

Kokoro'nun kullanımı

Kurulum ve çalıştırma yöntemi

Desteklenen diller ve sesler

Bölüm algılama

Kaynak kodu ve iyileştirmeler

İlgili okumalar

3 yorum

Hacker News görüşleri