24 puan yazan GN⁺ 2025-01-16 | 3 yorum | WhatsApp'ta paylaş
  • Kokoro v0.19, kısa süre önce duyurulan bir metinden konuşmaya dönüştürme modeli; 82M parametreye sahip ve çok yüksek kaliteli çıktı sunuyor
    • Apache lisanslıdır ve 100 saatten az ses verisiyle eğitilmiştir
    • Amerikan İngilizcesi, Britanya İngilizcesi, Fransızca, Korece, Japonca ve Çinceyi destekler; ayrıca çeşitli yüksek kaliteli sesler sunar
  • Kokoro'nun kullanımı

    • Kullanıcılar, e-kitapları sesli kitaba dönüştürebilen Audiblez adlı araç üzerinden Kokoro'yu kullanabilir.
    • Audiblez, .epub dosyalarını ayrıştırarak kitabın ana metnini iyi kaydedilmiş ses dosyalarına dönüştürür.
    • Örneğin, M2 MacBook Pro üzerinde yaklaşık 100.000 kelimelik bir kitabı dönüştürmek yaklaşık 2 saat sürer.
  • Kurulum ve çalıştırma yöntemi

    • Audiblez, Python 3 yüklü bir bilgisayarda pip üzerinden kurulabilir.
    • Python 3.13'te çalışmaz.
    • Yaklaşık 360MB ek dosya indirilmelidir.
    • Bir .epub dosyasını sesli kitaba dönüştürmek için bir komut çalıştırılmalıdır.
  • Desteklenen diller ve sesler

    • -l seçeneğiyle dil belirtilebilir; desteklenen dil kodları en-us, en-gb, fr-fr, ja, ko ve cmn'dir.
    • -v seçeneğiyle ses seçilebilir ve çeşitli sesler sunulur.
  • Bölüm algılama

    • Bölüm algılama biraz kararsız olsa da çoğu .epub dosyasında temel bölümleri bulabilir.
    • İlgilendiğiniz bölüm dahil edilmezse, koddaki is_chapter işlevini ayarlamayı deneyebilirsiniz.
  • Kaynak kodu ve iyileştirmeler

    • Audiblez projesine GitHub üzerinden ulaşılabilir.
    • Gelecekteki iyileştirmeler arasında daha iyi bölüm algılama, bölüm gezintisi ekleme ve görseller için anlatım ekleme yer alır.

3 yorum

 
crawler 2025-01-16

Bundan daha büyük ve daha iyi modeller de var, ama kullanım amacının farklı olduğunu düşünmek lazım.
Kokoro küçük olduğu için hızlı ve kalitesi de fena değil; bu açıdan oldukça iyi tepki alıyor.

 
munggo 2025-01-16

Korece sürüm Rusça gibi geliyor. Dinlenemeyecek düzeyde.

 
GN⁺ 2025-01-16
Hacker News görüşleri
  • Sesli kitap anlatıcısı metni iyi yorumladığında bazen bunu hissedebiliyorum; bu yüzden yapay zeka seslerinin kullanımına karşı karışık duygularım var

    • Birden fazla anlatıcının ve her karakter için farklı seslerin olduğu sesli kitaplar özel bir deneyim sunuyor
    • Bazen diyalog sırasında kimin konuştuğunu anlamanın tek ipucu ses tonundaki değişim oluyor
    • Amatör e-kitaplar veya Project Gutenberg gibi kamu malı sesli kitaplar yerine yapay zeka seslerini tercih ediyorum
  • Yapay zeka tarafından üretilen sesleri 1 dakikadan fazla dinlemek zor; YouTube'da yapay zeka sesi duyunca hemen geçiyorum

    • Bunun nedeni beynimizin konuşmacının duygusunu, duraklamalarını, görünmeyen gülümsemesini vb. algılamaya çalışması olabilir
    • Modeller gelişecek ve yapay zeka tarafından üretilen sesi ayırt etmek zorlaşacak
  • Özel sesle TTS üretimi için açık kaynak seçenek önerileri isteniyor

    • Coqui TTS denenecek
  • Metin ile ses arasında tek tuşla geçiş yapabilen bir e-kitap okuyucu isteniyor

    • Kanepede kitap okurken bulaşık yıkamaya geçince ses moduna geçebilme fikri hayal ediliyor
  • Belirli bir sesli kitap anlatıcısının sesiyle e-kitabı sesli kitaba dönüştürme fikri var

    • Infinite Conversation projesinden ilham alınmış, ancak henüz hayata geçirilememiş
  • Çeşitli TTS modelleri denendi, ancak çoğu vasattı, Mac'te çalışmıyordu ya da çok yavaştı

    • Bu model hızlı, kurulumu kolay ve yeterince iyi bir ses sunuyor
    • Sesli kitap sürümü olmayan kitaplar okunmuyor
    • Geçmişte elevenlabs kullanıldı, ancak kişisel kullanım için pahalı
  • 2025'te sinir ağları kullanılarak arka plan müziği, ses efektleri ve dramatik anlatımı olan sesli kitaplar üretilebilecek

  • "kokoro" Japoncada "kalp" anlamına geliyor

  • Calibre e-kitap yönetim yazılımına bir eklenti eklenip epub kütüphanesindeki seçili başlıkların kolayca sesli sürüme dönüştürülebilmesi isteniyor

  • Değişken hız argümanının eklenmesinden büyük memnuniyet duyuluyor