- Abogen, ePub, PDF ve metin dosyalarını kolayca yüksek kaliteli sesli kitaplara dönüştüren açık kaynaklı bir araçtır
- Dönüştürme sürecinde sesle senkronize altyazılar da otomatik olarak oluşturulur
- Kullanıcıya özel ses miksleme, kodlama formatları, bölüm ayırma, toplu işleme (kuyruk modu) gibi çeşitli özellikler sunar
- En güncel Kokoro-82M ses sentez motorunu kullanarak doğal TTS kalitesi ve çoklu dil desteği sağlar
- Diğer projelere kıyasla sezgisel GUI, proje bazlı klasör yönetimi ve otomatik meta veri işleme gibi avantajlara sahiptir
Abogen genel bakış ve önemi
- Abogen, metin dosyalarını (ePub, PDF, .txt vb.) hızla doğal sesli kitaplara dönüştüren açık kaynaklı bir metinden konuşmaya (TTS) aracıdır
- Sezgisel arayüz, çoklu dosya toplu işleme, kullanıcı ses miksleme, çeşitli çıktı formatları, bölüm yönetimi ve meta veri desteği gibi zengin özellikler sunar
- Diğer açık kaynak projelerin aksine, basit kullanım ile yüksek kaliteli ses (özellikle Kokoro-82M tabanlı TTS) ve altyazıları kolayca elde etmeyi sağlar
- İlk kurulum süreci ve karmaşık Python ortamı ayarları otomatikleştirildiğinden, başlangıç seviyesindeki geliştiriciler de kolayca kullanabilir
- Özellikle proje bazlı bölüm ve meta veri işleme, GUI ortamı ve özel ses özellikleri sektörde rekabet avantajı olarak değerlendirilmektedir
Başlıca özelliklerin özeti
- Metinden konuşmaya dönüştürme (TTS) ile ePub, PDF ve metin dosyalarını saniyeler içinde sese dönüştürür
- Senkronize altyazılar otomatik oluşturulur; ses ve altyazının tamamen eşleştiği bir yapı sunar
- Ses mikseri ile birden çok ses modelini harmanlayarak kendi ses profilinizi oluşturabilirsiniz
- Kuyruk modu ile birden fazla dosyayı toplu işleme ve dosya bazında ayrı ayarları koruma desteği sağlar
- Bölüm işaretçileri ve meta veriler otomatik oluşturulur; proje klasörü yönetimi özelliği vardır
- Çeşitli çıktı formatları: WAV, FLAC, MP3, OPUS, M4B desteği; altyazılarda da SRT/ASS gibi seçenekler
- Desteklenen başlıca diller: Amerikan/İngiliz İngilizcesi, İspanyolca, Fransızca, Hintçe, İtalyanca, Japonca, Portekizce, Çince vb.
- Kokoro-82M TTS motoru tabanlı yüksek kaliteli ve doğal telaffuz sunar
- Hem GUI hem komut satırı kullanımını destekler, Docker konteyneriyle de kullanılabilir
Abogen özelliklerinin ayrıntılı özeti
#Başlangıç ve kurulum arka planı
- Mevcut TTS araçları kurulum, ortam ayarı, kalite, özelleştirme ve çoklu dosya işleme açısından birçok sınıra sahiptir
- Abogen, kolay ama güçlü bir arayüzle metin-ses dönüştürme, altyazı oluşturma, ses miksleme gibi gelişmiş özellikleri yeni başlayanların da rahatça kullanabilmesi için geliştirilmiştir
- Birden fazla işletim sisteminde (Windows, Linux, macOS) kullanılabilir ve önceden Python kurulumu gerektirmeden gömülü/otomatik kurulum ortamı desteği sunar
#Temel kullanım
- ePub, PDF veya metin dosyalarını sürükle bırak ile ekleyebilir ya da yerleşik düzenleyiciyi kullanabilirsiniz
- Ayarlar: okuma hızı, ses (model·cinsiyet·dil), altyazı stili (cümle bazlı·kelime bazlı), ses ve altyazı çıktı formatı, çıktı yolu gibi ayrıntılar seçilebilir
- Yalnızca dönüştürmeyi başlat düğmesine tıklayarak sonucu anında oluşturabilirsiniz
#Gerçek kullanım gösterimi
- Düşük özellikli bir GPU'da bile yaklaşık 3.000 karakterlik metin, 11 saniyede 3 dakika 28 saniyelik sese dönüştürülebilir
- İşleme hızı donanım özelliklerine göre değişir
#Ayar seçenekleri
- Girdi yöntemi: sürükle bırak, yerleşik düzenleyici, kuyruk yönetimi ile birden fazla dosyanın eşzamanlı işlenmesi
- Okuma hızı: 0.1x ~ 2.0x arasında hassas ayar
- Ses seçimi ve önizleme: dil ve cinsiyete göre modeller, özel mikserle kişisel ses profili belirleme
- Altyazı oluşturma: cümle, virgül bazlı veya n kelime bazlı altyazıları otomatikleştirme
- Ses çıktısı: WAV, FLAC, MP3, OPUS, M4B (bölümler dahil)
- Altyazı formatı: SRT, ASS vb. için özelleştirme desteği
- Bölüm ve proje yönetimi: bölüm bazlı sesler, birleştirilmiş çıktı ve meta verilerle proje klasörüne kaydetme
- Tema, günlükler, kısayollar vb. için çeşitli UI seçenekleri
#Voice Mixer
- Birden fazla ses modelini ağırlık ayarıyla birleştirerek benzersiz bir ses oluşturabilir, kaydedebilir ve tekrar kullanabilirsiniz
- Ses miksleme sonucunu bir ses profili olarak önizleyip uygulayabilirsiniz
#Kuyruk modu
- Dosya bazında ayrı ayarları korur ve birden fazla metin ve eBook'u tek seferde otomatik dönüştürür
- Her dosya, kuyruğa eklendiği andaki ayarları ayrı olarak saklar; ana ayarlardaki değişikliklerden etkilenmez
#Bölüm işaretçileri / meta veriler
- Bölüm ayırma etiketleri otomatik olarak eklenir
- Manuel olarak da `` etiketi eklenebilir
- Hata durumunda yalnızca ilgili bölümü hızlıca yeniden işlemek avantaj sağlar
- Meta veri etiketleri ile başlık, yazar, yıl gibi bilgiler eklenerek sesli kitap uygulamalarında bilgi sunulabilir
- Metin dosyasının başına eklenebilir
#Desteklenen diller
- Kokoro-82M motorunun çoklu dil desteği
- İngilizce (ABD/Birleşik Krallık), İspanyolca, Fransızca, Hintçe, İtalyanca, Japonca, Brezilya Portekizcesi, Çince vb.
- Diğer diller için altyazı desteği, motorun teknik sınırlamaları nedeniyle ileride talep üzerine eklenebilir
#Çıktı ve kullanım
- MPV gibi gelişmiş medya oynatıcıları önerilir; senkronize altyazı desteği vardır
- Docker tabanlı sunucu çalıştırmayı destekler
#Benzer projelerden farkları
- Abogen, bağımsız GUI ve özelleştirme özellikleri, proje bazlı klasör yönetimi, bölüm ve meta veri otomasyonu, kuyruk işleme ve karışık sesler ile üst düzey kullanım kolaylığı sunar
- audiblez, autiobooks, pdf-narrator, epub_to_audiobook, ebook2audiobook ile benzerlikler taşısa da GUI kullanılabilirliği, gelişmiş TTS motoru ve bölüm/altyazı senkronizasyonu ayırt edici noktalarıdır
#Yol haritası ve katkı
- OCR (belge tanıma) eklenmesi ve çok dilli GUI'nin güçlendirilmesi planlanmaktadır
- Herkes fork alıp özellik ekleme, hata düzeltme gibi açık kaynak katkıları yapabilir
#Teknik katkılar ve lisans
- Kokoro-82M TTS, PyQt tabanlı GUI, EbookLib entegrasyonu gibi çeşitli ortak açık kaynak teknolojiler kullanılmaktadır
- MIT lisansı (ticari kullanım ve değişiklik özgürlüğü), motor (Kokoro) için Apache-2.0 lisansı
#Dikkat edilmesi gerekenler ve sınırlamalar
- Altyazı senkronizasyonu şu anda yalnızca İngilizce için sunulmaktadır; diğer diller için Kokoro motorunda geliştirme gereklidir
- Bazı özelliklerde sınırlamalar vardır (Docker içinde ses önizleme gibi)
- Kurulum ve ortam ayarlarına ilişkin ayrıntılı kılavuz için resmi belgelere bakın
Henüz yorum yok.