OpenVoice: Çok Yönlü Anında Ses Klonlama Teknolojisi
- OpenVoice, yalnızca referans sesin kısa bir ses klibiyle o sesi klonlayabilen ve çeşitli dillerde konuşma üretebilen çok yönlü bir ses klonlama yaklaşımıdır.
- Bu teknoloji, ses stili kontrolünde esneklik sunar; referans sesin tınısını kopyalamanın yanı sıra duygu, vurgu, ritim, duraksama ve tonlama gibi konuşma stiline ait unsurlar üzerinde ince ayar yapılmasına da olanak tanır.
- OpenVoice, büyük ölçekli konuşmacı eğitim veri kümelerinde yer almayan diller için de zero-shot çapraz dilli ses klonlama gerçekleştirir.
Teknik ayrıntılar ve araştırma katkıları
- OpenVoice, ticari olarak kullanılabilen API'lere kıyasla onlarca kat daha verimli hesaplama maliyeti sunarken aynı zamanda üstün performans sergiler.
- Araştırma alanındaki ilave ilerlemeleri desteklemek için kaynak kodu ve eğitilmiş modeller herkese açık olarak erişilebilir hale getirilmiştir.
- Demo web sitesinde niteliksel sonuçlar sunulmaktadır ve yayından önceki iç sürüm, Mayıs 2023'ten Ekim 2023'e kadar dünya genelindeki kullanıcılar tarafından onlarca milyon kez kullanılmıştır.
GN⁺ görüşü
- OpenVoice, ses klonlama teknolojisinde önemli bir ilerlemeyi temsil ediyor; özellikle farklı dillerde ve stillerde ses üretebilme yeteneği son derece yenilikçi.
- Bu teknoloji; eğitim, eğlence ve kişiselleştirilmiş ses hizmetleri gibi çeşitli alanlarda uygulama potansiyeline sahip.
- Açık olarak paylaşılan kaynak kodu ve modellerin, ses teknolojileri araştırmalarını hızlandırmaya katkı sağlaması bekleniyor.
1 yorum
Hacker News yorumları
Bir kullanıcı, bu projeyi denemeyi kolaylaştıran yazarlara övgüde bulunuyor. Ancak genel amaçlı ses klonlama konusunda tatmin edici olmayan sonuçlar yaşadığını söylüyor. Wikipedia'daki kitaplarla ilgili sayfanın ilk paragrafını okutmuş ve ardından şu cümleyi üretmesini istemiş, ancak ortaya çıkan sonuç bilgisayar tarafından üretilmiş gibi kulağa gelmiş.
pipile kurmuş ve kendi ses örneğini kullanarakdemo_part1.ipynbdosyasını çalıştırmış. Not defterinde neredeyse anında çalışmış.Bir kullanıcı, kendi donanımında ses klonlama yapmak istediğinde kullanabileceği iyi bir açık kaynak projeyi önermelerini istiyor. Açık kaynak ses klonlamanın güncel durumunu merak ediyor.
Bir kullanıcı, bu teknolojiyle (veya Eleven Labs ile) Android telefonun TTS'ine eklenti olarak takılabilecek bir ses modeli oluşturmanın mümkün olup olmadığını soruyor.
Bir kullanıcı bu makaleyi beğeniyor. "Yaptığımız şeyi ve başkalarının da bunu yapabilmesini sağlamaya yardımcı olmak istiyoruz" hissi verdiğini söylüyor. Özellikle "Remark on Novelty" bölümünü olumlu değerlendiriyor: OpenVoice'un katkısı, model mimarisinin alt modüllerini icat etmek değil, ses stili ve dil kontrolünü tını klonlamasından ayıran ayrıştırılmış bir çerçeve sunması.
GitHub bağlantısı ve checkpoint (zip dosyası) bağlantısı paylaşılıyor. Bir kullanıcı, Amazon üzerinde barındırılan zip dosyasına doğrudan bağlantılara karşı alerjisi olduğu için checkpoint bağlantısını düzelterek yeniden paylaşıyor.
Sağlanan örnek bağlantıların etkileyici olduğu değerlendiriliyor.
Bir kullanıcı, YouTube'un bu teknolojinin kullanımını yasaklamasını ya da en azından bu tür videoları filtreleyebilecek bir özellik sunmasını umuyor.
Bir kullanıcı, Birleşik Krallık'taki büyük bankalardan birini aradığında bankanın hâlâ "sesim şifremdir" programına kaydolmasını tavsiye ettiğini deneyimlediğini aktarıyor. Yapay zekanın mevcut gelişim düzeyinde bunun düpedüz dikkatsizlik gibi hissettirdiğini söylüyor.
Bir kullanıcı, ses klonlamanın ahlak dışı veya suç amaçlı kullanımının meşru kullanımlarını büyük ölçüde aştığını düşünmenin ilk ve kalıcı düşüncesi olduğunu belirtiyor.
Açık kaynak ses klonlama alanındaki mevcut liderin RVC olduğunu ve bununla karşılaştırıldığında nasıl farklılaştığını görmek istediğini söylüyor.