- Yalnızca referans alınan konuşmacının kısa bir ses klibiyle, onun sesini klonlayabilen ve birden fazla dilde konuşma üretebilen çok amaçlı anlık ses klonlama yöntemi
- Ses stilinde ince ayarlı kontrol sağlar; duygu, vurgu, ritim, duraklama ve tonlamanın yanı sıra referans konuşmacının tınısını da klonlayabilir
- Büyük ölçekli konuşmacı eğitim setine dahil olmayan diller için de zero-shot çapraz dil ses klonlama mümkündür
- Ticari olarak kullanılabilen API'lere kıyasla onlarca kat daha düşük hesaplama maliyetiyle üstün performans sunar
- Referans tınıyı doğru şekilde klonlayabilir ve çeşitli dil ve aksanlarda konuşma üretebilir
- Duygu ve vurgunun yanı sıra ritim, duraklama ve tonlama gibi diğer stil parametreleri üzerinde de ince kontrol sağlar
1 yorum
Hacker News görüşleri
Bir Hacker News kullanıcısı kendi deneyimini paylaşarak OpenVoice'un Gradio demosunu yerelde nasıl çalıştırdığını anlattı. Bu kullanıcı, RTX 3090 kullanarak XTTS2'den daha hızlı ses ürettiğini ve yaklaşık 1.5 GB VRAM kullandığını belirtti. Demonun kaynak kullanımı nedeniyle 200 karakterle sınırlı olduğunu, ancak gerçek zamanın 8 katı hızda çalıştığını söyledi. Ayrıca demoyu değiştirip daha uzun metinlerle test ettiğinde, 1 dakikalık sesi yaklaşık 4 saniyede render ettiğini aktardı. Sesin anlaşılırlığının XTTS2'den daha iyi olduğunu, ancak biraz tuhaf ve robotik hissettirdiğini değerlendirdi.
Başka bir kullanıcı, ses klonlama teknolojisinin etik kullanım alanlarını sorguladı. Bu kullanıcı; porno, kimlik hırsızlığı, kimliğe bürünme, seslendirme sanatçılarının yerini alma, seslendirme sanatçılarının sesini izinsiz kullanma ve müşteri desteğinde bot kullanımını gizleme gibi olumsuz kullanım örneklerini sıraladı. Buna karşılık, sesini kaybeden insanlara gerçek seslerini geri kazandırmak gibi olumlu kullanım alanları olabileceğini, ancak bu pazarın yatırımı haklı çıkaracak kadar büyük olmadığını savundu.
Bir kullanıcı, OpenVoice'un Huggingface TTS yarışması liderlik tablosunda sondan ikinci sırada olduğunu paylaştı. Bu kullanıcı, styletts2 ve xtts2 gibi alternatiflerin OpenVoice'tan çok daha üst sıralarda yer aldığını belirtti.
Bir kullanıcı, Elon Musk'ın sesini taklit etmenin kalite kanıtı olarak kullanılmasına şaşırdığını söyledi. Aslında Musk'ın sesinin zaten tuhaf ve kesik kesik olma eğiliminde olduğunu, bu yüzden daha iyi seslerin taklit edilebileceğini savundu.
Bir kullanıcı, Voicecraft'ın model ağırlıklarını yayımladığı haberini paylaştı.
Bir kullanıcı, sitede sunulan kliplerle karşılaştırıldığında yerelde benzer kalitede ses klonlamayı başaramadığını söyledi. Bir şeyi yanlış yapıyor olabileceğini tahmin etti.
Bir kullanıcı, GitHub üzerinden bunun yerelde çalıştırılabildiğini doğruladığını ve kalitesini iyi bulduğunu söyledi.
Bir kullanıcı, sesin IPA benzeri bir gösterimle kodlanıp bu gösterimin hedef dile çözüldüğü süreci anlattı. Ayrıca "ses rengi"nin çıkarılıp IPA benzeri gösterimden kaldırıldıktan sonra hedef katmana yeniden eklendiğini belirtti. Bunun sayesinde kişinin kendi sesinin benzer bir ses rengiyle başka bir dil konuştuğunu duyabildiğini söyledi. Kullanıcı, Çinceyi akıcı şekilde öğrenirse sonucun ne kadar benzer olacağını ve ses rengini başka dillere çevirmek için bir "ses rengi çevirmeni" gerekip gerekmediğini merak etti.
Bir kullanıcı, çoklu kayıtlarda konuşmacıları tanıyıp konuşmacı ayrımı yapabilen "ters" bir model bilip bilmediklerini sordu.
Bir kullanıcı, tüm ses klonlama araçlarında "vocal fry" denilen bir özellik bulunduğunu ve bunun, sesin ince ayrıntılarını doğru eşleştiremeyen bir "uncanny valley" etkisi yarattığını değerlendirdi. Bu kullanıcı, bu araçların Microsoft Sam benzeri soluklu tınıdan hâlâ tamamen kurtulamadığını söyledi.