5 puan yazan GN⁺ 2024-04-28 | 1 yorum | WhatsApp'ta paylaş

OpenVoice V1'e Giriş

  • OpenVoice'un avantajları şunlardır:
    • Doğru ses tonu klonlama: OpenVoice, referans ses tonunu doğru biçimde klonlayabilir ve birden çok dil ile aksanda ses üretebilir.
    • Esnek konuşma stili kontrolü: OpenVoice, duygu ve tonlama gibi konuşma stillerini; ayrıca ritim, duraklama, vurgu gibi diğer stil parametrelerini ayrıntılı biçimde kontrol edebilir.
    • Zero-shot çok dilli ses klonlama: Üretilen sesin dili ile referans sesin dilinin, büyük ölçekli çok dilli konuşmacı eğitim veri setinde yer alması gerekmez.

OpenVoice V2'ye Giriş

  • Nisan 2024'te OpenVoice V2 yayımlandı; V1'in tüm özelliklerini içeriyor ve aşağıdaki yetenekleri ekliyor:
    • Daha iyi ses kalitesi: OpenVoice V2, daha iyi ses kalitesi sunan farklı bir eğitim stratejisi benimsiyor.
    • Yerleşik çok dilli destek: İngilizce, İspanyolca, Fransızca, Çince, Japonca ve Korece OpenVoice V2'de yerleşik olarak destekleniyor.
    • Ücretsiz ticari kullanım: Nisan 2024'ten itibaren V2 ve V1, MIT lisansı altında yayımlandı ve ticari kullanım ücretsizdir.

OpenVoice'un kullanım durumu

  • OpenVoice, Mayıs 2023'ten bu yana myshell.ai'nin anında ses klonlama özelliğini sağlıyor.
  • Kasım 2023'e kadar ses klonlama modeli dünya genelindeki kullanıcılar tarafından on milyonlarca kez kullanıldı ve platformda patlayıcı bir kullanıcı büyümesi görüldü.

Başlıca katkıda bulunanlar

  • Zengyi Qin (MIT, MyShell)
  • Wenliang Zhao (Tsinghua University)
  • Xumin Yu (Tsinghua University)
  • Ethan Sun (MyShell)

Kullanım

  • Ayrıntılı kullanım yöntemi için usage bölümüne bakın.

Yaygın sorunlar

  • Yaygın soru ve yanıtlar için QA bölümüne bakın.
  • Soru ve yanıt listesi düzenli olarak güncellenecektir.

Topluluğa katılım

  • Discord topluluğuna katılıp kayıt sırasında 'Developer' rolünü seçerseniz, geliştiricilere özel kanallara ayrıcalıklı erişim elde edebilirsiniz.
  • Faydalı tartışmaları ve iş birliği fırsatlarını kaçırmayın.

Atıf

  • Bu uygulama, TTS, VITS ve VITS2 gibi birkaç mükemmel projeyi temel alıyor.
  • Harika çalışmaları için teşekkürler.

Lisans

  • OpenVoice V1 ve V2, MIT lisansı altındadır; hem ticari kullanım hem de araştırma amaçlı kullanım ücretsizdir.

GN⁺'nin görüşü

  • OpenVoice, farklı dillerde ve farklı duygularla sesleri kolayca üretebilen güçlü bir araçtır. Bu nedenle film, animasyon, oyun gibi çeşitli alanlarda kullanılabilecek gibi görünüyor.

  • Ancak seslerin çok kolay klonlanabilmesi kötüye kullanım riskini de beraberinde getiriyor. Örneğin, izin olmadan ünlülerin sesini kullanarak deepfake videolar üretmek gibi sorunlar ortaya çıkabilir. Buna yönelik önlemler hazırlanması gerekiyor.

  • OpenVoice'a benzer işlevlere sahip ticari ürünler arasında Lyrebird, Resemble.ai ve Descript bulunuyor. Bunlar çoğunlukla müşteri desteği, çağrı merkezi ve video dublajı gibi alanlarda kullanılıyor.

  • OpenVoice'u devreye alırken veri güvenliği ve telif hakkı konularına dikkat etmek gerekir. Ayrıca üretilen sesin doğallığı ve telaffuz doğruluğu da mutlaka kontrol edilmelidir.

  • Açık kaynak olarak yayımlandığı için, çeşitli geliştiricilerin katılımıyla performansın sürekli iyileşmesi bekleniyor. Ticari ürün düzeyinde ses kalitesi ve özellikler sunup sunamayacağı merak konusu.

1 yorum

 
GN⁺ 2024-04-28
Hacker News görüşleri
  • Yakın zamanda bir okul spor programı koçunun, müdürün ırkçı ifadeler kullandığına dair ses klibini yapay zeka ile manipüle ederek iftira attığı bir olay yaşandı. Bu, hukuk ve kolluk kuvvetlerinin yapay zeka teknolojisinin gelişim hızına yetişmek için çaba göstermesi gerektiğini gösteriyor.
  • Sahte tarihsel kanıtlar, sahte sızıntılar, sahte destekler ve sahte reklamlar gibi sorunların daha da ciddileşmesi bekleniyor. Basit metin haberleri bile düzgün doğrulanmazken, yapay zeka teknolojisinin yol açacağı zarar çok daha büyük olabilir.
  • Bu teknoloji yalnızca ses tonunu taklit ediyor; gerçek sesi birebir kopyalamıyor. Belgede bu açıkça belirtiliyor, ancak yine de buna "ses klonlama" denmesi kafa karışıklığı yaratıyor.
  • Bu teknoloji için meşru kullanım alanları bulmak zor. Başkalarını aldatmak için kötüye kullanılma ihtimali yüksek.
  • Yapay zekayı kullanarak ilginç şeyler üretmek isteyenler için, ilgili bilgiye ulaşabilecekleri iyi bir yer bulmak önemli. Asıl ilgi çekici olanın yapay zeka teknolojisinin kendisinden çok, onunla kurulan ilginç iş akışları ve bu alandaki insanlar olduğu düşünülüyor.
  • Daha önce açıkça yayımlanmış ses klonlama yapay zekası teknolojileriyle karşılaştırıldığında, bu sürümün özellikle daha kötü bir yanı varmış gibi görünmüyor. Aşırı karamsarlık ve abartılı tepkiler fazla.
  • Ses klonlama teknolojisi sayesinde yazarların kendi sesleriyle sesli kitap üretebilmesini umuyorum. Bunu bizzat kendilerinin okuması kadar iyi olmayabilir, ama bir seslendirme sanatçısından ziyade yazarın kendi sesi daha çekici olacaktır.
  • README dosyasında örnek kodlar olsa iyi olurdu.
  • Kendi sesimi doğrudan "klonlamayı" denedim, ancak ortaya çıkan sonuç hiç benzemiyordu. Kendi sesimi Fransızca konuşurken duymayı bekliyordum ama öyle olmadı. "Anında ses klonlama" başlığı biraz yanıltıcı olabilir.