OpenVoice: Anında Ses Klonlama Teknolojisi

(github.com/myshell-ai)

5 puan yazan GN⁺ 2024-04-28 | 1 yorum | WhatsApp'ta paylaş

OpenVoice, referans ses tonunu klonlayarak birden fazla dil ve aksanda konuşma üreten anında ses klonlama projesidir ve V1 ile V2 özelliklerini sunmaktadır
V1; doğru ses tonu klonlama, duygu·entonasyon·ritim·duraklama·tonlama değişimi gibi konuşma stili kontrolü ve sıfır örneklemeli çapraz dil ses klonlamayı destekler
OpenVoice V2 Nisan 2024'te yayımlandı; V1 işlevlerini içerirken farklı bir eğitim stratejisiyle daha iyi ses kalitesi sunar
V2; İngilizce, İspanyolca, Fransızca, Çince, Japonca ve Koreceyi yerel çok dilli olarak destekler; hem V1 hem de V2, MIT License ile ticari ve araştırma amaçlı kullanım için ücretsizdir
OpenVoice, Mayıs 2023'ten beri myshell.ai'nin anında ses klonlama özelliğinde kullanılıyor ve Kasım 2023'e kadar dünya genelindeki kullanıcılar tarafından on milyonlarca kez kullanıldı

OpenVoice'un sunduğu ses klonlama özellikleri

OpenVoice, anında ses klonlama için bir projedir
İlgili makale arXiv makalesi olarak yayımlanmıştır

OpenVoice V1'in temel özellikleri

Doğru ses tonu klonlama
- Referans ses tonunu doğru şekilde klonlayabilir
- Birden fazla dil ve aksanda konuşma üretebilir
Esnek konuşma stili kontrolü
- Duygu ve entonasyon ayrıntılı şekilde kontrol edilebilir
- Ritim, duraklama ve tonlama değişimi gibi stil parametreleri de kontrol edilebilir
Sıfır örneklemeli çapraz dil ses klonlama
- Üretilen konuşmanın dili ile referans konuşmanın dilinin büyük ölçekli çok konuşmacılı çok dilli eğitim veri kümesinde yer alması gerekmez

OpenVoice V2'deki değişiklikler

OpenVoice V2 Nisan 2024'te yayımlandı
V2, V1'in tüm özelliklerini içerir
Farklı bir eğitim stratejisi benimseyerek daha iyi ses kalitesi sunar
İngilizce, İspanyolca, Fransızca, Çince, Japonca ve Koreceyi yerel olarak destekler
Nisan 2024'ten itibaren hem V2 hem de V1, MIT License ile yayımlandı ve ticari kullanım için ücretsizdir

Gerçek kullanım ve yayımlanma kapsamı

OpenVoice, Mayıs 2023'ten beri myshell.ai'nin anında ses klonlama özelliğini çalıştırmaktadır
Kasım 2023'e kadar ses klonlama modeli dünya genelindeki kullanıcılar tarafından on milyonlarca kez kullanıldı
README içinde bir demo Video yer almaktadır

Kullanım, lisans ve temel alınan projeler

Ayrıntılı kullanım bilgisi depodaki usage belgesinde açıklanır
Sık sorulan sorular ve yanıtları depodaki QA belgesinde ele alınır
OpenVoice V1 ve V2, MIT License altındadır; hem ticari kullanım hem de araştırma amaçlı kullanım ücretsizdir
Uygulama, TTS, VITS, VITS2 temel alınarak geliştirilmiştir

1 yorum

GN⁺ 2024-04-28

Hacker News yorumları

Son birkaç gün içinde bile şöyle bir olay yaşandı: Polis, bir spor direktörünün okul müdürünü ırkçı ifadeler kullanmış gibi göstermek için yapay zekâyla sahte bir ses klibi oluşturduğunu açıkladı
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
- Bu yüzden bu teknolojinin yaygın kullanılır ve iyi bilinir hâle gelmesi gerekiyor. İnsanların daha temkinli olması, her şeye inanmaması ve kaynağı kontrol etmesi sağlanmalı
  Elbette çoğu kişi yine de fact-check yapmayacak
Hukukun ve uygulamanın çok hızlı şekilde yetişmesi gereken bir döneme girdik
Sahte tarihsel kanıtlar, sahte sızıntılar, sahte destek açıklamaları, sahte reklamlar bile mümkün hâle geliyor
Facetok’taki herhangi bir metin gönderisini bile doğrulamaya üşenen insanlardı; bundan sonrası muhtemelen çok daha kötü olacak
- HyperNormalisation’dan hipergerçekliğe giden bir akış gibi görünüyor
  Arkadaşlarıma, 5-10 yıl sonra neredeyse yalnızca gözümüzün önünde gerçekleşen şeylere %100’e yakın güvenebileceğimizi söylüyordum
  Güvenilir haber kuruluşlarının doğrulamasını tercih edebilirsin; ama kutuplaşma yüzünden dünyanın büyük bir kısmı zaten kandırıldığını düşünüp her şeyi sahte sayacak
  Sora’ya ya da yeni ses modellerine bakmak yeterli. Birkaç gün önce de bir lise atletizm koçu, okul müdürünün sesini klonlayıp ona korkunç şeyler söyletmekten tutuklandı; kendi e-postasını kullandığı için yakalandı
  Buna Microsoft’un yeni Phi-mini modelinin 3,8 milyar parametreyle GPT-3.5 performansına yaklaşmasını ekleyince durum daha da ürkütücü oluyor. GPT-3.5’in 175 milyar parametresi vardı ve bu teknoloji optimizasyonu daha ancak yaklaşık 5 yıllık
  Mr Bones’un çılgın lunapark treninden inmek istiyorum
- Güven, insan varoluşunun bir bağımlılığıdır. Yalnızca medeniyet için değil, çok küçük topluluklar ve fikirlerin, ürünlerin, hizmetlerin temel alışverişi için de gerekir
  Üretken yapay zekânın güveni yok etme riskinin nasıl gelişeceğini öngörmek mümkün değil; ama sonunda insan yaratıcılığının kazanacağı konusunda iyimserim
- Dijital bir ses dosyası herhangi bir şeyin kanıtı olarak görülmesi zor bir şeydir. Ses klonlama olmasa bile ses kesilip yapıştırılarak ve düzenlenerek neredeyse istenen her şey oluşturulabilir
  Biraz pratikle başka birinin konuşma tarzını taklit etmek de zor değildir; amatörlerin ve profesyonel oyuncuların sıkça yaptığı bir şeydir
  Değişen tek şey bunun kolaylaşması; hatta bu tür “kanıtların” ne kadar güvenilmez olduğunu herkesin anlamasına yardımcı olmalı
- Bu da büyük bir sorun, ama daha büyük sorun; spam aramaların yaklaşık 10 saniye sesimi aldıktan sonra bankamı ya da ailemi benim sesimle araması
  Android ve iOS, gerçek zamanlı ses değiştiricileri varsayılan gibi desteklemeli; arama ekranında hızlıca kapatma düğmesi ve tanıdık kişilerin rehber kayıtları için kapalı tutma seçeneği sunmalı
- Yapay zekânın suç amaçlı ve kötü niyetli kullanımına dair abartının, diğer yapay zekâ kullanım alanlarına dair abartıya benzediğini düşünmeye başladım
  Gerçekten sarsıcı olacak kullanım alanları çıkacak; ama teknolojinin yeni mümkün kıldığı şeylerle zaten mümkün olan şeyler arasındaki fark, insanların söylediğinden çok daha küçük
Bu klonlamadan çok ses rengini kopyalamaya yakın. Belgelerinde de böyle yazıyor, ama yine de voice cloning deniyor
Kendim denedim; her zamanki yumuşak Lancashire aksanım gibi değil, Amerikan aksanı gibi duyuldu ve bana hiç benzemiyordu
- https://voiceshopai.github.io kullanılırsa orijinal aksana daha yakın hâle getirilebilir gibi
  VoiceShopAi genç bir sesi yaşlı bir sese, erkek sesini kadın sesine ya da herhangi bir ülke aksanına dönüştürebiliyor
  Ses alanındaki yeni öğeleri takip eden https://github.com/metame-ai/awesome-audio-plaza üzerinden buldum
- Ben de kendi sesimle denedim; neyse ki hiç benim sesim gibi duyulmadı
- Başlık ya da ad pek iyi değil. Daha meta bakarsak, son zamanlarda HN yorumlarının orijinal metne ya da teknolojinin kendisine bakmaktan çok Reddit tarzı başlık tepkilerine dönüştüğünü hissettiğim oluyor
Bu teknolojinin meşru kullanım alanları neler olabilir? Başkalarını kandırmaya yönelik yüz farklı kullanım aklıma geliyor; ama kendi sesini klonlamak ya da yeniden üretmek isteyeceğin durumlar pek aklıma gelmiyor
- Bir podcast kaydettikten sonra yalnızca birkaç kelimeyi düzeltmek istediğinde, yeniden kayıt zahmetine girmeden kullanılabilir
  Bağımsız bir oyun geliştiricisi, diyalogları büyük dil modeliyle çalışan ve her biri kendine özgü sese sahip canlı NPC’ler yaratabilir
  Film yapımı sırasında, oyuncunun onayıyla belirli replikler ayarlanabilir
  Sağlık sorunları nedeniyle sesini yavaş yavaş kaybeden ama iletişimi sürdürmek isteyen biri için de gerekli olabilir
  Bu teknolojinin kesinlikle meşru kullanım alanları var. Kişisel olarak kötüye kullanımın meşru kullanımı bastıracağını düşünüyorum; ama meşru uygulaması yok demek adil olmaz
  Kötüye kullanımı suç hâline getirip sıkı biçimde düzenlemek gerekir; tamamen yasaklanacak bir şey değil. Yazılım ve küçük modeller söz konusu olduğunda yasaklamak da epey zor
- Alexa gibi ajanların daha iyi kişiselleştirilmiş sesler kullanması an meselesi
  Sesli kitaplar da tek bir anlatıcının zoraki oyunculuk yapması yerine karakterlere göre farklı seslerle okunabilir
  Nezle olduğun ama öksürmeden konuşma yapmak istediğin zaman da mümkün
  Ses, düşük bant genişlikli aktarımda yalnızca metin gönderilip yerel bir ses modeliyle oynatılarak iletilebilir
  Hayatını kaybetmiş sevilen biriyle konuşmak için de kullanılabilir
  Komik ya da komedi amaçlı kullanımlar da mümkün
- Pek de derin düşünmemişsin gibi. İlk aklıma gelen şey, gerçek zamanlı çeviride kendi sesini klonlamayı kullanmak
  Kusursuz çevirinin kötü niyetle kullanılmadığını varsayarsak, bunun her zaman faydalı ve hiç de kötü olmayan bir uygulama olduğunu düşünüyorum
- Gırtlağı felç olmuş bir arkadaşım var; iletişim kurmak için sık sık telefona ya da küçük bir dizüstüne yazı yazıyor
  Eski konuşma kayıtlarına dayanarak ona en azından bir ölçüde “kendi” sesini geri verebilmek gerçekten hoşuna giderdi
  Ne yazık ki onun kullandığı Android TTS’e ya da Windows’a takılabilecek bir ses modeli oluşturacak bir araç henüz görmedim
- Çok Counter-Strike oynuyorum; insanların Joe Biden sesiyle karşı takıma sövmesi oldukça komik oluyor
Bu alanı takip etmeye devam etmek için en iyi yer neresi olur? Böyle araçlarla üretim yapmak istiyorum ama sesim bu amaçlar için pek iyi olmadığından çok ilgimi çekiyor
Daha doğal kılmak için metinden sese dönüştürmeden çok sesten sese dönüştürme daha iyi olacak gibi. RVC gibi araçları biraz kullandım ama yapay zeka gürültüsü içinde kaçırdığım harika iş akışları olduğunu düşünüyorum
Özellikle ilginç iş akışlarını ve yapay zekayla eğlenceli şeyler yapan insanları daha çok merak ediyorum
- Kesinlikle Twitter. Her şey orada duyurulup tartışılıyor
Burada epey kıyametçilik ve abartılı drama var. Yaklaşık 1 yıldır zaten herkese açık şekilde kullanılabilen mevcut ses klonlama yapay zekası yöntemleriyle karşılaştırınca, bu yayının bu kadar daha kötü olmasının nedeni ne?
Ses klonlamayla yazarın kendi sesiyle okunan sesli kitapların çıkmasını gerçekten sabırsızlıkla bekliyorum
Elbette yazarın bizzat okuması kadar iyi olmayacak, ama yazarın sesinde bir seslendirme sanatçısının veremeyeceği bir şey var. Seslendirme sanatçılarının telaffuzu fazla genel ve abartılı geliyor; kişisel olarak daha az bağ kuruyorum
- Yazar eğitimli bir okuyucu olmasa bile kattığı şey, kitabın cümlelerinin nasıl söylenmesinin ve anlaşılmasının amaçlandığına tonlamanın tam olarak uymasıdır
  Yapay zeka bunu yapamayacak. Ne kadar iyileşirse iyileşsin yazarın zihnini okuyamaz. İnsan bir okuyucudan bile daha genel bir sonuç verecektir
- Ben asıl bundan endişeliyim. Bir kitabı neden yazarın okuması gerektiğini anlamıyorum
  Eğitimli bir seslendirme sanatçısı bunu çok daha iyi yapar ve atmosfere göre sesini ayarlayabilir
  Otobiyografiyse tamam, ama o durumlarda zaten genelde yazarın kendisi okuyor
- Sesli kitap seslendirme sanatçısını fazla genel buluyorsanız, yazarın sesiyle eğitilmiş yapay zeka okuması konusunda daha kötü haberler var
- Kitabımı yazarın okumasını isteme ihtimalim neredeyse yok. Yazar iyi yazan kişidir; sesli kitap ise sayfadaki kelimeleri basitçe “okumak” değildir
  Descript gibi, anlatımdan sonra yazarın telaffuzu ayarlayabildiği bir araç olursa başka; ama yazarın sesini istemem
  Allyson Johnson’ın sesiyle bir model eğitip Honor Harrington kitaplarını okutmak ve yan serilerde başka bir anlatıcı kullanılan 1-2 kitabı yeniden kaydettirmek ilgimi çekerdi. O anlatıcı berbattı
  Wheel of Time serisinde aynı iki anlatıcı olmasına rağmen kitaptan kitaba çeşitli isim ve kelimelerin telaffuzunun değiştiği kısımları düzeltmek için de kullanılabilir. Özellikle “Moghedien” göze çarpıyor
  En az üç farklı şekilde telaffuz ediliyor: Mo-gid-e-on, Mo-ga-dean, Mog-a-din
- Her sesli kitapta anlatıcı seçenekleri olsa iyi olurdu. Sevdiğim anlatıcılar var, bir de asla dinleyemeyeceğim anlatıcılar var
  Ayrıca yapay zeka kullanılmazsa sesli formatta asla çıkmayacak binlerce, on binlerce kitap var
İlgili: https://github.com/topics/voice-clone
- Buradakilerden gerçekten çalışanı bilen var mı merak ediyorum
  Şimdiye kadar her denediğimde, hedef olan kendi sesim de değil, kaynak ses de değil; sadece rastgele yeni bir ses gibi duyuldu
Birkaç Python notebook’u görünüyor ama README’de örnek kod olsaydı daha iyi olurdu

OpenVoice: Anında Ses Klonlama Teknolojisi

OpenVoice'un sunduğu ses klonlama özellikleri

OpenVoice V1'in temel özellikleri

Doğru ses tonu klonlama

Esnek konuşma stili kontrolü

Sıfır örneklemeli çapraz dil ses klonlama

OpenVoice V2'deki değişiklikler

Gerçek kullanım ve yayımlanma kapsamı

Kullanım, lisans ve temel alınan projeler

İlgili okumalar

1 yorum

Hacker News yorumları