OpenVoice: Anında Ses Klonlama Teknolojisi
(github.com/myshell-ai)- OpenVoice, referans ses tonunu klonlayarak birden fazla dil ve aksanda konuşma üreten anında ses klonlama projesidir ve V1 ile V2 özelliklerini sunmaktadır
- V1; doğru ses tonu klonlama, duygu·entonasyon·ritim·duraklama·tonlama değişimi gibi konuşma stili kontrolü ve sıfır örneklemeli çapraz dil ses klonlamayı destekler
- OpenVoice V2 Nisan 2024'te yayımlandı; V1 işlevlerini içerirken farklı bir eğitim stratejisiyle daha iyi ses kalitesi sunar
- V2; İngilizce, İspanyolca, Fransızca, Çince, Japonca ve Koreceyi yerel çok dilli olarak destekler; hem V1 hem de V2, MIT License ile ticari ve araştırma amaçlı kullanım için ücretsizdir
- OpenVoice, Mayıs 2023'ten beri myshell.ai'nin anında ses klonlama özelliğinde kullanılıyor ve Kasım 2023'e kadar dünya genelindeki kullanıcılar tarafından on milyonlarca kez kullanıldı
OpenVoice'un sunduğu ses klonlama özellikleri
- OpenVoice, anında ses klonlama için bir projedir
- İlgili makale arXiv makalesi olarak yayımlanmıştır
OpenVoice V1'in temel özellikleri
-
Doğru ses tonu klonlama
- Referans ses tonunu doğru şekilde klonlayabilir
- Birden fazla dil ve aksanda konuşma üretebilir
-
Esnek konuşma stili kontrolü
- Duygu ve entonasyon ayrıntılı şekilde kontrol edilebilir
- Ritim, duraklama ve tonlama değişimi gibi stil parametreleri de kontrol edilebilir
-
Sıfır örneklemeli çapraz dil ses klonlama
- Üretilen konuşmanın dili ile referans konuşmanın dilinin büyük ölçekli çok konuşmacılı çok dilli eğitim veri kümesinde yer alması gerekmez
OpenVoice V2'deki değişiklikler
- OpenVoice V2 Nisan 2024'te yayımlandı
- V2, V1'in tüm özelliklerini içerir
- Farklı bir eğitim stratejisi benimseyerek daha iyi ses kalitesi sunar
- İngilizce, İspanyolca, Fransızca, Çince, Japonca ve Koreceyi yerel olarak destekler
- Nisan 2024'ten itibaren hem V2 hem de V1, MIT License ile yayımlandı ve ticari kullanım için ücretsizdir
Gerçek kullanım ve yayımlanma kapsamı
- OpenVoice, Mayıs 2023'ten beri myshell.ai'nin anında ses klonlama özelliğini çalıştırmaktadır
- Kasım 2023'e kadar ses klonlama modeli dünya genelindeki kullanıcılar tarafından on milyonlarca kez kullanıldı
- README içinde bir demo Video yer almaktadır
1 yorum
Hacker News yorumları
Son birkaç gün içinde bile şöyle bir olay yaşandı: Polis, bir spor direktörünün okul müdürünü ırkçı ifadeler kullanmış gibi göstermek için yapay zekâyla sahte bir ses klibi oluşturduğunu açıkladı
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
Elbette çoğu kişi yine de fact-check yapmayacak
Hukukun ve uygulamanın çok hızlı şekilde yetişmesi gereken bir döneme girdik
Sahte tarihsel kanıtlar, sahte sızıntılar, sahte destek açıklamaları, sahte reklamlar bile mümkün hâle geliyor
Facetok’taki herhangi bir metin gönderisini bile doğrulamaya üşenen insanlardı; bundan sonrası muhtemelen çok daha kötü olacak
Arkadaşlarıma, 5-10 yıl sonra neredeyse yalnızca gözümüzün önünde gerçekleşen şeylere %100’e yakın güvenebileceğimizi söylüyordum
Güvenilir haber kuruluşlarının doğrulamasını tercih edebilirsin; ama kutuplaşma yüzünden dünyanın büyük bir kısmı zaten kandırıldığını düşünüp her şeyi sahte sayacak
Sora’ya ya da yeni ses modellerine bakmak yeterli. Birkaç gün önce de bir lise atletizm koçu, okul müdürünün sesini klonlayıp ona korkunç şeyler söyletmekten tutuklandı; kendi e-postasını kullandığı için yakalandı
Buna Microsoft’un yeni Phi-mini modelinin 3,8 milyar parametreyle GPT-3.5 performansına yaklaşmasını ekleyince durum daha da ürkütücü oluyor. GPT-3.5’in 175 milyar parametresi vardı ve bu teknoloji optimizasyonu daha ancak yaklaşık 5 yıllık
Mr Bones’un çılgın lunapark treninden inmek istiyorum
Üretken yapay zekânın güveni yok etme riskinin nasıl gelişeceğini öngörmek mümkün değil; ama sonunda insan yaratıcılığının kazanacağı konusunda iyimserim
Biraz pratikle başka birinin konuşma tarzını taklit etmek de zor değildir; amatörlerin ve profesyonel oyuncuların sıkça yaptığı bir şeydir
Değişen tek şey bunun kolaylaşması; hatta bu tür “kanıtların” ne kadar güvenilmez olduğunu herkesin anlamasına yardımcı olmalı
Android ve iOS, gerçek zamanlı ses değiştiricileri varsayılan gibi desteklemeli; arama ekranında hızlıca kapatma düğmesi ve tanıdık kişilerin rehber kayıtları için kapalı tutma seçeneği sunmalı
Gerçekten sarsıcı olacak kullanım alanları çıkacak; ama teknolojinin yeni mümkün kıldığı şeylerle zaten mümkün olan şeyler arasındaki fark, insanların söylediğinden çok daha küçük
Bu klonlamadan çok ses rengini kopyalamaya yakın. Belgelerinde de böyle yazıyor, ama yine de voice cloning deniyor
Kendim denedim; her zamanki yumuşak Lancashire aksanım gibi değil, Amerikan aksanı gibi duyuldu ve bana hiç benzemiyordu
VoiceShopAi genç bir sesi yaşlı bir sese, erkek sesini kadın sesine ya da herhangi bir ülke aksanına dönüştürebiliyor
Ses alanındaki yeni öğeleri takip eden https://github.com/metame-ai/awesome-audio-plaza üzerinden buldum
Bu teknolojinin meşru kullanım alanları neler olabilir? Başkalarını kandırmaya yönelik yüz farklı kullanım aklıma geliyor; ama kendi sesini klonlamak ya da yeniden üretmek isteyeceğin durumlar pek aklıma gelmiyor
Bağımsız bir oyun geliştiricisi, diyalogları büyük dil modeliyle çalışan ve her biri kendine özgü sese sahip canlı NPC’ler yaratabilir
Film yapımı sırasında, oyuncunun onayıyla belirli replikler ayarlanabilir
Sağlık sorunları nedeniyle sesini yavaş yavaş kaybeden ama iletişimi sürdürmek isteyen biri için de gerekli olabilir
Bu teknolojinin kesinlikle meşru kullanım alanları var. Kişisel olarak kötüye kullanımın meşru kullanımı bastıracağını düşünüyorum; ama meşru uygulaması yok demek adil olmaz
Kötüye kullanımı suç hâline getirip sıkı biçimde düzenlemek gerekir; tamamen yasaklanacak bir şey değil. Yazılım ve küçük modeller söz konusu olduğunda yasaklamak da epey zor
Sesli kitaplar da tek bir anlatıcının zoraki oyunculuk yapması yerine karakterlere göre farklı seslerle okunabilir
Nezle olduğun ama öksürmeden konuşma yapmak istediğin zaman da mümkün
Ses, düşük bant genişlikli aktarımda yalnızca metin gönderilip yerel bir ses modeliyle oynatılarak iletilebilir
Hayatını kaybetmiş sevilen biriyle konuşmak için de kullanılabilir
Komik ya da komedi amaçlı kullanımlar da mümkün
Kusursuz çevirinin kötü niyetle kullanılmadığını varsayarsak, bunun her zaman faydalı ve hiç de kötü olmayan bir uygulama olduğunu düşünüyorum
Eski konuşma kayıtlarına dayanarak ona en azından bir ölçüde “kendi” sesini geri verebilmek gerçekten hoşuna giderdi
Ne yazık ki onun kullandığı Android TTS’e ya da Windows’a takılabilecek bir ses modeli oluşturacak bir araç henüz görmedim
Bu alanı takip etmeye devam etmek için en iyi yer neresi olur? Böyle araçlarla üretim yapmak istiyorum ama sesim bu amaçlar için pek iyi olmadığından çok ilgimi çekiyor
Daha doğal kılmak için metinden sese dönüştürmeden çok sesten sese dönüştürme daha iyi olacak gibi. RVC gibi araçları biraz kullandım ama yapay zeka gürültüsü içinde kaçırdığım harika iş akışları olduğunu düşünüyorum
Özellikle ilginç iş akışlarını ve yapay zekayla eğlenceli şeyler yapan insanları daha çok merak ediyorum
Burada epey kıyametçilik ve abartılı drama var. Yaklaşık 1 yıldır zaten herkese açık şekilde kullanılabilen mevcut ses klonlama yapay zekası yöntemleriyle karşılaştırınca, bu yayının bu kadar daha kötü olmasının nedeni ne?
Ses klonlamayla yazarın kendi sesiyle okunan sesli kitapların çıkmasını gerçekten sabırsızlıkla bekliyorum
Elbette yazarın bizzat okuması kadar iyi olmayacak, ama yazarın sesinde bir seslendirme sanatçısının veremeyeceği bir şey var. Seslendirme sanatçılarının telaffuzu fazla genel ve abartılı geliyor; kişisel olarak daha az bağ kuruyorum
Yapay zeka bunu yapamayacak. Ne kadar iyileşirse iyileşsin yazarın zihnini okuyamaz. İnsan bir okuyucudan bile daha genel bir sonuç verecektir
Eğitimli bir seslendirme sanatçısı bunu çok daha iyi yapar ve atmosfere göre sesini ayarlayabilir
Otobiyografiyse tamam, ama o durumlarda zaten genelde yazarın kendisi okuyor
Descript gibi, anlatımdan sonra yazarın telaffuzu ayarlayabildiği bir araç olursa başka; ama yazarın sesini istemem
Allyson Johnson’ın sesiyle bir model eğitip Honor Harrington kitaplarını okutmak ve yan serilerde başka bir anlatıcı kullanılan 1-2 kitabı yeniden kaydettirmek ilgimi çekerdi. O anlatıcı berbattı
Wheel of Time serisinde aynı iki anlatıcı olmasına rağmen kitaptan kitaba çeşitli isim ve kelimelerin telaffuzunun değiştiği kısımları düzeltmek için de kullanılabilir. Özellikle “Moghedien” göze çarpıyor
En az üç farklı şekilde telaffuz ediliyor: Mo-gid-e-on, Mo-ga-dean, Mog-a-din
Ayrıca yapay zeka kullanılmazsa sesli formatta asla çıkmayacak binlerce, on binlerce kitap var
İlgili: https://github.com/topics/voice-clone
Şimdiye kadar her denediğimde, hedef olan kendi sesim de değil, kaynak ses de değil; sadece rastgele yeni bir ses gibi duyuldu
Birkaç Python notebook’u görünüyor ama README’de örnek kod olsaydı daha iyi olurdu