5 puan yazan GN⁺ 2024-04-28 | 1 yorum | WhatsApp'ta paylaş
  • OpenVoice, referans ses tonunu klonlayarak birden fazla dil ve aksanda konuşma üreten anında ses klonlama projesidir ve V1 ile V2 özelliklerini sunmaktadır
  • V1; doğru ses tonu klonlama, duygu·entonasyon·ritim·duraklama·tonlama değişimi gibi konuşma stili kontrolü ve sıfır örneklemeli çapraz dil ses klonlamayı destekler
  • OpenVoice V2 Nisan 2024'te yayımlandı; V1 işlevlerini içerirken farklı bir eğitim stratejisiyle daha iyi ses kalitesi sunar
  • V2; İngilizce, İspanyolca, Fransızca, Çince, Japonca ve Koreceyi yerel çok dilli olarak destekler; hem V1 hem de V2, MIT License ile ticari ve araştırma amaçlı kullanım için ücretsizdir
  • OpenVoice, Mayıs 2023'ten beri myshell.ai'nin anında ses klonlama özelliğinde kullanılıyor ve Kasım 2023'e kadar dünya genelindeki kullanıcılar tarafından on milyonlarca kez kullanıldı

OpenVoice'un sunduğu ses klonlama özellikleri

OpenVoice V1'in temel özellikleri

  • Doğru ses tonu klonlama

    • Referans ses tonunu doğru şekilde klonlayabilir
    • Birden fazla dil ve aksanda konuşma üretebilir
  • Esnek konuşma stili kontrolü

    • Duygu ve entonasyon ayrıntılı şekilde kontrol edilebilir
    • Ritim, duraklama ve tonlama değişimi gibi stil parametreleri de kontrol edilebilir
  • Sıfır örneklemeli çapraz dil ses klonlama

    • Üretilen konuşmanın dili ile referans konuşmanın dilinin büyük ölçekli çok konuşmacılı çok dilli eğitim veri kümesinde yer alması gerekmez

OpenVoice V2'deki değişiklikler

  • OpenVoice V2 Nisan 2024'te yayımlandı
  • V2, V1'in tüm özelliklerini içerir
  • Farklı bir eğitim stratejisi benimseyerek daha iyi ses kalitesi sunar
  • İngilizce, İspanyolca, Fransızca, Çince, Japonca ve Koreceyi yerel olarak destekler
  • Nisan 2024'ten itibaren hem V2 hem de V1, MIT License ile yayımlandı ve ticari kullanım için ücretsizdir

Gerçek kullanım ve yayımlanma kapsamı

  • OpenVoice, Mayıs 2023'ten beri myshell.ai'nin anında ses klonlama özelliğini çalıştırmaktadır
  • Kasım 2023'e kadar ses klonlama modeli dünya genelindeki kullanıcılar tarafından on milyonlarca kez kullanıldı
  • README içinde bir demo Video yer almaktadır

Kullanım, lisans ve temel alınan projeler

  • Ayrıntılı kullanım bilgisi depodaki usage belgesinde açıklanır
  • Sık sorulan sorular ve yanıtları depodaki QA belgesinde ele alınır
  • OpenVoice V1 ve V2, MIT License altındadır; hem ticari kullanım hem de araştırma amaçlı kullanım ücretsizdir
  • Uygulama, TTS, VITS, VITS2 temel alınarak geliştirilmiştir

1 yorum

 
GN⁺ 2024-04-28
Hacker News yorumları
  • Son birkaç gün içinde bile şöyle bir olay yaşandı: Polis, bir spor direktörünün okul müdürünü ırkçı ifadeler kullanmış gibi göstermek için yapay zekâyla sahte bir ses klibi oluşturduğunu açıkladı
    https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c

    • Bu yüzden bu teknolojinin yaygın kullanılır ve iyi bilinir hâle gelmesi gerekiyor. İnsanların daha temkinli olması, her şeye inanmaması ve kaynağı kontrol etmesi sağlanmalı
      Elbette çoğu kişi yine de fact-check yapmayacak
  • Hukukun ve uygulamanın çok hızlı şekilde yetişmesi gereken bir döneme girdik
    Sahte tarihsel kanıtlar, sahte sızıntılar, sahte destek açıklamaları, sahte reklamlar bile mümkün hâle geliyor
    Facetok’taki herhangi bir metin gönderisini bile doğrulamaya üşenen insanlardı; bundan sonrası muhtemelen çok daha kötü olacak

    • HyperNormalisation’dan hipergerçekliğe giden bir akış gibi görünüyor
      Arkadaşlarıma, 5-10 yıl sonra neredeyse yalnızca gözümüzün önünde gerçekleşen şeylere %100’e yakın güvenebileceğimizi söylüyordum
      Güvenilir haber kuruluşlarının doğrulamasını tercih edebilirsin; ama kutuplaşma yüzünden dünyanın büyük bir kısmı zaten kandırıldığını düşünüp her şeyi sahte sayacak
      Sora’ya ya da yeni ses modellerine bakmak yeterli. Birkaç gün önce de bir lise atletizm koçu, okul müdürünün sesini klonlayıp ona korkunç şeyler söyletmekten tutuklandı; kendi e-postasını kullandığı için yakalandı
      Buna Microsoft’un yeni Phi-mini modelinin 3,8 milyar parametreyle GPT-3.5 performansına yaklaşmasını ekleyince durum daha da ürkütücü oluyor. GPT-3.5’in 175 milyar parametresi vardı ve bu teknoloji optimizasyonu daha ancak yaklaşık 5 yıllık
      Mr Bones’un çılgın lunapark treninden inmek istiyorum
    • Güven, insan varoluşunun bir bağımlılığıdır. Yalnızca medeniyet için değil, çok küçük topluluklar ve fikirlerin, ürünlerin, hizmetlerin temel alışverişi için de gerekir
      Üretken yapay zekânın güveni yok etme riskinin nasıl gelişeceğini öngörmek mümkün değil; ama sonunda insan yaratıcılığının kazanacağı konusunda iyimserim
    • Dijital bir ses dosyası herhangi bir şeyin kanıtı olarak görülmesi zor bir şeydir. Ses klonlama olmasa bile ses kesilip yapıştırılarak ve düzenlenerek neredeyse istenen her şey oluşturulabilir
      Biraz pratikle başka birinin konuşma tarzını taklit etmek de zor değildir; amatörlerin ve profesyonel oyuncuların sıkça yaptığı bir şeydir
      Değişen tek şey bunun kolaylaşması; hatta bu tür “kanıtların” ne kadar güvenilmez olduğunu herkesin anlamasına yardımcı olmalı
    • Bu da büyük bir sorun, ama daha büyük sorun; spam aramaların yaklaşık 10 saniye sesimi aldıktan sonra bankamı ya da ailemi benim sesimle araması
      Android ve iOS, gerçek zamanlı ses değiştiricileri varsayılan gibi desteklemeli; arama ekranında hızlıca kapatma düğmesi ve tanıdık kişilerin rehber kayıtları için kapalı tutma seçeneği sunmalı
    • Yapay zekânın suç amaçlı ve kötü niyetli kullanımına dair abartının, diğer yapay zekâ kullanım alanlarına dair abartıya benzediğini düşünmeye başladım
      Gerçekten sarsıcı olacak kullanım alanları çıkacak; ama teknolojinin yeni mümkün kıldığı şeylerle zaten mümkün olan şeyler arasındaki fark, insanların söylediğinden çok daha küçük
  • Bu klonlamadan çok ses rengini kopyalamaya yakın. Belgelerinde de böyle yazıyor, ama yine de voice cloning deniyor
    Kendim denedim; her zamanki yumuşak Lancashire aksanım gibi değil, Amerikan aksanı gibi duyuldu ve bana hiç benzemiyordu

    • https://voiceshopai.github.io kullanılırsa orijinal aksana daha yakın hâle getirilebilir gibi
      VoiceShopAi genç bir sesi yaşlı bir sese, erkek sesini kadın sesine ya da herhangi bir ülke aksanına dönüştürebiliyor
      Ses alanındaki yeni öğeleri takip eden https://github.com/metame-ai/awesome-audio-plaza üzerinden buldum
    • Ben de kendi sesimle denedim; neyse ki hiç benim sesim gibi duyulmadı
    • Başlık ya da ad pek iyi değil. Daha meta bakarsak, son zamanlarda HN yorumlarının orijinal metne ya da teknolojinin kendisine bakmaktan çok Reddit tarzı başlık tepkilerine dönüştüğünü hissettiğim oluyor
  • Bu teknolojinin meşru kullanım alanları neler olabilir? Başkalarını kandırmaya yönelik yüz farklı kullanım aklıma geliyor; ama kendi sesini klonlamak ya da yeniden üretmek isteyeceğin durumlar pek aklıma gelmiyor

    • Bir podcast kaydettikten sonra yalnızca birkaç kelimeyi düzeltmek istediğinde, yeniden kayıt zahmetine girmeden kullanılabilir
      Bağımsız bir oyun geliştiricisi, diyalogları büyük dil modeliyle çalışan ve her biri kendine özgü sese sahip canlı NPC’ler yaratabilir
      Film yapımı sırasında, oyuncunun onayıyla belirli replikler ayarlanabilir
      Sağlık sorunları nedeniyle sesini yavaş yavaş kaybeden ama iletişimi sürdürmek isteyen biri için de gerekli olabilir
      Bu teknolojinin kesinlikle meşru kullanım alanları var. Kişisel olarak kötüye kullanımın meşru kullanımı bastıracağını düşünüyorum; ama meşru uygulaması yok demek adil olmaz
      Kötüye kullanımı suç hâline getirip sıkı biçimde düzenlemek gerekir; tamamen yasaklanacak bir şey değil. Yazılım ve küçük modeller söz konusu olduğunda yasaklamak da epey zor
    • Alexa gibi ajanların daha iyi kişiselleştirilmiş sesler kullanması an meselesi
      Sesli kitaplar da tek bir anlatıcının zoraki oyunculuk yapması yerine karakterlere göre farklı seslerle okunabilir
      Nezle olduğun ama öksürmeden konuşma yapmak istediğin zaman da mümkün
      Ses, düşük bant genişlikli aktarımda yalnızca metin gönderilip yerel bir ses modeliyle oynatılarak iletilebilir
      Hayatını kaybetmiş sevilen biriyle konuşmak için de kullanılabilir
      Komik ya da komedi amaçlı kullanımlar da mümkün
    • Pek de derin düşünmemişsin gibi. İlk aklıma gelen şey, gerçek zamanlı çeviride kendi sesini klonlamayı kullanmak
      Kusursuz çevirinin kötü niyetle kullanılmadığını varsayarsak, bunun her zaman faydalı ve hiç de kötü olmayan bir uygulama olduğunu düşünüyorum
    • Gırtlağı felç olmuş bir arkadaşım var; iletişim kurmak için sık sık telefona ya da küçük bir dizüstüne yazı yazıyor
      Eski konuşma kayıtlarına dayanarak ona en azından bir ölçüde “kendi” sesini geri verebilmek gerçekten hoşuna giderdi
      Ne yazık ki onun kullandığı Android TTS’e ya da Windows’a takılabilecek bir ses modeli oluşturacak bir araç henüz görmedim
    • Çok Counter-Strike oynuyorum; insanların Joe Biden sesiyle karşı takıma sövmesi oldukça komik oluyor
  • Bu alanı takip etmeye devam etmek için en iyi yer neresi olur? Böyle araçlarla üretim yapmak istiyorum ama sesim bu amaçlar için pek iyi olmadığından çok ilgimi çekiyor
    Daha doğal kılmak için metinden sese dönüştürmeden çok sesten sese dönüştürme daha iyi olacak gibi. RVC gibi araçları biraz kullandım ama yapay zeka gürültüsü içinde kaçırdığım harika iş akışları olduğunu düşünüyorum
    Özellikle ilginç iş akışlarını ve yapay zekayla eğlenceli şeyler yapan insanları daha çok merak ediyorum

    • Kesinlikle Twitter. Her şey orada duyurulup tartışılıyor
  • Burada epey kıyametçilik ve abartılı drama var. Yaklaşık 1 yıldır zaten herkese açık şekilde kullanılabilen mevcut ses klonlama yapay zekası yöntemleriyle karşılaştırınca, bu yayının bu kadar daha kötü olmasının nedeni ne?

  • Ses klonlamayla yazarın kendi sesiyle okunan sesli kitapların çıkmasını gerçekten sabırsızlıkla bekliyorum
    Elbette yazarın bizzat okuması kadar iyi olmayacak, ama yazarın sesinde bir seslendirme sanatçısının veremeyeceği bir şey var. Seslendirme sanatçılarının telaffuzu fazla genel ve abartılı geliyor; kişisel olarak daha az bağ kuruyorum

    • Yazar eğitimli bir okuyucu olmasa bile kattığı şey, kitabın cümlelerinin nasıl söylenmesinin ve anlaşılmasının amaçlandığına tonlamanın tam olarak uymasıdır
      Yapay zeka bunu yapamayacak. Ne kadar iyileşirse iyileşsin yazarın zihnini okuyamaz. İnsan bir okuyucudan bile daha genel bir sonuç verecektir
    • Ben asıl bundan endişeliyim. Bir kitabı neden yazarın okuması gerektiğini anlamıyorum
      Eğitimli bir seslendirme sanatçısı bunu çok daha iyi yapar ve atmosfere göre sesini ayarlayabilir
      Otobiyografiyse tamam, ama o durumlarda zaten genelde yazarın kendisi okuyor
    • Sesli kitap seslendirme sanatçısını fazla genel buluyorsanız, yazarın sesiyle eğitilmiş yapay zeka okuması konusunda daha kötü haberler var
    • Kitabımı yazarın okumasını isteme ihtimalim neredeyse yok. Yazar iyi yazan kişidir; sesli kitap ise sayfadaki kelimeleri basitçe “okumak” değildir
      Descript gibi, anlatımdan sonra yazarın telaffuzu ayarlayabildiği bir araç olursa başka; ama yazarın sesini istemem
      Allyson Johnson’ın sesiyle bir model eğitip Honor Harrington kitaplarını okutmak ve yan serilerde başka bir anlatıcı kullanılan 1-2 kitabı yeniden kaydettirmek ilgimi çekerdi. O anlatıcı berbattı
      Wheel of Time serisinde aynı iki anlatıcı olmasına rağmen kitaptan kitaba çeşitli isim ve kelimelerin telaffuzunun değiştiği kısımları düzeltmek için de kullanılabilir. Özellikle “Moghedien” göze çarpıyor
      En az üç farklı şekilde telaffuz ediliyor: Mo-gid-e-on, Mo-ga-dean, Mog-a-din
    • Her sesli kitapta anlatıcı seçenekleri olsa iyi olurdu. Sevdiğim anlatıcılar var, bir de asla dinleyemeyeceğim anlatıcılar var
      Ayrıca yapay zeka kullanılmazsa sesli formatta asla çıkmayacak binlerce, on binlerce kitap var
  • İlgili: https://github.com/topics/voice-clone

    • Buradakilerden gerçekten çalışanı bilen var mı merak ediyorum
      Şimdiye kadar her denediğimde, hedef olan kendi sesim de değil, kaynak ses de değil; sadece rastgele yeni bir ses gibi duyuldu
  • Birkaç Python notebook’u görünüyor ama README’de örnek kod olsaydı daha iyi olurdu