SoundStorm: Verimli paralel ses üretimi

(google-research.github.io)

1 puan yazan GN⁺ 2023-07-18 | 1 yorum | WhatsApp'ta paylaş

SoundStorm, AudioLM’in anlamsal token’larını alıp nöral ses codec token’larını paralel olarak üreten, uzun ses üretiminin hesaplama yükünü azaltan bir modeldir
Çift yönlü attention ve güvene dayalı paralel decoding ile, özbağlanımlı yönteme kıyasla konuşma ve akustik koşulların tutarlılığını artırırken aynı düzeyde kaliteyi hedefler
TPU-v4 üzerinde 30 saniyelik sesi 0,5 saniyede üreterek AudioLM’in akustik üretecinden onlarca kat daha yüksek hız gösterir
SPEAR-TTS ile birleştirildiğinde senaryoyu, kısa ses prompt’unu ve konuşmacı geçiş notlarını kontrol ederek 30 saniyelik doğal diyaloğu tek bir TPU-v4 üzerinde 2 saniyede sentezleyebilir
Ses taklidi, kimliğe bürünme ve biyometrik kimlik doğrulamayı aşma amacıyla kötüye kullanılabileceğinden koruma önlemleri gereklidir; değiştirme sonrası üretilen sesler özel bir sınıflandırıcıyla %98,5 tespit edilebilmiştir

SoundStorm’un üretim yöntemi ve performansı

SoundStorm, verimli bir özbağlanımsız ses üretimi modelidir
Girdi AudioLM’in anlamsal token’ları, çıktı ise nöral ses codec token’larıdır
Üretim performansı iki tasarıma dayanır
- Çift yönlü attention ile önceki ve sonraki bağlam birlikte kullanılır
- Güvene dayalı paralel decoding ile birden çok token tek seferde üretilir
AudioLM’in özbağlanımlı üretim yöntemiyle karşılaştırıldığında, aynı kalitede ses üretirken konuşma ve akustik koşulların tutarlılığı daha yüksektir
TPU-v4 üzerinde 30 saniyelik sesi 0,5 saniyede üretir

Diyalog sentezi

SoundStorm, SPEAR-TTS’nin metin-anlam modelleme aşamasıyla birleştirilerek yüksek kaliteli ve doğal diyaloglar sentezleyebilir
Kontrol edilebilen üç unsur vardır
- Senaryo aracılığıyla konuşma içeriği
- Kısa ses prompt’u aracılığıyla konuşmacı sesi
- Senaryo notları aracılığıyla konuşmacı geçişleri
30 saniyelik bir diyalog bölümünün sentezleme çalışma süresi tek bir TPU-v4 üzerinde 2 saniye olarak ölçülmüştür
Örneklerde kullanılan metin ve konuşmacılar, eğitim sırasında görülmemiş verilerdir

Prompt olup olmamasına göre üretim

SoundStorm, AudioLM’in anlamsal token’larını koşul olarak kullanarak ses üretir ve 3 saniyelik ses prompt’u olan ve olmayan durumların ikisini de gösterir
Prompt yoksa farklı konuşmacılar örneklenir
Prompt varsa konuşmacının sesi yüksek tutarlılıkla korunur
Orijinal örnekler LibriSpeech test-clean’den alınmıştır
Üretim hızı, AudioLM’in akustik üretecinden onlarca kat daha yüksektir

Referans modellerle karşılaştırma

Prompt tabanlı üretimde SoundStorm, AudioLM’e göre daha yüksek akustik tutarlılığa sahiptir ve prompt’taki konuşmacı sesini daha iyi korur
Aynı modelde RVQ level-wise greedy decoding ile karşılaştırıldığında SoundStorm daha yüksek kaliteli ses üretir
Karşılaştırma örnekleri Original, AudioLM, Greedy ve SoundStorm çıktılarını yan yana sunar

Etkiler ve güvenlik değerlendirmeleri

SoundStorm, sesin nöral ses codec tabanlı temsilini yüksek kaliteli ve verimli biçimde üreten bir modeldir
Bu çalışmada AudioLM ve SPEAR-TTS’nin akustik üretim pipeline’ının yerini alan bir bileşen olarak kullanılır
Üretilen örnekler eğitim verilerindeki önyargılardan etkilenebilir; örnekler temsil edilen aksanlar ve ses özellikleri gibi sınırlamalar içerebilir
Prompt ile konuşmacı özellikleri kararlı biçimde kontrol edilebilse de, eğitim verileri ve bunların sınırlamalarına dair daha kapsamlı analiz gelecekteki çalışma alanı olarak kalmaktadır
Ses taklidi yeteneğinin kötüye kullanım potansiyeli vardır
- Biyometrik kimlik doğrulamayı aşma ve kimliğe bürünme için kullanılabileceğinden koruma önlemleri önemlidir
- Değiştirme sonrası üretilen sesler, Borsos et al. (2022) gibi özel bir sınıflandırıcıyla %98,5 tespit edilebilmiştir
- Daha büyük bir sistemin bileşeni olarak SoundStorm’un, Borsos et al. (2022) ve Kharitonov et al. (2023) çalışmalarında tartışılan risklere ek riskler getirme olasılığının düşük olduğu değerlendirilmektedir
- AudioLM’in bellek ve hesaplama gereksinimlerini düşürmek, ses üretimi araştırmalarını daha geniş bir topluluk için erişilebilir hale getirebilir
- Gelecekte sentetik ses tespiti için farklı bir yaklaşım olarak ses watermarking yönteminin araştırılması planlanmaktadır

1 yorum

GN⁺ 2023-07-18

Hacker News görüşleri

CGI'da her zaman ulaşılan dönüm noktaları vardı. Yapraklı ağaçlar nihayet gerçeğe yaklaşır, rüzgârda sallanan çimen neredeyse inandırıcı hale gelir, saç ve jöle benzeri şeyler gelişirdi; genelde önce Pixar kısa filmlerinin neye odaklandığını görür, sonra bunun filmlere uygulandığını izlerdik
Sonra motion capture geldi, gerçek oyuncu yüzüne dijital yüz bindirme tekniği çıktı; bunu ilk kez Pirates of the Caribbean'da görüp sarsılmıştım, Planet of the Apes'teki maymunlar da öyleydi. CGI sektörünün büyük kısmı artık en zor sorunların çözülmüş gibi göründüğü bir noktaya ulaşmış gibi duruyor
Şimdi Dialogue Synthesis'in ilk sentetik diyaloğu olan “Where did you go last summer? | I went to Greece, it was amazing.”i dinleyince yine şaşırdım. Sanki makinelerin insanla ayırt edilemeyecek kadar gerçekten insan gibi konuştuğu dönüm noktasına gelmişiz gibi
Daha 10~5 yıl önce TTS kullanmak için yapılabilecek en iyi şey sesi Android telefonda render etmekti; diğer her şey gerçekten berbattı. Özellikle açık kaynak tarafı korkunçtu
Peki gelecek nesil bir Raspberry Pi'ye bu kalitede bir modeli indirip, bulut olmadan sadece HTTP çağrısıyla ses çıkışında kusursuz bir ses üretmesi ne kadar sürer? 5 yıl?
- Bir başka soru da şu: 10 oktavla şarkı söyleyen bir sistem çıkıp artık gerçek insan şarkıcılara ihtiyaç kalmaması ya da onların istenmemesi ne kadar zaman alır?
- Eğer soru “gelecek nesil Raspberry Pi üzerinde bulut olmadan kusursuz ses üretilebilir mi” ise, yaklaşık 5 yıl? Muhtemelen daha büyük bir Whisper modeli onun üzerinde çalışabildiğinde mümkün olur. Belki bir sonraki Raspberry Pi'de bir ses modelinin kuantize edilmiş ya da optimize edilmiş sürümünü çalıştırmak gibi bir şey olur
  Hatta bugün bile çok uğraşırsanız ve her türlü sesi verebilen genel amaçlı büyük bir model yerine tek bir sese ince ayar yapılmış küçük bir model kullanırsanız, buna neredeyse ulaşabilirsiniz. whisper-tiny Pi'de gerçek zamanlı çalışmıyor mu? Üstelik Pi'nin GPU'sunu da kullanmıyor. (https://github.com/ggerganov/whisper.cpp/discussions/166)
  Düzeltme: medium, Pi'de tiny'den 30 kat daha yavaş görünüyor; sanırım fazla iyimsermişim. Whisper tiny'nin medium'dan bu kadar hızlı olduğunu bilmiyordum
  Bu yaklaşım Tortoise'da da oldukça işe yarıyor; çok hızlı Tortoise kalite ayarını kullanırken bile daha büyük bir modele yakın kalite alabiliyorsunuz. Tabii tüm sistemi tek bir sese göre ince ayar yaparsanız harika özelliklerin önemli bir kısmı kayboluyor. Tortoise yine de Pi için fazla yavaş olurdu ama aynı strateji SoundStorm gibi daha hızlı modellerde işe yarayabilir
  Kalite açısından, uzun ses bölümlerindeki uzun vadeli tutarlılık konusunda hâlâ gidilecek çok yol var. Gerçek bir insan sesli kitap okurken sayfanın üst kısmındaki kelimeler, alttaki kelimelerin nasıl okunacağını büyük ölçüde etkiler. Bu etki 10. sayfadan 300. sayfaya kadar uzanabilir. En iyi TTS modelleriyle yapılmış bir sesli kitabı dikkatle dinlerseniz tutarsızlıklar gerçekten çok belli oluyor. Sanki okuyucu paragrafları sırayla değil de rastgele kaydetmiş gibi ya da bir video oyunundaki repliklerde oyuncuların tüm cümleleri birbirlerinin performansına tepki vermeden ayrı ayrı kaydetmesi gibi geliyor
  Bağlam penceresini 1 dakikaya, 2 dakikaya çıkarmak işi yaklaştırır ve bazı kitaplar için yeterli olabilir. Kısa vadede bir insan tüm ses örneklerini düzenleyip elle rötuşlayarak doğal hale getirebilir. Böylece hayran yapımı sesli kitaplarda olduğu gibi zaman ayırıp gerçekten uyumlu hale getirmek mümkün olur. Ama tamamen otomatik kitaplarda bu tutarsızlık delirtici derecede rahatsız edici. Belirli bir bölümdeki oyunculuk o kadar yaklaşmış oluyor ki, tonun kaydığı an daha da batıyor
- Gerçekten çok küçük bir form faktörü gerekiyorsa, bugün bile Jetson alıp daha karmaşık modeller çalıştırabilirsiniz. Sadece pahalı
- Ben de yıllardır CGI'ın gelişimini izleyip bu aşamalara hayran kaldım. Gerçek dünyanın başka bir karmaşık yönünün render edildiğini görmek sürekli bir keyifti
  Ama artık insan yaratıcılığını ve davranışını taklit edip kopyalayan her yeni tekniğin çıkışıyla birlikte içimde büyüyen bir tedirginlik var
  İzlediğim ya da okuduğum şeyin üretilmiş olup olmadığını bilme hakkım var mı?
- Bence en fazla 2 yıl
Bing ve Bard'ın en yeni Microsoft, Google Cloud ürünlerini kullanması güzel ama bu tür ses teknolojisi gelişmelerinin audio palm(https://google-research.github.io/seanet/audiopalm/examples/) gibi şeylerle birlikte açık API ya da kullanıcı arayüzü olarak da çıkmasını isterdim
Bard'ın TTS'si fena değil ama belirgin biçimde geride
Bunun dışında Bing'in İngilizce/Korece TTS'si gerçekten çok iyi. Microsoft'un Edge'deki ücretsiz TTS için en üst düzey ürününü kullandığını bilmiyordum; bu yüzden Google'ın varsayılan TTS seslerinden çok daha iyi
- Yakın zamanda bir ürün demosunun sesli anlatımında Azure TTS kullandım ve gösterdiğim kişilerden hiçbiri bunun insan kaydı olmadığını fark etmedi
  Azure seslerinin bazıları daha da iyi, TTS web uygulamasında birkaç küçük hata var ama genel deneyim beni gerçekten tatmin etti
- Google Cloud Studio voices'ı denedin mi?
  https://cloud.google.com/text-to-speech/docs/wavenet#studio_voices_preview
- “Microsoft'un Edge'deki ücretsiz TTS için en üst düzey ürününü kullanıp Google'ın varsayılan TTS seslerini ezip geçtiği” ifadesi gerçekten ilginç; biraz daha açıklar mısın? Bu alanı çok yakından takip etmiyorum, o yüzden kafam karıştı
  “Ücretsiz TTS'nin en üst düzey ürünü” ile kastedilen özgür yazılım kütüphanesi mi, ücretsiz SaaS mı; “on edge” ile Edge tarayıcısı mı yoksa istemci bilgisayarda edge üzerinde çalışması mı kastediliyor, emin olamadım. İstemci bilgisayarda çalışan tüm TTS'lerin Google'ın varsayılan TTS'sinden daha iyi olduğu mu söyleniyor?
- “Açık API ya da kullanıcı arayüzü” lafı iç çektiriyor. Google da eskiden bazı modelleri yayımlıyordu ama o eğlenceli ilk dönemler sanki sona eriyor gibi
İnsanlar zanaatkarların gidip başka bir iş bulabileceğini rahatça söylerken atladıkları nokta, o yeni işin çoğu zaman basit ve düşük ücretli olması. Amazon mahalle dükkânlarını piyasadan silince, o insanlar yeni bir iş kurmuyor; gidip Wal-Mart’ta iş arıyor
SoundStorm’un, konuşmacı değişimini | ile gösteren bir senaryo yazarak iki kişinin konuşmasını üretmek üzere eğitilmiş olması ilginç. Ama görünüşe göre Bark modelinde de aynı | karakteri neredeyse varsayılan olarak çalışıyor ve diyalog üretiyor
Bark çıktılarının üçte biri ya da biraz fazlası, tek kişinin kendi kendine konuştuğu bir diyalog gibi geliyor ve konuşmacı değişimini de sık sık kaçırıyor. Yine de pipe karakteri, oyunculuk tarzı açısından diyalog gibi duyulan sesleri epey tutarlı biçimde üretiyor
https://twitter.com/jonathanfly/status/1675987073893904386
Acaba eğitim verilerinin bir yerlerinde, konuşmacı değişimi için | kullanan metin-ses verisi mi var?
İlginç biçimde Bark, SoundStorm prompt’larını alaycı bir tonda render etme eğiliminde. Bunun model tarzı farkından mı kaynaklandığını, yoksa Google’ın temsilî örnekler olarak daha düz okunanları mı seçtiğini bilmiyorum
- Geliştiricilerin bunu söylediğini sanmıyorum ama Bark, genel makine öğrenmesi ses veri setlerinden çok YouTube derlemi üzerinde eğitilmiş gibi görünüyor. Oralardaki seslerde bu tür transkriptler olabilir; [laughs] gibi şeylerin çalışması da belki bundandır
UpWork veya Fiverr gibi iş pazarlarının, geçmişte insanların yaptığı birçok hizmeti artık yazılımın yapabildiği bu yeni duruma yeterince hızlı uyum sağlayıp sağlayamayacağını merak ediyorum
Mevcut pazar arayüzü buna uygun görünmüyor. Alıcılar bir insana ulaşıp işin bitmesini beklemek yerine, anında sonuç isteyecek
Bu yüzden platformun app store gibi bir şeye dönüşmesi gerekecek gibi. Satıcılar kendi hizmetlerini bağlayacak, alıcılar da o hizmetleri doğrudan kullanacak
- Herkesin neden sadece “Bu insanları nasıl ikame eder?” sorusuna odaklandığını anlamıyorum. Bu sadece gerçekten iyi bir metinden konuşmaya sistemi
- Zaten bu kullanıcılar yapmaları gereken işleri AI ile hallediyor. Bence bunda sorun yok
- Benim gördüğüm fayda replik değiştirme tarafında. Proje bittikten sonra oyuncuyu yeniden stüdyoya çağırmak çok zaman alıyor. Oyuncu çoktan başka bir projeye geçmiş olabiliyor ve talep gören bir oyuncuysa takvimi dolu olduğundan birlikte çalışabileceğiniz zaman çok sınırlı oluyor. Üstelik bazı oyuncular bu süreçte pek iyi de değil. O yüzden onları odada uzun süre tutup istediğiniz performansı çıkarmaya çalışıyorsunuz; hele o performans belirli bir ortamda ortaya çıkmışsa bu daha da zor olabiliyor
  Oyuncunun önceki birkaç repliğini verip, belirlenmiş parametrelere göre boşluğu dolduracak bir şey çıkararak tüm lojistik sorunlar olmadan projeyi sürdürebileceğiniz bir aracınız olsa, bu cennet gibi olurdu
  Ama bu aynı zamanda koca bir uzmanlık alanını da öldürebilir. Oyuncunun değerini de düşürür. Aslında bu zaten oluyor. Piyasada seslendirme sanatçılarının yerini tamamen alan programlar şimdiden var ve video oyunlarında kullanılıyor
  Yaptığım işte bunun kesinlikle faydalı olabileceğini görüyorum. Aynı zamanda inanılmaz ölçüde suistimal edilme potansiyeli taşıdığının da gayet farkındayım
- Mevcut yazılım pazarlarını kullansak olmaz mı?
En etkileyici kısım, sadece 3 saniyelik bir kaynak kayıtla 30 saniyelik TTS üretebiliyor gibi görünmesi. Gerçekten harika ve açıkçası beklediğimden çok daha ileride
Son dönemdeki gelişmelere bakınca, sıradan kullanıcıların karmaşık ayarlar yapmadan kullanabileceği iyi Linux için TTS sesleri var mı?
Bu şekilde üretilmiş oyunları oynamak istemem. NPC diyaloglarını duymak istememin asıl nedeni, bunların insan tarafından yazılmış diyaloglar olması
Etkileyici ama ilk örnek son anda sanal erkek sesinin “what?” derken yukarı kaymasıyla bozuluyor; otomatik perde düzeltmesi gibi bir pitch correction efekti açıkça duyuluyor ve tökezliyor
Diğer örnekler ise düpedüz hayranlık uyandırıcı. Eğer gerçekten sadece birkaç saniyelik eğitimle birkaç dakikalık ikna edici bir ses çıkarabiliyorsa, bir sonraki adım bunun şarkı söylemesini sağlamak olacaktır. Birinin benzer bir teknolojiyle örneğin Elvis’in sesini bir reklamda kullanıp adını vermemesi, hayranların sesi tanıması ama ses kaydının onun sözleriyle ya da mevcut şarkılarıyla eşleşmemesi durumunda hukuki fırtına kopacağını düşünüyorum
- İlk örnek SoundStorm tarafından üretilmiş gibi gelmiyor. Zorla yapılmış ve modifiye edilmiş bir ses gibi duyuluyor
Söyleyecek çok akıllıca bir şeyim yok ama tüm örnekleri aynı anda çalınca gerçekten çok eğlenceli oluyor. HTML sürümü Ableton Live gibi hissettiriyor

SoundStorm: Verimli paralel ses üretimi

SoundStorm’un üretim yöntemi ve performansı

Diyalog sentezi

Prompt olup olmamasına göre üretim

Referans modellerle karşılaştırma

Etkiler ve güvenlik değerlendirmeleri

İlgili okumalar

1 yorum

Hacker News görüşleri