1 puan yazan GN⁺ 2023-07-18 | 1 yorum | WhatsApp'ta paylaş
  • SoundStorm, verimli ve otoregresif olmayan ses üretimi için bir modeldir.
  • Bu model, ses token'larını üretmek için çift yönlü attention ve güvene dayalı paralel decoding kullanır.
  • Diğer yaklaşımlarla karşılaştırıldığında SoundStorm, aynı ses kalitesi ve tutarlılığını korurken 100 kat daha hızlıdır.
  • TPU-v4 üzerinde SoundStorm, yalnızca 0,5 saniyede 30 saniyelik ses üretebilir.
  • Bu model, söylenen içeriği, konuşmacı sesini ve konuşmacı geçişlerini kontrol ederek yüksek kaliteli ve doğal diyalog sentezleyebilir.
  • SoundStorm, bir ses prompt'u ile birlikte anlamsal token'lara dayalı ses üretebilir.
  • Bu model, ses prompt'undan konuşmacının sesini koruyarak yüksek kaliteli ses üretir.
  • SoundStorm, diğer modellere kıyasla daha yüksek kaliteli ses üretir.
  • Bu model, eğitim verisindeki önyargılardan etkilenebilir; bu nedenle kötüye kullanımı önlemek için dikkat gerektirir.
  • SoundStorm, özel bir sınıflandırıcı tarafından tespit edilebilir; bu da kötüye kullanım riskini azaltır.
  • Bu model, ses üretimi araştırmasını daha geniş topluluklar için erişilebilir kılmak amacıyla geliştirilmiştir.

1 yorum

 
GN⁺ 2023-07-18
Hacker News görüşü
  • CGI endüstrisi, gerçekçi görseller ve sesler üretmek için kayda değer ilerleme sağladı.
  • Konuşma sentezi teknolojisi, makinelerin insanlardan ayırt edilemeyecek sesler çıkarabildiği bir dönüm noktasına ulaştı.
  • Geçmişte TTS teknolojisi kulağa kötü gelebiliyordu, ancak artık yüksek kaliteli seçenekler var.
  • Yazar, bu teknolojinin Raspberry Pi gibi cihazlarda ne zaman erişilebilir olacağını merak ediyor.
  • Bing ve Bard gelişmiş ses teknolojileri kullanıyor, ancak bu ilerlemelerin herkese açık API'ler ve kullanıcı arayüzleri üzerinden sunulmasını istiyor.
  • Teknolojik ilerlemeyle ortaya çıkan yeni işler çoğu zaman düşük ücretli ve itibarsız işler oluyor.
  • SoundStorm, ses değişimini gösteren | işaretini içeren transkriptleri kullanarak diyalog üretmek üzere eğitildi.
  • Bark modeli de diyalog üretiyor, ancak bazen ses değişimlerini kaçırabiliyor.
  • Yalnızca 3 saniyelik kaynak materyalle 30 saniyelik TTS üretebilme yeteneği etkileyici.
  • UpWork ve Fiverr gibi iş platformlarının, sundukları hizmetleri kendisi gerçekleştirebilen yazılımların yaygınlaşmasına uyum sağlaması gerekebilir.
  • Linux kullanıcıları, kolayca kurulabilen TTS sesleri arıyor.
  • Yorum yazarı, yapay zeka tarafından üretilmiş oyunlarla ilgilenmiyor ve insanlar tarafından yazılmış NPC diyaloglarını tercih ediyor.
  • SoundStorm'un çıktı örneği etkileyici, ancak bazı ince kusurlar barındırıyor.
  • Reklamlarda izin alınmadan yapay zeka üretimi seslerin kullanılması hukuki sorunlara yol açabilir.
  • SoundStorm PyTorch deposunun GitHub bağlantısı paylaşılıyor.