5 puan yazan GN⁺ 2023-09-14 | 1 yorum | WhatsApp'ta paylaş
  • Latent diffusion modeli (Latent Diffusion Model)
    • Önceden eğitilmiş bir otoenkoderin latent kodlama uzayında çalışan bir diffusion modeli
    • Diffusion modelinin eğitim ve çıkarım hızını büyük ölçüde artırır
  • Diffusion modeli kullanarak ses üretirken ortaya çıkan temel sorunlardan biri, diffusion modellerinin genellikle sabit boyutlu çıktı üretecek şekilde eğitilmesidir
    • 30 saniyelik ses klipleriyle eğitildiğinde, yalnızca 30 saniyelik birimler halinde ses üretilebilir
    • Bu, tüm bir parçayı üretmek gibi uzunluğu çok değişken olan sesleri eğitmeye ve üretmeye çalışırken sorun yaratır
  • Ses diffusion modelleri, uzun ses dosyalarından rastgele kesilen ses parçalarını, modelin eğitim uzunluğuna uydurmak için kırparak veya doldurarak eğitilme eğilimindedir
  • Müzikte bu durum, modelin müzikal bir cümlenin ortasında başlayan veya biten rastgele şarkı bölümleri üretme eğilimine yol açar
  • Stable Audio, metin tabanlı metadata'nın yanı sıra ses dosyası uzunluğu ve başlangıç zamanına göre de koşullandırılan, ses için bir latent diffusion modelidir
    • Bu zamanlama kontrolü özelliği sayesinde, eğitim penceresi boyutuna kadar belirtilen uzunlukta ses üretmek mümkündür
  • En güncel diffusion sampling tekniklerini kullanan Stable Audio modeli, 44.1kHz örnekleme hızında 95 saniyelik stereo sesi NVIDIA A100 GPU üzerinde 1 saniyeden kısa sürede üretebilir
  • Stability AI'nin üretken ses araştırma laboratuvarı Harmonai tarafından geliştirildi
  • Moûsai'de kullanılan 907M (9,07 milyar değil, 907 milyon) parametreli U-Net modelini temel alır
  • Stable Audio modeli, büyük bir müzik sağlayıcısı olan AudioSparx tarafından sağlanan müzik, ses efektleri ve tek enstrüman stem'lerini içeren 800.000'den fazla ses dosyasından oluşan bir veri kümesiyle eğitildi
  • Gelecekteki çalışmalar kapsamında, çıktı kalitesini, kontrol edilebilirliği, çıkarım hızını ve çıktı uzunluğunu iyileştirmek için model mimarisi, veri kümesi ve eğitim prosedürleri geliştirilecek
  • Harmonai, Stable Audio tabanlı açık kaynak modeller ve ses üretim modellerinin eğitimi için eğitim kodlarını yayımlamayı planlıyor

1 yorum

 
GN⁺ 2023-09-14
Hacker News görüşleri
  • Bu yazı, hızlı zamanlama koşullandırmasına sahip bir latent ses difüzyon teknolojisi olan 'Stable Audio'yu tartışıyor.
  • Bazı kullanıcılar üretilen solo piyano müziğini temiz ve ilgi çekici bulurken, bunun daha esnek kullanım için kolayca notaya dönüştürülebileceğini öne sürdü.
  • Ses ve görsel alanlarında, yapay zekanın görüntülerde katmanlar veya fırça darbeleri, müzikte ise bileşen parçalar gibi daha yapısal ya da sembolik çıktılar üretmesine yönelik bir talep var.
  • Özellikle müzik geçmişi olan bazı kullanıcılar üretilen müzik eserlerinden etkilenmedi ve bunları tekrarlı, hayal gücünden yoksun olarak değerlendirdi.
  • Bu teknolojinin, oyunlarda veya yüksek kaliteli müziğin öncelikli olmadığı diğer uygulamalarda arka plan müziği üretmek için kullanılma potansiyeli olduğu belirtiliyor.
  • Bir kullanıcı, bu teknolojinin Spotify'da kişisel zevklere uygun müzik üretmek için kullanılabileceğini önerdi.
  • Modelin uzamsal ses kavramını destekleyip desteklemediği ya da bunu “anlayıp anlamadığı” yönünde ilgi var; örneğin alarm sesinin dairesel şekilde hareket etmesi gibi.
  • Bazı kullanıcılar, melodi, akor ilerleyişi veya performans verisi gibi girdileri kabul edebilen bir teknolojiye ihtiyaç duyduklarını ifade etti; bu da yeni nesil ses araçları için potansiyele işaret ediyor.
  • Bazı kullanıcılar ses örneklerinde bir “tekinsiz vadi” etkisine dikkat çekti; yani seslerin birbirine karıştığını ve temiz bir müzikal ses eksikliği olduğunu belirtti.
  • Bu eleştirilere rağmen, bazı kullanıcılar böyle bir teknolojinin varlığından memnuniyet duyduklarını ifade etti ve bunu Google ile Meta gibi şirketlerin önceki küçümseyici tavırlarıyla karşılaştırdı.