Stable Audio - Hızlı Zamanlama Kontrollü Latent Audio Diffusion

(stability.ai)

5 puan yazan GN⁺ 2023-09-14 | 1 yorum | WhatsApp'ta paylaş

Latent diffusion modeli (Latent Diffusion Model)
- Önceden eğitilmiş bir otoenkoderin latent kodlama uzayında çalışan bir diffusion modeli
- Diffusion modelinin eğitim ve çıkarım hızını büyük ölçüde artırır
Diffusion modeli kullanarak ses üretirken ortaya çıkan temel sorunlardan biri, diffusion modellerinin genellikle sabit boyutlu çıktı üretecek şekilde eğitilmesidir
- 30 saniyelik ses klipleriyle eğitildiğinde, yalnızca 30 saniyelik birimler halinde ses üretilebilir
- Bu, tüm bir parçayı üretmek gibi uzunluğu çok değişken olan sesleri eğitmeye ve üretmeye çalışırken sorun yaratır
Ses diffusion modelleri, uzun ses dosyalarından rastgele kesilen ses parçalarını, modelin eğitim uzunluğuna uydurmak için kırparak veya doldurarak eğitilme eğilimindedir
Müzikte bu durum, modelin müzikal bir cümlenin ortasında başlayan veya biten rastgele şarkı bölümleri üretme eğilimine yol açar
Stable Audio, metin tabanlı metadata'nın yanı sıra ses dosyası uzunluğu ve başlangıç zamanına göre de koşullandırılan, ses için bir latent diffusion modelidir
- Bu zamanlama kontrolü özelliği sayesinde, eğitim penceresi boyutuna kadar belirtilen uzunlukta ses üretmek mümkündür
En güncel diffusion sampling tekniklerini kullanan Stable Audio modeli, 44.1kHz örnekleme hızında 95 saniyelik stereo sesi NVIDIA A100 GPU üzerinde 1 saniyeden kısa sürede üretebilir
Stability AI'nin üretken ses araştırma laboratuvarı Harmonai tarafından geliştirildi
Moûsai'de kullanılan 907M (9,07 milyar değil, 907 milyon) parametreli U-Net modelini temel alır
Stable Audio modeli, büyük bir müzik sağlayıcısı olan AudioSparx tarafından sağlanan müzik, ses efektleri ve tek enstrüman stem'lerini içeren 800.000'den fazla ses dosyasından oluşan bir veri kümesiyle eğitildi
Gelecekteki çalışmalar kapsamında, çıktı kalitesini, kontrol edilebilirliği, çıkarım hızını ve çıktı uzunluğunu iyileştirmek için model mimarisi, veri kümesi ve eğitim prosedürleri geliştirilecek
Harmonai, Stable Audio tabanlı açık kaynak modeller ve ses üretim modellerinin eğitimi için eğitim kodlarını yayımlamayı planlıyor

1 yorum

GN⁺ 2023-09-14

Hacker News görüşleri

Bu yazı, hızlı zamanlama koşullandırmasına sahip bir latent ses difüzyon teknolojisi olan 'Stable Audio'yu tartışıyor.
Bazı kullanıcılar üretilen solo piyano müziğini temiz ve ilgi çekici bulurken, bunun daha esnek kullanım için kolayca notaya dönüştürülebileceğini öne sürdü.
Ses ve görsel alanlarında, yapay zekanın görüntülerde katmanlar veya fırça darbeleri, müzikte ise bileşen parçalar gibi daha yapısal ya da sembolik çıktılar üretmesine yönelik bir talep var.
Özellikle müzik geçmişi olan bazı kullanıcılar üretilen müzik eserlerinden etkilenmedi ve bunları tekrarlı, hayal gücünden yoksun olarak değerlendirdi.
Bu teknolojinin, oyunlarda veya yüksek kaliteli müziğin öncelikli olmadığı diğer uygulamalarda arka plan müziği üretmek için kullanılma potansiyeli olduğu belirtiliyor.
Bir kullanıcı, bu teknolojinin Spotify'da kişisel zevklere uygun müzik üretmek için kullanılabileceğini önerdi.
Modelin uzamsal ses kavramını destekleyip desteklemediği ya da bunu “anlayıp anlamadığı” yönünde ilgi var; örneğin alarm sesinin dairesel şekilde hareket etmesi gibi.
Bazı kullanıcılar, melodi, akor ilerleyişi veya performans verisi gibi girdileri kabul edebilen bir teknolojiye ihtiyaç duyduklarını ifade etti; bu da yeni nesil ses araçları için potansiyele işaret ediyor.
Bazı kullanıcılar ses örneklerinde bir “tekinsiz vadi” etkisine dikkat çekti; yani seslerin birbirine karıştığını ve temiz bir müzikal ses eksikliği olduğunu belirtti.
Bu eleştirilere rağmen, bazı kullanıcılar böyle bir teknolojinin varlığından memnuniyet duyduklarını ifade etti ve bunu Google ile Meta gibi şirketlerin önceki küçümseyici tavırlarıyla karşılaştırdı.

Stable Audio - Hızlı Zamanlama Kontrollü Latent Audio Diffusion

İlgili okumalar

1 yorum

Hacker News görüşleri