- Latent diffusion modeli (Latent Diffusion Model)
- Önceden eğitilmiş bir otoenkoderin latent kodlama uzayında çalışan bir diffusion modeli
- Diffusion modelinin eğitim ve çıkarım hızını büyük ölçüde artırır
- Diffusion modeli kullanarak ses üretirken ortaya çıkan temel sorunlardan biri, diffusion modellerinin genellikle sabit boyutlu çıktı üretecek şekilde eğitilmesidir
- 30 saniyelik ses klipleriyle eğitildiğinde, yalnızca 30 saniyelik birimler halinde ses üretilebilir
- Bu, tüm bir parçayı üretmek gibi uzunluğu çok değişken olan sesleri eğitmeye ve üretmeye çalışırken sorun yaratır
- Ses diffusion modelleri, uzun ses dosyalarından rastgele kesilen ses parçalarını, modelin eğitim uzunluğuna uydurmak için kırparak veya doldurarak eğitilme eğilimindedir
- Müzikte bu durum, modelin müzikal bir cümlenin ortasında başlayan veya biten rastgele şarkı bölümleri üretme eğilimine yol açar
- Stable Audio, metin tabanlı metadata'nın yanı sıra ses dosyası uzunluğu ve başlangıç zamanına göre de koşullandırılan, ses için bir latent diffusion modelidir
- Bu zamanlama kontrolü özelliği sayesinde, eğitim penceresi boyutuna kadar belirtilen uzunlukta ses üretmek mümkündür
- En güncel diffusion sampling tekniklerini kullanan Stable Audio modeli, 44.1kHz örnekleme hızında 95 saniyelik stereo sesi NVIDIA A100 GPU üzerinde 1 saniyeden kısa sürede üretebilir
- Stability AI'nin üretken ses araştırma laboratuvarı Harmonai tarafından geliştirildi
- Moûsai'de kullanılan 907M (9,07 milyar değil, 907 milyon) parametreli U-Net modelini temel alır
- Stable Audio modeli, büyük bir müzik sağlayıcısı olan AudioSparx tarafından sağlanan müzik, ses efektleri ve tek enstrüman stem'lerini içeren 800.000'den fazla ses dosyasından oluşan bir veri kümesiyle eğitildi
- Gelecekteki çalışmalar kapsamında, çıktı kalitesini, kontrol edilebilirliği, çıkarım hızını ve çıktı uzunluğunu iyileştirmek için model mimarisi, veri kümesi ve eğitim prosedürleri geliştirilecek
- Harmonai, Stable Audio tabanlı açık kaynak modeller ve ses üretim modellerinin eğitimi için eğitim kodlarını yayımlamayı planlıyor
1 yorum
Hacker News görüşleri