Stable Audio demosu
(stability-ai.github.io)- Stable Audio demosu, tek bir modelin 44.1kHz stereo olarak hem uzun biçimli müzik hem de ses efektleri ürettiğini ses örnekleriyle gösteriyor
- Müzik üretimi; Berlin techno, uplifting acoustic loop, disco, spa lobby meditation, drum solo gibi örneklerle yalnızca prompt kullanarak farklı türler ve atmosferler oluşturulmasına odaklanıyor
- Ses efektleri; door slam, sports car, motorbike, fireworks, cave footsteps gibi örnekleri kapsıyor ve promptlarda “high-quality, stereo” gibi ifadeler de birlikte kullanılıyor
- Karşılaştırma örnekleri, MusicCaps ve AudioCaps promptlarını temel alarak MusicGen-large, MusicGen-stereo, AudioLDM2 ve Audiogen-medium sonuçlarını yan yana dinlenebilecek şekilde sunuyor
- Autoencoder yeniden yapılandırma örnekleri, özgün kayıt ile işlendikten sonraki sonucu karşılaştırarak ses sadakatinin kontrol edilmesini sağlıyor
Stable Audio demosu ve üretim örnekleri
- Demo sitesi Safari'de düzgün çalışmayabilir; en iyi deneyim için Google Chrome kullanılması öneriliyor
- İlgili kaynaklar olarak
arXiv,stable-audio-tools,stable-audio-metricssunuluyorarXiv: Stable Audio makalesistable-audio-tools: Stable Audio'yu yeniden üretmek için kodstable-audio-metrics: Stable Audio'yu değerlendirmek için kod
- Model, değişken uzunlukta uzun biçimli stereo müzik üretebiliyor ve bunu 44.1kHz'de yapıyor
- Örnek promptlar arasında Berlin techno, uplifting acoustic loop, disco, calm meditation music ve drum solo yer alıyor
- Bazı promptlarda BPM, enstrüman, atmosfer, bölgesel stil ve loop olup olmadığı da birlikte belirtiliyor
- Aynı model, stereo ses efektlerini de 44.1kHz'de üretiyor
- Örnek promptlar arasında door slam, sports car passing by, motorbike passing by, fireworks ve reverberant footsteps inside a large rocky cave bulunuyor
- Ses efekti promptlarına “high-quality, stereo” ifadesinin eklendiği ve bunun genel olarak faydalı olduğu belirtiliyor
Model karşılaştırmaları ve autoencoder yeniden yapılandırması
- Uzun biçimli müzik karşılaştırması MusicCaps promptları temel alınarak hazırlanmış
- Stable Audio: stereo, 44.1kHz
- MusicGen-large: mono, 32kHz
- MusicGen-stereo: stereo, 32kHz
- AudioLDM2: mono, 48kHz
- Karşılaştırmada kullanılan promptlar ve sesler, makalede raporlanan niteliksel çalışmada kullanılmış
- Ses efekti karşılaştırması AudioCaps promptlarını kullanıyor
- Stable Audio: stereo, 44.1kHz
- Audiogen-medium: mono, 32kHz
- AudioLDM2: mono, 48kHz
- Rastgele seçilen AudioCaps promptları büyük stereo hareket gerektirmediğinden, sonuçlar nispeten mekânsal olmayan şekilde render ediliyor
- Autoencoder bölümü, ses sadakatini değerlendirmek için yeniden yapılandırma karşılaştırmaları sunuyor
- Solda ground truth kayıt, sağda ise ground truth kaydın autoencoder'dan geçirilmiş sonucu yer alıyor
- Yeniden yapılandırma sonuçları oldukça şeffaf ve ground truth'a çok yakın bir düzeyde
1 yorum
Hacker News yorumları
İlginçtir, Stable Audioyu yapmak için işe alınan Ed Newton-Rex, lansmandan hemen sonra telif hakkı ve eğitim verisi sorunları konusundaki endişeleri nedeniyle ayrılmıştı
Ardından https://www.fairlytrained.org/ girişimini kurdu
Not: https://x.com/ednewtonrex
Görüntü ya da ses parçaları gibi on milyonlarca-yüz milyonlarca kütüphane öğesine sahip hak sahipleri için bile, büyük depolardaki 1 milyardan az metin token’ı tek başına metinden hedef ortama üretim yapan bir modelin kodlayıcı performansı için fazla yetersiz kalır. Adobe’nin Firefly’ı da buna dahil
Bu tür kütüphanelerde benzer verinin çok olmasının özellikle yararlı olduğu da bir yanlış anlama. Güçlü bir metin kodlayıcı olmadan, metinden hedef ortama modellerin çoğu çok ortalama görünen ya da duyulan sonuçlar üretir
Bu şüpheyi gidermenin en basit yolu model mimarisini açıklamaktır
Her hâlükârda bunların hepsi doğru olsa bile, difüzyon modellerinden söz etmemizin ve Fairly Trained adlı çalışmaya dikkat etmemizin nedeni zaten birilerinin açık lisansı olmayan verilerle eğitim yapmış olması
Önemli bir pozisyon, ama “yapmak için işe alınan kişi” denince insanın aklına baş geliştirici ya da araştırmacı geliyor
Müzik geçmişi olan bir kurucu olduğu düşünülürse ayrılması da daha anlaşılır oluyor
Ya da belki de bu, kendi sertifikasyon iş modeli için gerekli bir süreçti
Bunu, bir sanatçının hayatı boyunca dinlediği müziklerden etkilenerek müzik yapmasından farklı görmüyorum. Temelde tamamen aynı şey ve müzik ya da sanat vakumda üretilemez
Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.90’lardaki Internet Explorer dönemine tam tur geri dönmüşüz gibi. Bu kez baskın tarayıcının açık kaynak olması en azından bir fark
Biri Chrome için üzerinde “Best viewed with Google Chrome” yazan hareketli GIF düğmesi yapsa iyi olurdu
Düğmeyi görüntüle: https://indiscipline.github.io/post/best-viewed-in-google-ch...
Stable Diffusion’da olduğu gibi, bu modelde de metin prompt’u muhtemelen yararlı çıktı elde etmenin kontrolü en zor yolu olacaktır
MIDI’nin ControlNet ile birlikte girdi olarak kullanılıp bunun fiilen bir sinir ağı synthesizer’ına dönüştüğünü hayal etmek kolay
Bunun yerine, müzik üretiminin çeşitli aşamalarında sanatçının sürecini destekleyecek şekilde AI kullanmaya odaklanmak daha iyi
En yeni müzik modelleri MusicGen ve MusicLM ile karşılaştırınca bu inanılmaz derecede iyi. Midjourney gibi abonelikle kullanılabilen bir ürün sayfası da var gibi: https://www.stableaudio.com/
Ne yazık ki ağırlıkları açık bir model değil ve API’si de yok gibi görünüyor. Aylık abonelikle arayüzden ses üretme biçiminde; geliştiricilerin entegre edebileceği ya da sarmalayabileceği bir şey değil
Neden doğrudan “aylık aktif kullanıcısı 100 binden az ticari ürünler” maddesine dahil olmayıp ayrı bir madde olduğunu merak ediyorum
Model gelişim hızı çok yüksek; müzik tarafında oldukça büyük bir yıl olacak gibi
Yapay zekanın önce yüksek kaliteli bir ses kütüphanesinin nasıl tınladığını öğrenmesi, ardından öğrendiği yeteneği MIDI ile o kütüphanedeki sesleri tetiklemeye uygulaması aşamasının hâlâ gerekli olduğunu düşünüyorum.
Böylece müzik yapay zekasının yaratıcılığıyla kusursuz ses kalitesi birlikte elde edilebilir.
Bunun için hangi veri kümesi ya da yapının uygulanabileceğini bilmiyorum ama gerçekten ilginç olurdu.
Buradaki ilerlemeyi küçümsemek istemiyorum; etkileyici.
Bir davulcu olarak “davul solosu” en sıkıcı şeylerden biri ve içinde tuhaf sesler var. Sonuçta hedeflenen dinleyici kitlesine bağlı olacak gibi.
Bu arada, şu an itibarıyla efekt sesleri de kulağıma gerçekçi gelmiyor.
Yine de ilerleme büyük ve iyi iş çıkarılmış.
Rastgele gibi ama tamamen rastgele olmayan özelliği sayesinde epey alışılmadık ritim kalıpları ortaya çıkıyor. Keşke doğaçlama çalarken böyle senkoplar ekleyebilsem.
Benden notaya dökmemi istemeyin.
Tempo tutarlılığı mükemmel. Ancak gereksiz gürültü ve rastgele zil uzamaları modelin sınırlarını gösteriyor.
Zaten çok daha iyi tınlayan milyonlarca stok müzik parçası ve efekt sesi var. Onlarla rekabet etmek için üretken yapay zekaya devasa yatırım gerekir; metin ya da görüntüden farklı olarak bunun ekonomik açıdan mantıklı göründüğünü sanmıyorum.
Kabaca tempoya uyarak rastgele davul çalan biri gibi duyuluyor.
Öte yandan asansör müziği gibi şeyleri fena yapmıyor; bu da beklentiyle örtüşüyor.
Kodu ve eğitim için anlaşılır yönergeleri yayımlayıp modeli yayımlamamaları ilginç.
Neredeyse anonim kişilere veri yükleyiciyi Apple Music hesaplarına bağlayıp istedikleri gibi çalıştırmaları için yalvarıyorlar gibi. Elbette kimse bunu yapmalarını önermiyor.
Efekt sesi üretme fikri beni kısa süreliğine heyecanlandırmıştı ama şu “ayak sesleri” inanılmayacak kadar kötü.
Açık ağırlıkların olmadığı doğru mu? Hangisi olduğunu söyleyen bir bilgi bulmak zor.
Düzenleme: Ah, bunun tartışmalı bir yorum olacağını bilmiyordum. Eksi oy vermeden önce soruya yanıt verseniz iyi olurdu ama neyse.
Not: https://github.com/Stability-AI/stable-audio-tools
“Efekt sesi prompt’larında genellikle yardımcı olduğu için ‘high-quality, stereo’ ekliyoruz.”
LLM’e sadece daha iyi sonuç üretmesini kibarca söylerseniz çıktının iyileştiğini keşfetmiş olmaları komik.
Bilgisayar, her zamanki gibi, bizim niyet ettiğimiz şeyi değil istediğimiz şeyi yapar.