Stable Audio demosu
(stability-ai.github.io)Bilgilendirme
- Bu web sitesi Safari'de düzgün çalışmayabilir; en iyi deneyim için Google Chrome kullanılması önerilir.
Kararlı ses üretimi
- Model, 44.1kHz stereo müziği farklı uzunluklarda üretebilir; örnekler arasında Berlin techno, rave, davul makinesi, synthesizer ve karanlık atmosfere sahip müzikler yer alır.
- Önceki son teknoloji modellere kıyasla bu model, 44.1kHz stereo ses efektleri de üretebilir; örnekler arasında kapanan kapı sesi, yanınızdan geçen spor araba veya motosiklet sesi, havai fişekler ve mağara içindeki ayak sesleri bulunur.
- Bu web sitesindeki tüm örnekler, hem müzik hem de ses efektlerini 44.1kHz stereo olarak üretebilen aynı modelle oluşturulmuştur.
Stereo müzikte uzun üretim: son teknoloji ile karşılaştırma
- Mandolin performansı ile ıslık, gitar ve flütün birleştiği müziği üreten model ile diğer modellerin karşılaştırması üzerinden ses kalitesi değerlendirilebilir.
- Piyano melodisi, snare roll, kick pattern, hi-hat, alkış sesi ve synthesizer lead melodisinin birleştiği ticari müzik üretimi de karşılaştırma konusudur.
Ses efektleri: son teknoloji ile karşılaştırma
- Motorun tıkırtı sesi ve yüksek devir sesi ile yüksek sesle öten kuş seslerini üreten model ile diğer modellerin karşılaştırması üzerinden ses kalitesi değerlendirilebilir.
- Seçilen prompt'lar büyük stereo hareketi gerektirmediğinden, sonuçlar görece uzamsal olmayan bir render ortaya koyar.
Otokodlayıcı: yeniden yapılandırma
- Ses sadakati yeteneğini değerlendirmek için orijinal kayıt ile otokodlayıcıdan geçirilmiş kayıt karşılaştırılır.
- Otokodlayıcı yeniden yapılandırması orijinale çok benzer ve neredeyse tamamen şeffaf düzeydedir.
GN⁺ görüşü
- Bu teknoloji, müzik ve ses efekti üretimi alanında önemli bir ilerlemeyi temsil ediyor; özellikle yüksek kaliteli stereo ses üretme kabiliyeti öne çıkıyor.
- En güncel modellerle yapılan karşılaştırmalar sayesinde bu modelin üstün ses kalitesi nesnel biçimde değerlendirilebildiğinden, ses içeriği üreticileri için faydalı bir araç olması bekleniyor.
- Otokodlayıcı üzerinden yapılan yeniden yapılandırma karşılaştırması, bu teknolojinin orijinal sesi çok yüksek doğrulukla geri üretebildiğini göstererek ses kalitesine duyarlı uygulamalarda kullanım potansiyeline işaret ediyor.
1 yorum
Hacker News görüşü
Ed Newton-Rex, telif hakkı ve eğitim verileriyle ilgili endişeler nedeniyle Stable Audio’nun yayımlanmasının hemen ardından istifa etti.
90’lar ve Internet Explorer dönemi yeniden yaşanıyor gibi, ancak bu kez baskın tarayıcının açık kaynak olması olumlu.
Stable Diffusion’da olduğu gibi, metin istemleri faydalı çıktı almanın en zor kontrol edilebilen yolu olacak gibi görünüyor.
Stable Audio, mevcut SOTA müzik modellerine (MusicGen, MusicLM) kıyasla çok üstün.
Yapay zekanın yüksek kaliteli ses kütüphaneleri üzerinde eğitilmesi ve ardından MIDI aracılığıyla bu kütüphanedeki sesleri tetiklemesi aşamasına hâlâ ihtiyaç var.
Bir davulcu olarak, “drum solo” sıkıcı ve tuhaf seslerin karıştığı bir şey; henüz gerçekçi ses efektleri seviyesinde değil.
Kod ve eğitim talimatları yayımlandı, ancak model yayımlanmadı.
“yüksek kaliteli, stereo” istemini eklemenin genelde yardımcı olduğunun fark edilmesi ilginç.
Ses efekti üretimi fikri kısa süreliğine ilgi çekiciydi, ancak “ayak sesi” çok kötü.
“enerjik müzik, keman, vokal, orkestra, piyano, minimalizm, John Adams, Nixon in China” istemiyle çok özgün ve ilgi çekici müzik üretilebiliyor.