Stable Audio 2.0

(stability.ai)

7 puan yazan GN⁺ 2024-04-06 | 1 yorum | WhatsApp'ta paylaş

Stable Audio 2.0, yapay zekanın ürettiği yüksek kaliteli tam parçalar için 44.1kHz stereo ve 3 dakikaya kadar uzunluk sunarak yeni bir standart ortaya koyuyor
Kullanıcıların örnek yükleyip doğal dil istemleriyle dönüştürebildiği audio-to-audio üretim özelliğini tanıtıyor
Yalnızca AudioSparx müzik kütüphanesinden lisanslanan veri setiyle eğitildi; üreticilerin "opt-out" taleplerine saygı duyuyor ve adil ücretlendirmeyi garanti ediyor
Modeli Stable Audio web sitesinde keşfedebilir ve ücretsiz olarak üretmeye başlayabilirsiniz

Yeni özellikler

3 dakikaya kadar parça üretebilir; intro, gelişim ve outro içeren yapılandırılmış besteler ile stereo ses efektleri sunar
Audio-To-Audio üretimi : Ses dosyası yüklemeyi destekleyerek fikirleri tamamen üretilmiş örneklere dönüştürmeyi sağlar. Hizmet şartları, yalnızca telif hakkı içermeyen materyal yüklenmesini zorunlu kılar ve telif ihlalini önlemek için gelişmiş içerik tanıma kullanılır
Varyasyon ve ses efekti üretimi : Klavye yazma sesinden kalabalık tezahüratına, şehir sokaklarının uğultusuna kadar çeşitli ses ve audio efektlerinin üretimini güçlendirir
Stil dönüşümü : Üretim süreci içinde yeni oluşturulan veya yüklenen sesi sorunsuz biçimde değiştirerek projenin belirli stil ve tonuna uyarlar

Stable Audio 2.0'ın latent diffusion model mimarisi, yapılandırılmış tam parça üretimini mümkün kılacak şekilde tasarlandı
Bunun için sistemin tüm bileşenleri, uzun süreli performans iyileştirmesi amacıyla ayarlandı
Yeni ve yüksek düzeyde sıkıştırılmış autoencoder, ham ses dalga biçimini çok daha kısa bir temsile sıkıştırır
Diffusion Transformer (DiT), önceki U-Net'in yerine kullanılıyor ve uzun diziler boyunca veriyi işleme konusunda daha yetenekli

1.0 modeli gibi 2.0 da, 800.000'den fazla müzik, ses efekti, tek enstrüman stem dosyası ve bunlara ait metin meta verisini içeren AudioSparx verileriyle eğitildi
AudioSparx'taki tüm sanatçılar, Stable Audio model eğitiminin dışında kalmak için "opt-out" seçeneğine sahip
Hak sahiplerinin haklarını korumak için ses yüklemelerinde AudibleMagic ile ortaklık yapılıyor; telif ihlalini önlemek amacıyla içerik tanıma (ACR) teknolojisi ve gerçek zamanlı içerik eşleştirme kullanılıyor

Stable Radio, yalnızca Stable Audio tarafından üretilen parçalardan oluşan 24/7 canlı yayın akışıdır ve Stable Audio YouTube kanalında yayınlanmaktadır
Modeli Stable Audio web sitesinde keşfedebilir ve ücretsiz olarak üretmeye başlayabilirsiniz.

Stable Audio 2.0, müzik üreticilerine yapay zeka destekli yaratım araçları sunarak müzik endüstrisinde dönüşüm yaratma potansiyeline sahip. Doğal dil işleme yoluyla kullanıcının niyetini anlayıp bunu müziğe dönüştürmesi, yaratım sürecini sadeleştirirken daha fazla insanın müzik üretimine katılmasına imkan tanıyor.
Bu teknolojinin doğurabileceği sorunlardan biri telif hakkı meselesi. Şirket telif ihlalini önlemek için önlemler aldığını belirtse de yapay zeka tarafından üretilen içeriğin telif sahipliğiyle ilgili hukuki meseleler hâlâ karmaşık.
Müzik üretiminde yapay zekanın kullanımında dikkate alınması gereken noktalardan biri, yapay zekanın ürettiği müziğin özgünlüğü ve sanatsallığına dair algı. Yapay zekanın insan yaratıcılığını taklit edip edemeyeceği ya da onun yerini alıp alamayacağı ve bunun müzik endüstrisini nasıl etkileyeceği üzerine tartışmalar gerekli.
Yapay zeka müzik üretim araçlarının sağlayabileceği avantajlar arasında üretim süresinin kısalması, farklı müzik stilleri ve türlerinde deney yapabilme ve üreticilerin müzik teorisi ya da enstrüman çalma konusunda derin bilgiye sahip olmadan da müzik oluşturabilmesi yer alıyor.
Bu teknolojinin müzik eğitimine olumlu etkisi düşünüldüğünde, müzik teorisi öğrenen öğrencilerin farklı müzik stilleri ve yapılarını keşfetmesine ve anlamasına yardımcı olabilir.

GN⁺ 2024-04-06

Etkileyici bir yapay zeka müziği, ancak insan yapımı müzikteki niyet ve duyguyu hissedemediğim için bir şeyler eksik gibi geliyor.
Yapay zekanın ürettiği seslerin telif hakkına dair bir açıklama yok; bu da çıktının sahipliği konusunda önemli bir sorun yaratıyor.
10 yıl önce yaptığım bir beat'i yapay zekaya verdim, sonuç sanki çamaşır makinesine bir stereo koymuşsunuz gibi geldi. Daha büyük bir veri seti gerekiyor gibi, ama abone olmayı düşünüyorum.
Stability AI'ın lisanslı veri setleri kullanarak üreticilere adil tazminat sağlaması iyi bir adım.
Teknik olarak etkileyici, ancak yapay zekanın ürettiği müzik sıradan. Modern bir elektronik müzisyen daha iyi işler çıkarabilir.
Stability AI'ın açık kaynak olmaması üzücü. Umarım OpenAI ile aynı yola girmez.
Yapay zeka ses örneklerini benzer şekilde yeniden oluşturmaya çalışıyor, ancak bu gerçek davul ve gitar performanslarından farklı. Yine de ilginç, ileride daha da geliştirilmiş sürümlerinin çıkmasını bekliyorum.
Kod yazarken dinlemek için iyi synthwave müziklerinden sıkılmıştım ve yeni bir şey arıyordum; yapay zeka sonsuz sayıda "yeterince iyi" çalma listesi üretebilir gibi görünüyor.
Yapay zeka ile ilginç bir şey üretmeyi başaramadım. Siteyi kullanmak zor.
Ses modelleri için ComfyUI tarzı bir arayüz olup olmadığını merak ediyorum.