Stable Audio 2.0
(stability.ai)- Stable Audio 2.0, yapay zekanın ürettiği yüksek kaliteli tam parçalar için 44.1kHz stereo ve 3 dakikaya kadar uzunluk sunarak yeni bir standart ortaya koyuyor
- Kullanıcıların örnek yükleyip doğal dil istemleriyle dönüştürebildiği audio-to-audio üretim özelliğini tanıtıyor
- Yalnızca AudioSparx müzik kütüphanesinden lisanslanan veri setiyle eğitildi; üreticilerin "opt-out" taleplerine saygı duyuyor ve adil ücretlendirmeyi garanti ediyor
- Modeli Stable Audio web sitesinde keşfedebilir ve ücretsiz olarak üretmeye başlayabilirsiniz
Yeni özellikler
- 3 dakikaya kadar parça üretebilir; intro, gelişim ve outro içeren yapılandırılmış besteler ile stereo ses efektleri sunar
- Audio-To-Audio üretimi : Ses dosyası yüklemeyi destekleyerek fikirleri tamamen üretilmiş örneklere dönüştürmeyi sağlar. Hizmet şartları, yalnızca telif hakkı içermeyen materyal yüklenmesini zorunlu kılar ve telif ihlalini önlemek için gelişmiş içerik tanıma kullanılır
- Varyasyon ve ses efekti üretimi : Klavye yazma sesinden kalabalık tezahüratına, şehir sokaklarının uğultusuna kadar çeşitli ses ve audio efektlerinin üretimini güçlendirir
- Stil dönüşümü : Üretim süreci içinde yeni oluşturulan veya yüklenen sesi sorunsuz biçimde değiştirerek projenin belirli stil ve tonuna uyarlar
Araştırma
- Stable Audio 2.0'ın latent diffusion model mimarisi, yapılandırılmış tam parça üretimini mümkün kılacak şekilde tasarlandı
- Bunun için sistemin tüm bileşenleri, uzun süreli performans iyileştirmesi amacıyla ayarlandı
- Yeni ve yüksek düzeyde sıkıştırılmış autoencoder, ham ses dalga biçimini çok daha kısa bir temsile sıkıştırır
- Diffusion Transformer (DiT), önceki U-Net'in yerine kullanılıyor ve uzun diziler boyunca veriyi işleme konusunda daha yetenekli
Koruma önlemleri
- 1.0 modeli gibi 2.0 da, 800.000'den fazla müzik, ses efekti, tek enstrüman stem dosyası ve bunlara ait metin meta verisini içeren AudioSparx verileriyle eğitildi
- AudioSparx'taki tüm sanatçılar, Stable Audio model eğitiminin dışında kalmak için "opt-out" seçeneğine sahip
- Hak sahiplerinin haklarını korumak için ses yüklemelerinde AudibleMagic ile ortaklık yapılıyor; telif ihlalini önlemek amacıyla içerik tanıma (ACR) teknolojisi ve gerçek zamanlı içerik eşleştirme kullanılıyor
Stable Radio
-
Stable Radio, yalnızca Stable Audio tarafından üretilen parçalardan oluşan 24/7 canlı yayın akışıdır ve Stable Audio YouTube kanalında yayınlanmaktadır
-
Modeli Stable Audio web sitesinde keşfedebilir ve ücretsiz olarak üretmeye başlayabilirsiniz.
GN⁺ görüşü
- Stable Audio 2.0, müzik üreticilerine yapay zeka destekli yaratım araçları sunarak müzik endüstrisinde dönüşüm yaratma potansiyeline sahip. Doğal dil işleme yoluyla kullanıcının niyetini anlayıp bunu müziğe dönüştürmesi, yaratım sürecini sadeleştirirken daha fazla insanın müzik üretimine katılmasına imkan tanıyor.
- Bu teknolojinin doğurabileceği sorunlardan biri telif hakkı meselesi. Şirket telif ihlalini önlemek için önlemler aldığını belirtse de yapay zeka tarafından üretilen içeriğin telif sahipliğiyle ilgili hukuki meseleler hâlâ karmaşık.
- Müzik üretiminde yapay zekanın kullanımında dikkate alınması gereken noktalardan biri, yapay zekanın ürettiği müziğin özgünlüğü ve sanatsallığına dair algı. Yapay zekanın insan yaratıcılığını taklit edip edemeyeceği ya da onun yerini alıp alamayacağı ve bunun müzik endüstrisini nasıl etkileyeceği üzerine tartışmalar gerekli.
- Yapay zeka müzik üretim araçlarının sağlayabileceği avantajlar arasında üretim süresinin kısalması, farklı müzik stilleri ve türlerinde deney yapabilme ve üreticilerin müzik teorisi ya da enstrüman çalma konusunda derin bilgiye sahip olmadan da müzik oluşturabilmesi yer alıyor.
- Bu teknolojinin müzik eğitimine olumlu etkisi düşünüldüğünde, müzik teorisi öğrenen öğrencilerin farklı müzik stilleri ve yapılarını keşfetmesine ve anlamasına yardımcı olabilir.
1 yorum
Hacker News görüşleri