1 puan yazan GN⁺ 2024-02-14 | 1 yorum | WhatsApp'ta paylaş
  • Stable Audio demosu, tek bir modelin 44.1kHz stereo olarak hem uzun biçimli müzik hem de ses efektleri ürettiğini ses örnekleriyle gösteriyor
  • Müzik üretimi; Berlin techno, uplifting acoustic loop, disco, spa lobby meditation, drum solo gibi örneklerle yalnızca prompt kullanarak farklı türler ve atmosferler oluşturulmasına odaklanıyor
  • Ses efektleri; door slam, sports car, motorbike, fireworks, cave footsteps gibi örnekleri kapsıyor ve promptlarda “high-quality, stereo” gibi ifadeler de birlikte kullanılıyor
  • Karşılaştırma örnekleri, MusicCaps ve AudioCaps promptlarını temel alarak MusicGen-large, MusicGen-stereo, AudioLDM2 ve Audiogen-medium sonuçlarını yan yana dinlenebilecek şekilde sunuyor
  • Autoencoder yeniden yapılandırma örnekleri, özgün kayıt ile işlendikten sonraki sonucu karşılaştırarak ses sadakatinin kontrol edilmesini sağlıyor

Stable Audio demosu ve üretim örnekleri

  • Demo sitesi Safari'de düzgün çalışmayabilir; en iyi deneyim için Google Chrome kullanılması öneriliyor
  • İlgili kaynaklar olarak arXiv, stable-audio-tools, stable-audio-metrics sunuluyor
    • arXiv: Stable Audio makalesi
    • stable-audio-tools: Stable Audio'yu yeniden üretmek için kod
    • stable-audio-metrics: Stable Audio'yu değerlendirmek için kod
  • Model, değişken uzunlukta uzun biçimli stereo müzik üretebiliyor ve bunu 44.1kHz'de yapıyor
    • Örnek promptlar arasında Berlin techno, uplifting acoustic loop, disco, calm meditation music ve drum solo yer alıyor
    • Bazı promptlarda BPM, enstrüman, atmosfer, bölgesel stil ve loop olup olmadığı da birlikte belirtiliyor
  • Aynı model, stereo ses efektlerini de 44.1kHz'de üretiyor
    • Örnek promptlar arasında door slam, sports car passing by, motorbike passing by, fireworks ve reverberant footsteps inside a large rocky cave bulunuyor
    • Ses efekti promptlarına “high-quality, stereo” ifadesinin eklendiği ve bunun genel olarak faydalı olduğu belirtiliyor

Model karşılaştırmaları ve autoencoder yeniden yapılandırması

  • Uzun biçimli müzik karşılaştırması MusicCaps promptları temel alınarak hazırlanmış
    • Stable Audio: stereo, 44.1kHz
    • MusicGen-large: mono, 32kHz
    • MusicGen-stereo: stereo, 32kHz
    • AudioLDM2: mono, 48kHz
    • Karşılaştırmada kullanılan promptlar ve sesler, makalede raporlanan niteliksel çalışmada kullanılmış
  • Ses efekti karşılaştırması AudioCaps promptlarını kullanıyor
    • Stable Audio: stereo, 44.1kHz
    • Audiogen-medium: mono, 32kHz
    • AudioLDM2: mono, 48kHz
    • Rastgele seçilen AudioCaps promptları büyük stereo hareket gerektirmediğinden, sonuçlar nispeten mekânsal olmayan şekilde render ediliyor
  • Autoencoder bölümü, ses sadakatini değerlendirmek için yeniden yapılandırma karşılaştırmaları sunuyor
    • Solda ground truth kayıt, sağda ise ground truth kaydın autoencoder'dan geçirilmiş sonucu yer alıyor
    • Yeniden yapılandırma sonuçları oldukça şeffaf ve ground truth'a çok yakın bir düzeyde

1 yorum

 
GN⁺ 2024-02-14
Hacker News yorumları
  • İlginçtir, Stable Audioyu yapmak için işe alınan Ed Newton-Rex, lansmandan hemen sonra telif hakkı ve eğitim verisi sorunları konusundaki endişeleri nedeniyle ayrılmıştı
    Ardından https://www.fairlytrained.org/ girişimini kurdu
    Not: https://x.com/ednewtonrex

    • Üretici modellerde üretici model mimarisini açıklamıyorsa ve metni başka bir ortama dönüştüren bir model söz konusuysa, açık lisansı olmayan verilerle eğitilmiş bir metin kodlayıcıya veya benzer bir işleve kısmen görev devrettiği varsayılabilir
      Görüntü ya da ses parçaları gibi on milyonlarca-yüz milyonlarca kütüphane öğesine sahip hak sahipleri için bile, büyük depolardaki 1 milyardan az metin token’ı tek başına metinden hedef ortama üretim yapan bir modelin kodlayıcı performansı için fazla yetersiz kalır. Adobe’nin Firefly’ı da buna dahil
      Bu tür kütüphanelerde benzer verinin çok olmasının özellikle yararlı olduğu da bir yanlış anlama. Güçlü bir metin kodlayıcı olmadan, metinden hedef ortama modellerin çoğu çok ortalama görünen ya da duyulan sonuçlar üretir
      Bu şüpheyi gidermenin en basit yolu model mimarisini açıklamaktır
      Her hâlükârda bunların hepsi doğru olsa bile, difüzyon modellerinden söz etmemizin ve Fairly Trained adlı çalışmaya dikkat etmemizin nedeni zaten birilerinin açık lisansı olmayan verilerle eğitim yapmış olması
    • Ona “Stable Audio’yu yapmak için işe alınan kişi” demek biraz yanıltıcı. Stability’nin ses grubunda ürün VP’si olan bir yönetici pozisyonundaydı
      Önemli bir pozisyon, ama “yapmak için işe alınan kişi” denince insanın aklına baş geliştirici ya da araştırmacı geliyor
      Müzik geçmişi olan bir kurucu olduğu düşünülürse ayrılması da daha anlaşılır oluyor
    • İlginç bir yorum, ama Stability’ye katıldığında Stable Diffusion’ın eğitim yöntemi zaten iyi biliniyordu; bu yüzden oldukça tuhaf bir pozisyon da sayılır
    • Şirketin zaten yapacağı bir şey olsa bile, o şirkette çalışmadan önce bunu düşünemez miydi diye insan merak ediyor
      Ya da belki de bu, kendi sertifikasyon iş modeli için gerekli bir süreçti
    • Şirketlerin modelleri eğitirken karşılaştığı telif hakkı bariyerlerine bir çözüm olmalı
      Bunu, bir sanatçının hayatı boyunca dinlediği müziklerden etkilenerek müzik yapmasından farklı görmüyorum. Temelde tamamen aynı şey ve müzik ya da sanat vakumda üretilemez
  • Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.
    90’lardaki Internet Explorer dönemine tam tur geri dönmüşüz gibi. Bu kez baskın tarayıcının açık kaynak olması en azından bir fark
    Biri Chrome için üzerinde “Best viewed with Google Chrome” yazan hareketli GIF düğmesi yapsa iyi olurdu

  • Stable Diffusion’da olduğu gibi, bu modelde de metin prompt’u muhtemelen yararlı çıktı elde etmenin kontrolü en zor yolu olacaktır
    MIDI’nin ControlNet ile birlikte girdi olarak kullanılıp bunun fiilen bir sinir ağı synthesizer’ına dönüştüğünü hayal etmek kolay

    • Evet. 2 yıl önce AI melodi projesi (https://www.melodies.ai/) üzerinde çalıştığım dönemden beri, yalnızca metinle yüksek kaliteli tamamlanmış parçalar üretmenin bir süre ne mümkün ne de arzu edilir olacağını düşünüyordum
      Bunun yerine, müzik üretiminin çeşitli aşamalarında sanatçının sürecini destekleyecek şekilde AI kullanmaya odaklanmak daha iyi
    • Müzikte böyle olabilir. Ama ses efektleri için metin prompt’unun oldukça iyi bir kullanıcı arayüzü olduğunu düşünüyorum
    • Bir melodinin mırıldanıldığı ya da söylendiği bir ses kaydıyla metin prompt’unu birlikte girdi olarak verip, ona benzeyen bir parça çıktısı almak ideal olurdu gibi geliyor
    • Çok fazla kontrole ihtiyaç olmadığında iyi çalışıyor. Örneğin “tenor saksafoncudan free jazz solosu, ölçü işareti yok” gibi bir prompt
    • Stable Diffusion’da metin prompt’u dışında hangi girdiler var? img2img, ControlNet gibi şeyleri mi kastediyorsun?
  • En yeni müzik modelleri MusicGen ve MusicLM ile karşılaştırınca bu inanılmaz derecede iyi. Midjourney gibi abonelikle kullanılabilen bir ürün sayfası da var gibi: https://www.stableaudio.com/
    Ne yazık ki ağırlıkları açık bir model değil ve API’si de yok gibi görünüyor. Aylık abonelikle arayüzden ses üretme biçiminde; geliştiricilerin entegre edebileceği ya da sarmalayabileceği bir şey değil

    • Üzerinde çalıştığım oyunda kullanmak için ses efektleri yapmak istiyordum, ama görünüşe göre kurumsal lisans gerekiyormuş (https://www.stableaudio.com/pricing)
      Neden doğrudan “aylık aktif kullanıcısı 100 binden az ticari ürünler” maddesine dahil olmayıp ayrı bir madde olduğunu merak ediyorum
    • Yakında CC lisanslı sürüm ve API çıkacağı söyleniyor
      Model gelişim hızı çok yüksek; müzik tarafında oldukça büyük bir yıl olacak gibi
    • Neyse ki evde de eğitim yapılabiliyor. Daha büyük soru veri
  • Yapay zekanın önce yüksek kaliteli bir ses kütüphanesinin nasıl tınladığını öğrenmesi, ardından öğrendiği yeteneği MIDI ile o kütüphanedeki sesleri tetiklemeye uygulaması aşamasının hâlâ gerekli olduğunu düşünüyorum.
    Böylece müzik yapay zekasının yaratıcılığıyla kusursuz ses kalitesi birlikte elde edilebilir.

    • Görüntü üreten yapay zekada da hep böyle bir şey istemişimdir. Tamamlanmış bir görüntünün sihirli biçimde tekrar tekrar iyileştirilmesindense, yapay zekanın fırça darbeleriyle resim çizmeye ya da renklendirmeye çalıştığını görmek çok daha havalı ve ilginç olurdu.
      Bunun için hangi veri kümesi ya da yapının uygulanabileceğini bilmiyorum ama gerçekten ilginç olurdu.
    • MIDI ile örneğin kabaca çalınan bir gitarı ya da banyo kaydında oluşan ince yankıyı nasıl elde edebilirsiniz?
    • suno.ai’nin yaptığı şey bu değil mi?
  • Buradaki ilerlemeyi küçümsemek istemiyorum; etkileyici.
    Bir davulcu olarak “davul solosu” en sıkıcı şeylerden biri ve içinde tuhaf sesler var. Sonuçta hedeflenen dinleyici kitlesine bağlı olacak gibi.
    Bu arada, şu an itibarıyla efekt sesleri de kulağıma gerçekçi gelmiyor.
    Yine de ilerleme büyük ve iyi iş çıkarılmış.

    • Bir davulcu olarak, sabit bir 4/4 ölçü üzerinde olan biten diye düşününce o “davul solosu” şaşırtıcı biçimde dinlemesi ilginçti.
      Rastgele gibi ama tamamen rastgele olmayan özelliği sayesinde epey alışılmadık ritim kalıpları ortaya çıkıyor. Keşke doğaçlama çalarken böyle senkoplar ekleyebilsem.
      Benden notaya dökmemi istemeyin.
      Tempo tutarlılığı mükemmel. Ancak gereksiz gürültü ve rastgele zil uzamaları modelin sınırlarını gösteriyor.
    • Etkileyici bir deneme olsa da, gerçekten kullanılabilir müzik ya da sesler üretmekten hâlâ çok uzak.
      Zaten çok daha iyi tınlayan milyonlarca stok müzik parçası ve efekt sesi var. Onlarla rekabet etmek için üretken yapay zekaya devasa yatırım gerekir; metin ya da görüntüden farklı olarak bunun ekonomik açıdan mantıklı göründüğünü sanmıyorum.
    • Müzik örneklerinde geçiş bölümleri olmaması beni daha da hayal kırıklığına uğrattı. Çoğu parçada ton değişimi ya da perküsyon geçişi olur.
    • Davul solosu, bu modelin davul solosunun özünü ne kadar kaçırdığını iyi gösteriyor. Davulcu değilim ama dinlemesi hiç keyifli değil.
      Kabaca tempoya uyarak rastgele davul çalan biri gibi duyuluyor.
      Öte yandan asansör müziği gibi şeyleri fena yapmıyor; bu da beklentiyle örtüşüyor.
  • Kodu ve eğitim için anlaşılır yönergeleri yayımlayıp modeli yayımlamamaları ilginç.
    Neredeyse anonim kişilere veri yükleyiciyi Apple Music hesaplarına bağlayıp istedikleri gibi çalıştırmaları için yalvarıyorlar gibi. Elbette kimse bunu yapmalarını önermiyor.

    • Tahminimce, AudioSparx’ın lisanslı stok ses kütüphanesini eğitim için kullanabilmelerinin koşulları arasında ortaya çıkan modeli yeniden dağıtmama maddesi olabilir.
  • Efekt sesi üretme fikri beni kısa süreliğine heyecanlandırmıştı ama şu “ayak sesleri” inanılmayacak kadar kötü.

    • stableaudio.com’da müzik üretmeyi denedim; evet, kötü. Yine de bu tür modellerin gelişim hızı çok yüksek olduğundan 1-2 yıl içinde şaşırtıcı derecede iyi hâle gelirse şaşırmam.
  • Açık ağırlıkların olmadığı doğru mu? Hangisi olduğunu söyleyen bir bilgi bulmak zor.
    Düzenleme: Ah, bunun tartışmalı bir yorum olacağını bilmiyordum. Eksi oy vermeden önce soruya yanıt verseniz iyi olurdu ama neyse.

  • “Efekt sesi prompt’larında genellikle yardımcı olduğu için ‘high-quality, stereo’ ekliyoruz.”
    LLM’e sadece daha iyi sonuç üretmesini kibarca söylerseniz çıktının iyileştiğini keşfetmiş olmaları komik.

    • Bazen eski bir kaset sesi ya da daha da eski, çizik bir 78rpm plak sesi isteyebilirsiniz.
      Bilgisayar, her zamanki gibi, bizim niyet ettiğimiz şeyi değil istediğimiz şeyi yapar.