1 puan yazan GN⁺ 2024-02-14 | 1 yorum | WhatsApp'ta paylaş

Bilgilendirme

  • Bu web sitesi Safari'de düzgün çalışmayabilir; en iyi deneyim için Google Chrome kullanılması önerilir.

Kararlı ses üretimi

  • Model, 44.1kHz stereo müziği farklı uzunluklarda üretebilir; örnekler arasında Berlin techno, rave, davul makinesi, synthesizer ve karanlık atmosfere sahip müzikler yer alır.
  • Önceki son teknoloji modellere kıyasla bu model, 44.1kHz stereo ses efektleri de üretebilir; örnekler arasında kapanan kapı sesi, yanınızdan geçen spor araba veya motosiklet sesi, havai fişekler ve mağara içindeki ayak sesleri bulunur.
  • Bu web sitesindeki tüm örnekler, hem müzik hem de ses efektlerini 44.1kHz stereo olarak üretebilen aynı modelle oluşturulmuştur.

Stereo müzikte uzun üretim: son teknoloji ile karşılaştırma

  • Mandolin performansı ile ıslık, gitar ve flütün birleştiği müziği üreten model ile diğer modellerin karşılaştırması üzerinden ses kalitesi değerlendirilebilir.
  • Piyano melodisi, snare roll, kick pattern, hi-hat, alkış sesi ve synthesizer lead melodisinin birleştiği ticari müzik üretimi de karşılaştırma konusudur.

Ses efektleri: son teknoloji ile karşılaştırma

  • Motorun tıkırtı sesi ve yüksek devir sesi ile yüksek sesle öten kuş seslerini üreten model ile diğer modellerin karşılaştırması üzerinden ses kalitesi değerlendirilebilir.
  • Seçilen prompt'lar büyük stereo hareketi gerektirmediğinden, sonuçlar görece uzamsal olmayan bir render ortaya koyar.

Otokodlayıcı: yeniden yapılandırma

  • Ses sadakati yeteneğini değerlendirmek için orijinal kayıt ile otokodlayıcıdan geçirilmiş kayıt karşılaştırılır.
  • Otokodlayıcı yeniden yapılandırması orijinale çok benzer ve neredeyse tamamen şeffaf düzeydedir.

GN⁺ görüşü

  • Bu teknoloji, müzik ve ses efekti üretimi alanında önemli bir ilerlemeyi temsil ediyor; özellikle yüksek kaliteli stereo ses üretme kabiliyeti öne çıkıyor.
  • En güncel modellerle yapılan karşılaştırmalar sayesinde bu modelin üstün ses kalitesi nesnel biçimde değerlendirilebildiğinden, ses içeriği üreticileri için faydalı bir araç olması bekleniyor.
  • Otokodlayıcı üzerinden yapılan yeniden yapılandırma karşılaştırması, bu teknolojinin orijinal sesi çok yüksek doğrulukla geri üretebildiğini göstererek ses kalitesine duyarlı uygulamalarda kullanım potansiyeline işaret ediyor.

1 yorum

 
GN⁺ 2024-02-14
Hacker News görüşü
  • Ed Newton-Rex, telif hakkı ve eğitim verileriyle ilgili endişeler nedeniyle Stable Audio’nun yayımlanmasının hemen ardından istifa etti.

    Safari’de web sitesi düzgün çalışmayabilir. En iyi deneyim için Google Chrome kullanılması önerilir.

  • 90’lar ve Internet Explorer dönemi yeniden yaşanıyor gibi, ancak bu kez baskın tarayıcının açık kaynak olması olumlu.

    • Birinden, en iyi seçeneğin yalnızca Chrome’da görüntülemek olduğunu söyleyen animasyonlu bir GIF düğmesi yapmasını istemiş.
  • Stable Diffusion’da olduğu gibi, metin istemleri faydalı çıktı almanın en zor kontrol edilebilen yolu olacak gibi görünüyor.

    • MIDI’yi girdi olarak kullanıp bir sinir ağı sentezleyicisi elde edilebileceği öngörülüyor.
  • Stable Audio, mevcut SOTA müzik modellerine (MusicGen, MusicLM) kıyasla çok üstün.

    • Stable Audio ürün sayfasından abonelikle kullanılabiliyor, ancak geliştiricilerin entegre edebileceği veya yararlanabileceği bir API sunulmuyor.
  • Yapay zekanın yüksek kaliteli ses kütüphaneleri üzerinde eğitilmesi ve ardından MIDI aracılığıyla bu kütüphanedeki sesleri tetiklemesi aşamasına hâlâ ihtiyaç var.

    • Böylece ses kalitesi kusursuz olurken müzik yapay zekasının yaratıcılığı korunabilir.
  • Bir davulcu olarak, “drum solo” sıkıcı ve tuhaf seslerin karıştığı bir şey; henüz gerçekçi ses efektleri seviyesinde değil.

    • Yine de kaydedilen ilerleme çok büyük ve etkileyici.
  • Kod ve eğitim talimatları yayımlandı, ancak model yayımlanmadı.

    • Bu, fiilen anonim kullanıcıları veri yükleyicilerini Apple Music hesaplarına bağlayarak deney yapmaya teşvik etmek gibi.
  • “yüksek kaliteli, stereo” istemini eklemenin genelde yardımcı olduğunun fark edilmesi ilginç.

    • LLM’lerde daha iyi sonuçların sadece daha iyisini isteyerek elde edilebilmesi dikkat çekici.
  • Ses efekti üretimi fikri kısa süreliğine ilgi çekiciydi, ancak “ayak sesi” çok kötü.

  • “enerjik müzik, keman, vokal, orkestra, piyano, minimalizm, John Adams, Nixon in China” istemiyle çok özgün ve ilgi çekici müzik üretilebiliyor.