3 puan yazan xguru 2024-11-27 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Metin kullanarak ses çıktısını kontrol edebilen ses üretici yapay zeka modeli Fugatto
    • Müzik üretimi, ses tonunu veya duygusunu değiştirme, mevcut müziğe enstrüman ekleme/çıkarma gibi çeşitli görevleri gerçekleştirebiliyor
    • Daha önce hiç duyulmamış tamamen yeni sesler de üretebiliyor
  • Fugatto, müzik, konuşma ve ortam seslerini metin veya ses dosyası olarak girdi alıp üretebiliyor ya da dönüştürebiliyor
    • İnsan gibi sesi anlayıp üretmek üzere tasarlandı
    • "Denetimsiz (Unsupervised) çok görevli öğrenme sayesinde veri ve model ölçeğinde yeni potansiyeli ortaya çıkarıyor"

Çeşitli kullanım senaryoları

  • Müzik prodüksiyonu: Şarkının stilini, vokalini ve enstrümanlarını anında deneyip değiştirme
  • Reklam: Bölgeye ve duruma göre sesi özelleştirerek kampanyaları optimize etme
  • Dil öğrenimi: Kullanıcının seçtiği sesle kişiselleştirilmiş öğrenme içeriği sunma
  • Oyun geliştirme: Oyun durumuna göre ses varlıklarını dönüştürme veya yeniden üretme
  • Yeni sesler yaratma: Görsel üretim yapay zekasındaki "avokado sandalye" gibi
    • Örneğin, trompetin köpek gibi havladığı (bark) ya da saksafonun kedi gibi miyavladığı (meow) sesler üretilebiliyor
    • İnce ayar ve az miktarda şarkı verisiyle, metin istemlerinden yüksek kaliteli şarkı vokalleri üretmek gibi önceden eğitilmemiş görevleri de yerine getirebiliyor

Kullanıcıya Artistic Control (sanatsal kontrol) sağlıyor

  • Kullanıcı odaklı kontrol özellikleri
    • ComposableART teknolojisiyle birden fazla talimatı birleştirme
    • Metin talimatlarında ayrıntılı ayar yapabilme: örneğin Fransız aksanını hüzünlü bir duyguyla birleştirme
    • Zamansal interpolasyonla sesin evrimini kontrol etme: örneğin gök gürültüsünün giderek kaybolduğu yağmurlu bir manzara üretme
  • Kullanıcıya benzeri görülmemiş bir ses yaratım özgürlüğü sunuyor

Teknik özellikler

  • NVIDIA DGX sistemleri ve H100 GPU kullanılarak 250 milyon parametreyle eğitilmiş üretici yapay zeka modeli
  • Çok uluslu araştırma ekibinin iş birliğiyle çok dilli ve aksan destekleri güçlendirildi
  • Milyonlarca ses örneğiyle eğitim veri seti oluşturuldu
    • Veriler arasındaki ilişkiler yeniden analiz edilerek performans artırıldı
  • Eğitim verisini toplamak ve modeli ölçeklendirmek 1 yıldan fazla sürdü
  • İlk metin istemiyle müzik üretmeyi başardıklarında büyük şaşkınlık yaşadılar; elektronik müzik ile köpek havlamasını birleştiren demoda kahkahalara neden olurken gelecekteki olasılıkları da gösterdi

Henüz yorum yok.

Henüz yorum yok.