Nvidia, esnek yapay zeka ses üretim modeli Fugatto'yu tanıttı
(blogs.nvidia.com)- Metin kullanarak ses çıktısını kontrol edebilen ses üretici yapay zeka modeli
Fugatto- Müzik üretimi, ses tonunu veya duygusunu değiştirme, mevcut müziğe enstrüman ekleme/çıkarma gibi çeşitli görevleri gerçekleştirebiliyor
- Daha önce hiç duyulmamış tamamen yeni sesler de üretebiliyor
- Fugatto, müzik, konuşma ve ortam seslerini metin veya ses dosyası olarak girdi alıp üretebiliyor ya da dönüştürebiliyor
- İnsan gibi sesi anlayıp üretmek üzere tasarlandı
-
"Denetimsiz (Unsupervised) çok görevli öğrenme sayesinde veri ve model ölçeğinde yeni potansiyeli ortaya çıkarıyor"
Çeşitli kullanım senaryoları
- Müzik prodüksiyonu: Şarkının stilini, vokalini ve enstrümanlarını anında deneyip değiştirme
- Reklam: Bölgeye ve duruma göre sesi özelleştirerek kampanyaları optimize etme
- Dil öğrenimi: Kullanıcının seçtiği sesle kişiselleştirilmiş öğrenme içeriği sunma
- Oyun geliştirme: Oyun durumuna göre ses varlıklarını dönüştürme veya yeniden üretme
- Yeni sesler yaratma: Görsel üretim yapay zekasındaki "avokado sandalye" gibi
- Örneğin, trompetin köpek gibi havladığı (
bark) ya da saksafonun kedi gibi miyavladığı (meow) sesler üretilebiliyor - İnce ayar ve az miktarda şarkı verisiyle, metin istemlerinden yüksek kaliteli şarkı vokalleri üretmek gibi önceden eğitilmemiş görevleri de yerine getirebiliyor
- Örneğin, trompetin köpek gibi havladığı (
Kullanıcıya Artistic Control (sanatsal kontrol) sağlıyor
- Kullanıcı odaklı kontrol özellikleri
- ComposableART teknolojisiyle birden fazla talimatı birleştirme
- Metin talimatlarında ayrıntılı ayar yapabilme: örneğin Fransız aksanını hüzünlü bir duyguyla birleştirme
- Zamansal interpolasyonla sesin evrimini kontrol etme: örneğin gök gürültüsünün giderek kaybolduğu yağmurlu bir manzara üretme
- Kullanıcıya benzeri görülmemiş bir ses yaratım özgürlüğü sunuyor
Teknik özellikler
- NVIDIA DGX sistemleri ve H100 GPU kullanılarak 250 milyon parametreyle eğitilmiş üretici yapay zeka modeli
- Çok uluslu araştırma ekibinin iş birliğiyle çok dilli ve aksan destekleri güçlendirildi
- Milyonlarca ses örneğiyle eğitim veri seti oluşturuldu
- Veriler arasındaki ilişkiler yeniden analiz edilerek performans artırıldı
- Eğitim verisini toplamak ve modeli ölçeklendirmek 1 yıldan fazla sürdü
- İlk metin istemiyle müzik üretmeyi başardıklarında büyük şaşkınlık yaşadılar; elektronik müzik ile köpek havlamasını birleştiren demoda kahkahalara neden olurken gelecekteki olasılıkları da gösterdi
Henüz yorum yok.