Nvidia, esnek yapay zeka ses üretim modeli Fugatto'yu tanıttı

xguru · 2024-11-27T11:20:01+09:00

Metin kullanarak ses çıktısını kontrol edebilen ses üretici yapay zeka modeli Fugatto Müzik üretimi, ses tonunu veya duygusunu değiştirme, mevcut müziğe enstrüman ekleme/çıkarma gibi çeşitli görevleri gerçekleştirebiliyor Daha önce hiç duyulmamış tamamen yeni sesler de üretebiliyor Fugatto, müzik, konuşma ve ortam seslerini metin veya ses dosyası olarak girdi alıp üretebiliyor ya da dönüştürebiliyor İnsan gibi sesi anlayıp üretmek üzere tasarlandı "Denetimsiz (Unsupervised) çok görevli öğrenme sayesinde veri ve model ölçeğinde yeni potansiyeli ortaya çıkarıyor" Çeşitli kullanım senaryoları Müzik prodüksiyonu: Şarkının stilini, vokalini ve enstrümanlarını anında deneyip değiştirme Reklam: Bölgeye ve duruma göre sesi özelleştirerek kampanyaları optimize etme Dil öğrenimi: Kullanıcının seçtiği sesle kişiselleştirilmiş öğrenme içeriği sunma Oyun geliştirme: Oyun durumuna göre ses varlıklarını dönüştürme veya yeniden üretme Yeni sesler yaratma: Görsel üretim yapay zekasındaki "avokado sandalye" gibi Örneğin, trompetin köpek gibi havladığı (bark) ya da saksafonun kedi gibi miyavladığı (meow) sesler üretilebiliyor İnce ayar ve az miktarda şarkı verisiyle, metin istemlerinden yüksek kaliteli şarkı vokalleri üretmek gibi önceden eğitilmemiş görevleri de yerine getirebiliyor Kullanıcıya Artistic Control (sanatsal kontrol) sağlıyor Kullanıcı odaklı kontrol özellikleri ComposableART teknolojisiyle birden fazla talimatı birleştirme Metin talimatlarında ayrıntılı ayar yapabilme: örneğin Fransız aksanını hüzünlü bir duyguyla birleştirme Zamansal interpolasyonla sesin evrimini kontrol etme: örneğin gök gürültüsünün giderek kaybolduğu yağmurlu bir manzara üretme Kullanıcıya benzeri görülmemiş bir ses yaratım özgürlüğü sunuyor Teknik özellikler NVIDIA DGX sistemleri ve H100 GPU kullanılarak 250 milyon parametreyle eğitilmiş üretici yapay zeka modeli Çok uluslu araştırma ekibinin iş birliğiyle çok dilli ve aksan destekleri güçlendirildi Milyonlarca ses örneğiyle eğitim veri seti oluşturuldu Veriler arasındaki ilişkiler yeniden analiz edilerek performans artırıldı Eğitim verisini toplamak ve modeli ölçeklendirmek 1 yıldan fazla sürdü İlk metin istemiyle müzik üretmeyi başardıklarında büyük şaşkınlık yaşadılar; elektronik müzik ile köpek havlamasını birleştiren demoda kahkahalara neden olurken gelecekteki olasılıkları da gösterdi

(blogs.nvidia.com)

3 puan yazan xguru 2024-11-27 | Henüz yorum yok. | WhatsApp'ta paylaş

Metin kullanarak ses çıktısını kontrol edebilen ses üretici yapay zeka modeli Fugatto
- Müzik üretimi, ses tonunu veya duygusunu değiştirme, mevcut müziğe enstrüman ekleme/çıkarma gibi çeşitli görevleri gerçekleştirebiliyor
- Daha önce hiç duyulmamış tamamen yeni sesler de üretebiliyor
Fugatto, müzik, konuşma ve ortam seslerini metin veya ses dosyası olarak girdi alıp üretebiliyor ya da dönüştürebiliyor
- İnsan gibi sesi anlayıp üretmek üzere tasarlandı
- "Denetimsiz (Unsupervised) çok görevli öğrenme sayesinde veri ve model ölçeğinde yeni potansiyeli ortaya çıkarıyor"
Reklam

Çeşitli kullanım senaryoları

Müzik prodüksiyonu: Şarkının stilini, vokalini ve enstrümanlarını anında deneyip değiştirme
Reklam: Bölgeye ve duruma göre sesi özelleştirerek kampanyaları optimize etme
Dil öğrenimi: Kullanıcının seçtiği sesle kişiselleştirilmiş öğrenme içeriği sunma
Oyun geliştirme: Oyun durumuna göre ses varlıklarını dönüştürme veya yeniden üretme
Yeni sesler yaratma: Görsel üretim yapay zekasındaki "avokado sandalye" gibi
- Örneğin, trompetin köpek gibi havladığı (bark) ya da saksafonun kedi gibi miyavladığı (meow) sesler üretilebiliyor
- İnce ayar ve az miktarda şarkı verisiyle, metin istemlerinden yüksek kaliteli şarkı vokalleri üretmek gibi önceden eğitilmemiş görevleri de yerine getirebiliyor

Kullanıcıya Artistic Control (sanatsal kontrol) sağlıyor

Kullanıcı odaklı kontrol özellikleri
- ComposableART teknolojisiyle birden fazla talimatı birleştirme
- Metin talimatlarında ayrıntılı ayar yapabilme: örneğin Fransız aksanını hüzünlü bir duyguyla birleştirme
- Zamansal interpolasyonla sesin evrimini kontrol etme: örneğin gök gürültüsünün giderek kaybolduğu yağmurlu bir manzara üretme
Kullanıcıya benzeri görülmemiş bir ses yaratım özgürlüğü sunuyor

Teknik özellikler

NVIDIA DGX sistemleri ve H100 GPU kullanılarak 250 milyon parametreyle eğitilmiş üretici yapay zeka modeli
Çok uluslu araştırma ekibinin iş birliğiyle çok dilli ve aksan destekleri güçlendirildi
Milyonlarca ses örneğiyle eğitim veri seti oluşturuldu
- Veriler arasındaki ilişkiler yeniden analiz edilerek performans artırıldı
Eğitim verisini toplamak ve modeli ölçeklendirmek 1 yıldan fazla sürdü
İlk metin istemiyle müzik üretmeyi başardıklarında büyük şaşkınlık yaşadılar; elektronik müzik ile köpek havlamasını birleştiren demoda kahkahalara neden olurken gelecekteki olasılıkları da gösterdi

Nvidia, esnek yapay zeka ses üretim modeli Fugatto'yu tanıttı

Çeşitli kullanım senaryoları

Kullanıcıya Artistic Control (sanatsal kontrol) sağlıyor

Teknik özellikler

İlgili okumalar

Henüz yorum yok.