- Ses girdisi ile doğal dil metin istemlerini birleştirerek konuşma ve ses efektleri üretiyor
- Farklı kullanım senaryolarına uygun özelleştirilmiş sesleri kolayca oluşturmayı sağlıyor
- Bu yılın başında tanıtılan Voicebox'ı geliştirerek konuşma, ses efektleri (köpek havlaması, araba kornası, gök gürültüsü gibi kısa ve kesintili sesler) ve soundscape için üretim ile düzenleme yeteneklerini birleştiriyor; ayrıca çeşitli girdi mekanizmalarıyla her kullanım senaryosunda denetlenebilirliği en üst düzeye çıkarıyor
- Doğal dil istemleri kullanarak üretmek istediğiniz sesin veya konuşma türünün tanımını yapabiliyorsunuz
- "Akan nehir suyu ve cıvıldayan kuş sesleri" gibi istemlerle soundscape üretilebiliyor
- "Genç bir kadın yüksek perdede ve hızlı konuşuyor" şeklinde girerek istenen sesi oluşturabiliyorsunuz
- Sesli konuşma girdisi ile metin tabanlı stil istemlerini birleştirerek bu sesin herhangi bir ortamda (ör. "katedralde") veya herhangi bir duyguda (ör. "üzgün ve yavaş konuşuyor") sentezlenmesini sağlayabiliyor
- Serbest biçimli konuşma stili değişimi için çift girdiyi (ses istemi ve metin açıklama istemi) destekleyen ilk model
- Çeşitli konuşma stillerinde stil benzerliği açısından Voicebox'tan %30'dan fazla daha iyi performans gösteriyor
- Ses araştırmaları alanında geçmiş başarısı olan özenle seçilmiş araştırmacılar ve akademik kurumlarla Audiobox'ı paylaşarak, bu araştırma alanındaki son teknoloji çalışmaların ilerlemesini ve bu çalışmanın sorumlu yapay zeka yönlerini ele alabilecek çeşitli ortakların oluşmasını destekliyor
1 yorum
Meta, ses için Generative AI modeli Voicebox'ı tanıttı