Audiobox - Meta'nın ses üretimi için yeni foundation modeli

xguru · 2023-12-12T09:40:47+09:00

Ses girdisi ile doğal dil metin istemlerini birleştirerek konuşma ve ses efektleri üretiyor Farklı kullanım senaryolarına uygun özelleştirilmiş sesleri kolayca oluşturmayı sağlıyor Bu yılın başında tanıtılan Voicebox'ı geliştirerek konuşma, ses efektleri (köpek havlaması, araba kornası, gök gürültüsü gibi kısa ve kesintili sesler) ve soundscape için üretim ile düzenleme yeteneklerini birleştiriyor; ayrıca çeşitli girdi mekanizmalarıyla her kullanım senaryosunda denetlenebilirliği en üst düzeye çıkarıyor Doğal dil istemleri kullanarak üretmek istediğiniz sesin veya konuşma türünün tanımını yapabiliyorsunuz "Akan nehir suyu ve cıvıldayan kuş sesleri" gibi istemlerle soundscape üretilebiliyor "Genç bir kadın yüksek perdede ve hızlı konuşuyor" şeklinde girerek istenen sesi oluşturabiliyorsunuz Sesli konuşma girdisi ile metin tabanlı stil istemlerini birleştirerek bu sesin herhangi bir ortamda (ör. "katedralde") veya herhangi bir duyguda (ör. "üzgün ve yavaş konuşuyor") sentezlenmesini sağlayabiliyor Serbest biçimli konuşma stili değişimi için çift girdiyi (ses istemi ve metin açıklama istemi) destekleyen ilk model Çeşitli konuşma stillerinde stil benzerliği açısından Voicebox'tan %30'dan fazla daha iyi performans gösteriyor Ses araştırmaları alanında geçmiş başarısı olan özenle seçilmiş araştırmacılar ve akademik kurumlarla Audiobox'ı paylaşarak, bu araştırma alanındaki son teknoloji çalışmaların ilerlemesini ve bu çalışmanın sorumlu yapay zeka yönlerini ele alabilecek çeşitli ortakların oluşmasını destekliyor

(ai.meta.com)

8 puan yazan xguru 2023-12-12 | 1 yorum | WhatsApp'ta paylaş

Ses girdisi ile doğal dil metin istemlerini birleştirerek konuşma ve ses efektleri üretiyor
- Farklı kullanım senaryolarına uygun özelleştirilmiş sesleri kolayca oluşturmayı sağlıyor
Bu yılın başında tanıtılan Voicebox'ı geliştirerek konuşma, ses efektleri (köpek havlaması, araba kornası, gök gürültüsü gibi kısa ve kesintili sesler) ve soundscape için üretim ile düzenleme yeteneklerini birleştiriyor; ayrıca çeşitli girdi mekanizmalarıyla her kullanım senaryosunda denetlenebilirliği en üst düzeye çıkarıyor
Doğal dil istemleri kullanarak üretmek istediğiniz sesin veya konuşma türünün tanımını yapabiliyorsunuz
- "Akan nehir suyu ve cıvıldayan kuş sesleri" gibi istemlerle soundscape üretilebiliyor
- "Genç bir kadın yüksek perdede ve hızlı konuşuyor" şeklinde girerek istenen sesi oluşturabiliyorsunuz
Sesli konuşma girdisi ile metin tabanlı stil istemlerini birleştirerek bu sesin herhangi bir ortamda (ör. "katedralde") veya herhangi bir duyguda (ör. "üzgün ve yavaş konuşuyor") sentezlenmesini sağlayabiliyor
- Serbest biçimli konuşma stili değişimi için çift girdiyi (ses istemi ve metin açıklama istemi) destekleyen ilk model
Çeşitli konuşma stillerinde stil benzerliği açısından Voicebox'tan %30'dan fazla daha iyi performans gösteriyor
Ses araştırmaları alanında geçmiş başarısı olan özenle seçilmiş araştırmacılar ve akademik kurumlarla Audiobox'ı paylaşarak, bu araştırma alanındaki son teknoloji çalışmaların ilerlemesini ve bu çalışmanın sorumlu yapay zeka yönlerini ele alabilecek çeşitli ortakların oluşmasını destekliyor

1 yorum

xguru 2023-12-12

Meta, ses için Generative AI modeli Voicebox'ı tanıttı

Audiobox - Meta'nın ses üretimi için yeni foundation modeli

İlgili okumalar

1 yorum