Meta, büyük ölçekli birinci şahıs video veri kümesi Ego-Exo4D’yi yayınladı

xguru · 2023-12-19T10:56:02+09:00

Video öğrenimi ve multimodal algı araştırmalarını desteklemek için temel bir veri kümesi ve benchmark Katılımcıların giyilebilir kameraları aracılığıyla birinci şahıs "Egocentric (benmerkezli)" bakış açısı ile katılımcıyı çevreleyen kameraların çoklu "Exocentric (dışmerkezli)" bakış açıları aynı anda yakalanıyor Bu iki bakış açısı birbirini tamamlıyor; Ego, katılımcının ne gördüğünü ve duyduğunu, Exo ise çevredeki sahneyi ve bağlamı ortaya koyuyor Bu iki perspektif birlikte kullanıldığında, yapay zeka modellerine karmaşık insan becerileri hakkında yeni bir bakış açısı sunabilir Meta’nın FAIR (Fundamental Artificial Intelligence Research), Project Aria ve 15 üniversite ortağının 2 yıllık çalışmasının ürünü ABD, Japonya, Kolombiya, Singapur, Hindistan ve Kanada’daki 800’den fazla yetkin katılımcının yardımıyla kaydedildi 1.400 saatten fazla video içeren veriler ve yeni benchmark görevlerine yönelik açıklamalar açık kaynak olarak yayınlandı Ego-Exo4D, spor, müzik, yemek pişirme, dans ve bisiklet tamiri gibi uzmanlık gerektiren insan etkinliklerine odaklanıyor Yapay zekanın videodan insan becerisini anlama yeteneğindeki ilerleme, birçok uygulamanın önünü açabilir Örneğin AR sistemlerinde, akıllı gözlük takan bir kişi sanal bir yapay zeka koçunun yönlendirmesiyle yeni bir beceriyi hızla öğrenebilir Ego-Exo4D, zaman senkronize birinci şahıs ve üçüncü şahıs videolardan oluşan en büyük açık veri kümesi Bu veri kümesini oluşturmak için farklı alanlardan uzmanlar bir araya getirildi ve gerçek dünyadaki profesyoneller sürece katıldı Ego-Exo4D yalnızca çoklu bakış açılı değil, aynı zamanda multimodal bir veri kümesi; Meta’nın Aria gözlükleriyle kaydedilen tüm ego videoları zaman hizalı 7 kanallı ses, atalet ölçüm birimi (IMU), iki geniş açılı siyah-beyaz kamera ve daha fazlasını içeriyor

(ai.meta.com)

7 puan yazan xguru 2023-12-19 | Henüz yorum yok. | WhatsApp'ta paylaş

Video öğrenimi ve multimodal algı araştırmalarını desteklemek için temel bir veri kümesi ve benchmark
Katılımcıların giyilebilir kameraları aracılığıyla birinci şahıs "Egocentric (benmerkezli)" bakış açısı ile katılımcıyı çevreleyen kameraların çoklu "Exocentric (dışmerkezli)" bakış açıları aynı anda yakalanıyor
Bu iki bakış açısı birbirini tamamlıyor; Ego, katılımcının ne gördüğünü ve duyduğunu, Exo ise çevredeki sahneyi ve bağlamı ortaya koyuyor
- Bu iki perspektif birlikte kullanıldığında, yapay zeka modellerine karmaşık insan becerileri hakkında yeni bir bakış açısı sunabilir
Meta’nın FAIR (Fundamental Artificial Intelligence Research), Project Aria ve 15 üniversite ortağının 2 yıllık çalışmasının ürünü
- ABD, Japonya, Kolombiya, Singapur, Hindistan ve Kanada’daki 800’den fazla yetkin katılımcının yardımıyla kaydedildi
1.400 saatten fazla video içeren veriler ve yeni benchmark görevlerine yönelik açıklamalar açık kaynak olarak yayınlandı
Ego-Exo4D, spor, müzik, yemek pişirme, dans ve bisiklet tamiri gibi uzmanlık gerektiren insan etkinliklerine odaklanıyor
- Yapay zekanın videodan insan becerisini anlama yeteneğindeki ilerleme, birçok uygulamanın önünü açabilir
- Örneğin AR sistemlerinde, akıllı gözlük takan bir kişi sanal bir yapay zeka koçunun yönlendirmesiyle yeni bir beceriyi hızla öğrenebilir
Ego-Exo4D, zaman senkronize birinci şahıs ve üçüncü şahıs videolardan oluşan en büyük açık veri kümesi
- Bu veri kümesini oluşturmak için farklı alanlardan uzmanlar bir araya getirildi ve gerçek dünyadaki profesyoneller sürece katıldı
- Ego-Exo4D yalnızca çoklu bakış açılı değil, aynı zamanda multimodal bir veri kümesi; Meta’nın Aria gözlükleriyle kaydedilen tüm ego videoları zaman hizalı 7 kanallı ses, atalet ölçüm birimi (IMU), iki geniş açılı siyah-beyaz kamera ve daha fazlasını içeriyor

Meta, büyük ölçekli birinci şahıs video veri kümesi Ego-Exo4D’yi yayınladı

İlgili okumalar

Henüz yorum yok.