- Video öğrenimi ve multimodal algı araştırmalarını desteklemek için temel bir veri kümesi ve benchmark
- Katılımcıların giyilebilir kameraları aracılığıyla birinci şahıs "Egocentric (benmerkezli)" bakış açısı ile katılımcıyı çevreleyen kameraların çoklu "Exocentric (dışmerkezli)" bakış açıları aynı anda yakalanıyor
- Bu iki bakış açısı birbirini tamamlıyor; Ego, katılımcının ne gördüğünü ve duyduğunu, Exo ise çevredeki sahneyi ve bağlamı ortaya koyuyor
- Bu iki perspektif birlikte kullanıldığında, yapay zeka modellerine karmaşık insan becerileri hakkında yeni bir bakış açısı sunabilir
- Meta’nın FAIR (Fundamental Artificial Intelligence Research), Project Aria ve 15 üniversite ortağının 2 yıllık çalışmasının ürünü
- ABD, Japonya, Kolombiya, Singapur, Hindistan ve Kanada’daki 800’den fazla yetkin katılımcının yardımıyla kaydedildi
- 1.400 saatten fazla video içeren veriler ve yeni benchmark görevlerine yönelik açıklamalar açık kaynak olarak yayınlandı
- Ego-Exo4D, spor, müzik, yemek pişirme, dans ve bisiklet tamiri gibi uzmanlık gerektiren insan etkinliklerine odaklanıyor
- Yapay zekanın videodan insan becerisini anlama yeteneğindeki ilerleme, birçok uygulamanın önünü açabilir
- Örneğin AR sistemlerinde, akıllı gözlük takan bir kişi sanal bir yapay zeka koçunun yönlendirmesiyle yeni bir beceriyi hızla öğrenebilir
- Ego-Exo4D, zaman senkronize birinci şahıs ve üçüncü şahıs videolardan oluşan en büyük açık veri kümesi
- Bu veri kümesini oluşturmak için farklı alanlardan uzmanlar bir araya getirildi ve gerçek dünyadaki profesyoneller sürece katıldı
- Ego-Exo4D yalnızca çoklu bakış açılı değil, aynı zamanda multimodal bir veri kümesi; Meta’nın Aria gözlükleriyle kaydedilen tüm ego videoları zaman hizalı 7 kanallı ses, atalet ölçüm birimi (IMU), iki geniş açılı siyah-beyaz kamera ve daha fazlasını içeriyor
Henüz yorum yok.