Meta V-JEPA: Yann LeCun'un Gelişmiş Makine Zekâsı (AMI) Yönünde Bir Sonraki Adım

xguru · 2024-02-20T11:36:01+09:00

Dünya hakkında daha gerçekçi bir anlayışa dayalı, makine zekâsını geliştirmede önemli bir adım olan Video Joint Embedding Predictive Architecture (V-JEPA) modelini duyurdu. Bu fiziksel dünya modelinin ilk örnekleri, nesneler arasındaki ayrıntılı etkileşimleri tespit etme ve anlamada çok iyi. Sorumlu açık bilim yaklaşımıyla, araştırmacıların bu modeli daha fazla keşfetmesine olanak sağlamak için Creative Commons NonCommercial (CC BY-NC) lisansı altında yayımladı. Video JEPA V-JEPA, videodaki eksik veya gizlenmiş bölümleri soyut temsil uzayında tahmin ederek öğrenen üretici olmayan bir modeldir. Bu model, tahmin edilemeyen bilgiyi ele atabilme esnekliğine sahip olduğu için eğitim ve örnek verimliliğini 1.5x ile 6x arasında artırır. V-JEPA yalnızca etiketlenmemiş verilerle önceden eğitilir; etiketler ise sadece ön eğitim sonrası model belirli bir işte kullanılacağı zaman uygulanır. Maskeleme yöntemi V-JEPA, belirli bir hareket türünü anlamak için eğitilmedi; aksine, çeşitli videolarda öz denetimli öğrenme kullanarak dünyanın nasıl çalıştığına dair birçok şeyi öğrenir. Maskeleme stratejisi, videonun büyük alanlarını yalnızca kapatıp rastgele patch örneklemek yerine, uzayda ve zamanda video bölümlerini maskeler, böylece model sahneyi anlayıp öğrenir. Verimli tahmin Soyut temsil uzayında tahmin yapmak, modelin videoda bulunan yüksek boyutlu kavramsal bilgilere odaklanmasına imkân verir ve alttaki görevler için çoğu zaman önemli olmayan ayrıntılarla uğraşmasına gerek kalmaz. V-JEPA, "dondurulmuş değerlendirme"de yüksek performans gösteren ilk video modeli olarak, öz denetimli ön eğitimden geçmiş kodlayıcı ve tahmin ediciye dokunmadan, yeni yetenekler öğrenirken uzmanlaşmış katmanları veya küçük bir ağı hızlı ve verimli biçimde eğitir. Geleceğe giden yol "V" videoyu temsil eder ancak mevcut V-JEPA modeli şu anda yalnızca görsel içeriği ele alır. Bir sonraki adım olarak, görsel içeriğe sesi de ekleyen daha çok modalli bir yaklaşım düşünüyor. V-JEPA, ince nesne etkileşimlerini ayırt etmede ve zaman içinde ortaya çıkan ayrıntılı nesne-nesne etkileşimlerini tanımada başarılı. AMI'ye giden yol V-JEPA ile ilgili çalışmaların tamamı, şimdiye dek genelde algılamayla ilgiliydi: farklı video akışlarının içeriğini anlayarak çevredeki dünya hakkında belli bir bağlam elde etmek. Bir sonraki adım olarak, bu tahmin ediciyi veya dünya modelini planlama veya ardışık karar verme için nasıl kullanabileceğimizi göstermek hedefleniyor. V-JEPA bir araştırma modelidir ve gelecekteki uygulamaları keşfetmekte. Örneğin V-JEPA'nın sağladığı bağlam, gerçek yapay zeka görevlerinde ve gelecekteki AR gözlükleri için Contextual AI yardımcı sistemleri geliştirme işinde yararlı olabilir. Sorumlu açık bilim değerine inanan Meta, diğer araştırmacıların bu çalışmayı genişletebilmesi için V-JEPA modelini CC BY-NC lisansı ile açıkladı

(ai.meta.com)

9 puan yazan xguru 2024-02-20 | 1 yorum | WhatsApp'ta paylaş

Dünya hakkında daha gerçekçi bir anlayışa dayalı, makine zekâsını geliştirmede önemli bir adım olan Video Joint Embedding Predictive Architecture (V-JEPA) modelini duyurdu.
Bu fiziksel dünya modelinin ilk örnekleri, nesneler arasındaki ayrıntılı etkileşimleri tespit etme ve anlamada çok iyi.
Sorumlu açık bilim yaklaşımıyla, araştırmacıların bu modeli daha fazla keşfetmesine olanak sağlamak için Creative Commons NonCommercial (CC BY-NC) lisansı altında yayımladı.

Video JEPA

V-JEPA, videodaki eksik veya gizlenmiş bölümleri soyut temsil uzayında tahmin ederek öğrenen üretici olmayan bir modeldir.
Bu model, tahmin edilemeyen bilgiyi ele atabilme esnekliğine sahip olduğu için eğitim ve örnek verimliliğini 1.5x ile 6x arasında artırır.
V-JEPA yalnızca etiketlenmemiş verilerle önceden eğitilir; etiketler ise sadece ön eğitim sonrası model belirli bir işte kullanılacağı zaman uygulanır.

Maskeleme yöntemi

V-JEPA, belirli bir hareket türünü anlamak için eğitilmedi; aksine, çeşitli videolarda öz denetimli öğrenme kullanarak dünyanın nasıl çalıştığına dair birçok şeyi öğrenir.
Maskeleme stratejisi, videonun büyük alanlarını yalnızca kapatıp rastgele patch örneklemek yerine, uzayda ve zamanda video bölümlerini maskeler, böylece model sahneyi anlayıp öğrenir.

Verimli tahmin

Soyut temsil uzayında tahmin yapmak, modelin videoda bulunan yüksek boyutlu kavramsal bilgilere odaklanmasına imkân verir ve alttaki görevler için çoğu zaman önemli olmayan ayrıntılarla uğraşmasına gerek kalmaz.
V-JEPA, "dondurulmuş değerlendirme"de yüksek performans gösteren ilk video modeli olarak, öz denetimli ön eğitimden geçmiş kodlayıcı ve tahmin ediciye dokunmadan, yeni yetenekler öğrenirken uzmanlaşmış katmanları veya küçük bir ağı hızlı ve verimli biçimde eğitir.

Geleceğe giden yol

"V" videoyu temsil eder ancak mevcut V-JEPA modeli şu anda yalnızca görsel içeriği ele alır.
Bir sonraki adım olarak, görsel içeriğe sesi de ekleyen daha çok modalli bir yaklaşım düşünüyor.
V-JEPA, ince nesne etkileşimlerini ayırt etmede ve zaman içinde ortaya çıkan ayrıntılı nesne-nesne etkileşimlerini tanımada başarılı.

AMI'ye giden yol

V-JEPA ile ilgili çalışmaların tamamı, şimdiye dek genelde algılamayla ilgiliydi: farklı video akışlarının içeriğini anlayarak çevredeki dünya hakkında belli bir bağlam elde etmek.
Bir sonraki adım olarak, bu tahmin ediciyi veya dünya modelini planlama veya ardışık karar verme için nasıl kullanabileceğimizi göstermek hedefleniyor.
V-JEPA bir araştırma modelidir ve gelecekteki uygulamaları keşfetmekte. Örneğin V-JEPA'nın sağladığı bağlam, gerçek yapay zeka görevlerinde ve gelecekteki AR gözlükleri için Contextual AI yardımcı sistemleri geliştirme işinde yararlı olabilir.
Sorumlu açık bilim değerine inanan Meta, diğer araştırmacıların bu çalışmayı genişletebilmesi için V-JEPA modelini CC BY-NC lisansı ile açıkladı

1 yorum

kuroneko 2024-02-20

OpenAI Sora da da öyle... video yapay zeka da bir anda çok hızlı gelişti.

Dil modelleri de ilerlemeye devam ettikçe birdenbire ChatGPT'nin çıkışı gibi,
video yapay zekâda da böyle bir anın gelmesi eğlenceli olur.