- Büyük dil modelleri karmaşık görevleri yerine getirebilir, ancak robotik problemleri gibi gerçek dünyadaki genel akıl yürütmeyi mümkün kılmak için temellendirilmeleri gerekir
- Gerçek dünyanın sürekli sensör modalitelerini doğrudan dil modeline entegre ederek, kelimeler ile algılar (Percepts) arasında bağlantı kurmak için EMLM öneriliyor
- Görsel, sürekli durum tahmini ve metin girdi kodlamasını birleştiren çok modlu cümle girdilerini alıp işler
- "Çekmeceden biraz pirinç cipsi getir" : hareket edip çekmeceyi açma, bulup alma, ardından çekmeceyi kapatma ve getirme eylemlerine kadar mümkün. Arada bir insan hafifçe engel olsa bile yeniden dener
- En büyük dil modeli olan PaLM-E 562B + OK-VQA (görsel soru yanıtlama için veri kümesi)
1 yorum
Embodied AI nedir?