Magma - Multimodal yapay zeka ajanları için temel model

(microsoft.github.io)

3 puan yazan GN⁺ 2025-02-21 | 1 yorum | WhatsApp'ta paylaş

Magma, multimodal girdileri yorumlayıp bunları ortam içinde ilişkilendirebilen ilk temel modeldir; sanal ve gerçek dünyadaki karmaşık etkileşimleri işleyebilir
Yalnızca basit görüntü·video anlayışının ötesine geçerek, hedef odaklı görsel planlama ve yürütme üretir ve çeşitli yapay zeka ajan görevlerini yerine getirir
UI navigasyonu, robot manipülasyonu, görüntü·video anlama (özellikle uzamsal anlama ve akıl yürütme) gibi çeşitli multimodal görevlerde son teknoloji performans elde eder
Ölçeklenebilir ön eğitim yöntemi: etiketsiz video verisini mevcut ajan verileriyle birlikte eğiterek güçlü genelleme performansı sağlar ve gerçek uygulamalar için uygundur
Kod, model ve UI navigasyon demosu MSR Forum (2025.02.25) etkinliğinde yayımlanacaktır.

Magma'nın hedefi

Dil ve uzamsal-zamansal zekâ:
- Görüntü ve videoları doğru biçimde anlayıp, buna dayanarak hedefleri eylem planlarına ve uygulamaya dönüştürme yeteneği
Dijital ve fiziksel ortamlarda çalışma:
- Hem web navigasyonu (UI etkileşimi) hem de robot manipülasyonu gerçekleştirebilir
- İnsanlar gibi dijital ve fiziksel ortamlar arasında serbestçe geçebilen yapay zeka
Bunun için Magma, etiketsiz video verisi ile mevcut ajan verilerini kullanan yeni bir eğitim veri kümesi ve metin·görüntü·eylemi bütünleşik biçimde öğrenen bir ön eğitim çerçevesi geliştirilerek eğitildi

Magma'nın ön eğitim yöntemi

Magma iki temel yaklaşımla eğitilir.
1️⃣ Büyük ölçekli heterojen eğitim verisinin kullanımı
- Mevcut multimodal veri, UI navigasyon verisi, robot manipülasyon verisi yanında, büyük miktarda etiketsiz video verisi toplanıp eğitime dahil edilir.
- Kamera hareketi kaldırılır ve gerçek eylem verileri çıkarılarak modelin uzun vadeli eylem tahmini ve planlama öğrenmesi sağlanır.
2️⃣ Birleşik ön eğitim hedeflerinin belirlenmesi
- Metin ve eylem özünde farklıdır; bunları etkili biçimde bağlamak önemli bir zorluktur
- Set-of-Mark, Trace-of-Mark gibi yeni eğitim teknikleri kullanılarak metin·görüntü·eylem arasında güçlü bir hizalama (Alignment) yapısı kurulur
  - Set-of-Mark (SoM): Görüntülerde etkili eylem temellendirmesini mümkün kılar; UI ekran görüntülerinde, robot manipülasyonunda ve insan videolarında tıklanabilir düğmeler ya da robot kolu için sayısal işaretleri tahmin eder.
  - Trace-of-Mark (ToM): Robot manipülasyonu ve insan eylemleri için denetim sağlar; modelin zamansal video dinamiklerini anlamasına ve harekete geçmeden önce gelecekteki durumu tahmin etmesine yardımcı olur.

Model nasıl kullanılır

Doğrudan kullanım (Fine-tuning olmadan kullanılabilir)

Magma araştırma amaçlı tasarlanmıştır ve şu şekillerde kullanılabilir.

Görüntü/video tabanlı metin üretimi: Girilen görüntü·metne dayanarak açıklama ve yanıt üretebilir.
Görsel planlama (Visual Planning): Nesne taşıma gibi hedeflere ulaşmak için gelecekteki eylem yolunu tahmin edebilir.
Ajan yetenekleri:
- UI navigasyonu: Örneğin, "arama düğmesine tıkla" gibi UI etkileşimlerini tahmin etme
- Robot manipülasyonu: Robotun 7 serbestlik dereceli (7 DoF) manipülasyonunu tahmin etme

Alt görevler (Fine-tuning ile)

Magma belirli görevlere uygun olacak şekilde ek eğitim alabilir.

Görüntü altyazılama ve QA: Mevcut multimodal büyük dil modeli (LLM) yöntemleriyle eğitilerek uzamsal anlama ve akıl yürütme yetenekleri güçlendirilebilir.
Video altyazılama ve QA: Video verisi üzerinde zamansal anlama ve akıl yürütme yetenekleri geliştirilebilir.
UI navigasyonu: Web ve mobil UI navigasyon görevlerine optimize edilerek yüksek performans elde edilebilir.
Robot manipülasyonu: Robot kontrolü için ek eğitimle, OpenVLA gibi mevcut robot manipülasyon modellerini aşan performans gösterir.

Önyargı (Bias), riskler (Risks), sınırlamalar (Limitations)

Bu model tüm alt görevler için tasarlanmamıştır.
Belirli kullanım senaryolarına uygulanmadan önce doğruluk, güvenlik ve adalet açısından değerlendirilip ayarlanmalıdır.
Özellikle yüksek riskli senaryolarda uygulanabilir yasa ve düzenlemelere uyulmalıdır.

1 yorum

GN⁺ 2025-02-21

Hacker News görüşleri

Magma projesine gösterilen ilgi için teşekkürler. Çıkarım, eğitim, değerlendirme ve veri ön işleme kodlarını aşamalı olarak yayımlayacağız; bunun gelecek salıya kadar tamamlanması planlanıyor
Multimodal ajanların gelişim hızı etkileyici. OpenVLA, 2024 Haziran'ında yayımlandığında o dönem için son teknoloji durumundaydı. 8 ay sonra, "Pick Place Hotdog Sausage" gibi görevlerde başarı oranı 2/10'dan 6/10'a çıktı
Endüstriyel robotlar, insan davranışını taklit etmedikleri için verimlidir. Bu yüzden robotlara insan davranışını öğretme önerisinin ne anlam ifade ettiğini kavramak zor. Ev tipi robotların verimli araçlara ihtiyacı olacaktır. Şu anda kullandığımız çamaşır makinesi, fırın ve bulaşık makinesinden farklı yeni makineler gerekecektir
Multimodal yetenekler, özellikle de bir sonraki eylemi tahmin etme, etkileyici. Bunun GitHub'da açık kaynak olarak yayımlanıp yayımlanmayacağını takip ediyorum. Ayrıca neden adının Magma olduğunu merak ediyorum
Gerçekten çok ilginç bir model. Denemeyi dört gözle bekliyorum. Ancak benim istediğim şey, Meta motivo gibi humanoid kontrol modelleri için embedding üretebilen bir multimodal ajan modeli. Meta motivo, SMPL iskeletiyle eğitilmiş bir oyuncak model ve parmakları olmadığı için işlevi sınırlı. SMPL-X gibi daha gelişmiş modeller kullanılabilirdi, ancak hassas parmak hareketlerini de içeren açık uçlu hareket verisinin eksikliği, güçlü manipülasyon modelleri eğitmeyi zorlaştırıyor
Mevcut hareket veri kümelerinin çoğu akademik motion capture kurulumlarından geliyor ve manipülasyon görevlerine odaklanmıyor. 2D videodan 3D HPE alanındaki ilerlemenin bu boşluğu kapatacağına inanıyorum. Binlerce saat videoya erişim olsaydı, çeşitli gerçek dünya etkileşimlerini kapsayan büyük ölçekli bir hareket veri kümesi oluşturulabilirdi
Bu da, el ve parmak eklemi hareketlerini doğru biçimde modelleyebilen kontrol modellerinin okuyabileceği embedding'ler üreten bir ajan modelini eğitmek için gerekli iki bileşeni mümkün kılar. 2D videodan SoTA 3D HPE alanındaki hızlı ilerleme ve çevrimiçi videoların muazzam hacmi göz önüne alındığında, yakın gelecekte iyi manipülasyon yeteneklerine sahip humanoid robotlar görebileceğimizi umuyorum
Bir kupayı silen videoda kişi, elini ıslatmak istemiyormuş gibi davranarak bardağı yıkıyormuş gibi yapıyor. Modelin bu tür incelikleri ne zaman kavrayabileceğini merak ediyorum
Multimodal modellerin neden esnek biçimde görüntü üretmediğini merak ediyorum. Görüntü üretimini başka modellere devrediyor gibiler. Ürettikleri görüntüde ne olduğunu tam olarak bilmiyorlar ama görüntüyü düzenleyebiliyorlar
Multimodal ajanların uzun süreli görevlerde başarısız olmalarıyla ün saldığı biliniyor. Magma'nın bu konuda nasıl performans gösterdiğini merak ediyorum
Multimodal modeller arasında çıkarım için eğitilmiş olanlar var mı, merak ediyorum
Aşamalı eğitim üzerine çalışma olup olmadığını merak ediyorum. Bu, robotlarda RAG'e alternatif olarak kullanılabilir