Magma - Multimodal yapay zeka ajanları için temel model
(microsoft.github.io)- Magma, multimodal girdileri yorumlayıp bunları ortam içinde ilişkilendirebilen ilk temel modeldir; sanal ve gerçek dünyadaki karmaşık etkileşimleri işleyebilir
- Yalnızca basit görüntü·video anlayışının ötesine geçerek, hedef odaklı görsel planlama ve yürütme üretir ve çeşitli yapay zeka ajan görevlerini yerine getirir
- UI navigasyonu, robot manipülasyonu, görüntü·video anlama (özellikle uzamsal anlama ve akıl yürütme) gibi çeşitli multimodal görevlerde son teknoloji performans elde eder
- Ölçeklenebilir ön eğitim yöntemi: etiketsiz video verisini mevcut ajan verileriyle birlikte eğiterek güçlü genelleme performansı sağlar ve gerçek uygulamalar için uygundur
- Kod, model ve UI navigasyon demosu MSR Forum (2025.02.25) etkinliğinde yayımlanacaktır.
Magma'nın hedefi
- Dil ve uzamsal-zamansal zekâ:
- Görüntü ve videoları doğru biçimde anlayıp, buna dayanarak hedefleri eylem planlarına ve uygulamaya dönüştürme yeteneği
- Dijital ve fiziksel ortamlarda çalışma:
- Hem web navigasyonu (UI etkileşimi) hem de robot manipülasyonu gerçekleştirebilir
- İnsanlar gibi dijital ve fiziksel ortamlar arasında serbestçe geçebilen yapay zeka
- Bunun için Magma, etiketsiz video verisi ile mevcut ajan verilerini kullanan yeni bir eğitim veri kümesi ve metin·görüntü·eylemi bütünleşik biçimde öğrenen bir ön eğitim çerçevesi geliştirilerek eğitildi
Magma'nın ön eğitim yöntemi
- Magma iki temel yaklaşımla eğitilir.
- 1️⃣ Büyük ölçekli heterojen eğitim verisinin kullanımı
- Mevcut multimodal veri, UI navigasyon verisi, robot manipülasyon verisi yanında, büyük miktarda etiketsiz video verisi toplanıp eğitime dahil edilir.
- Kamera hareketi kaldırılır ve gerçek eylem verileri çıkarılarak modelin uzun vadeli eylem tahmini ve planlama öğrenmesi sağlanır.
- 2️⃣ Birleşik ön eğitim hedeflerinin belirlenmesi
- Metin ve eylem özünde farklıdır; bunları etkili biçimde bağlamak önemli bir zorluktur
- Set-of-Mark, Trace-of-Mark gibi yeni eğitim teknikleri kullanılarak metin·görüntü·eylem arasında güçlü bir hizalama (Alignment) yapısı kurulur
- Set-of-Mark (SoM): Görüntülerde etkili eylem temellendirmesini mümkün kılar; UI ekran görüntülerinde, robot manipülasyonunda ve insan videolarında tıklanabilir düğmeler ya da robot kolu için sayısal işaretleri tahmin eder.
- Trace-of-Mark (ToM): Robot manipülasyonu ve insan eylemleri için denetim sağlar; modelin zamansal video dinamiklerini anlamasına ve harekete geçmeden önce gelecekteki durumu tahmin etmesine yardımcı olur.
Model nasıl kullanılır
Doğrudan kullanım (Fine-tuning olmadan kullanılabilir)
Magma araştırma amaçlı tasarlanmıştır ve şu şekillerde kullanılabilir.
- Görüntü/video tabanlı metin üretimi: Girilen görüntü·metne dayanarak açıklama ve yanıt üretebilir.
- Görsel planlama (Visual Planning): Nesne taşıma gibi hedeflere ulaşmak için gelecekteki eylem yolunu tahmin edebilir.
- Ajan yetenekleri:
- UI navigasyonu: Örneğin, "arama düğmesine tıkla" gibi UI etkileşimlerini tahmin etme
- Robot manipülasyonu: Robotun 7 serbestlik dereceli (7 DoF) manipülasyonunu tahmin etme
Alt görevler (Fine-tuning ile)
Magma belirli görevlere uygun olacak şekilde ek eğitim alabilir.
- Görüntü altyazılama ve QA: Mevcut multimodal büyük dil modeli (LLM) yöntemleriyle eğitilerek uzamsal anlama ve akıl yürütme yetenekleri güçlendirilebilir.
- Video altyazılama ve QA: Video verisi üzerinde zamansal anlama ve akıl yürütme yetenekleri geliştirilebilir.
- UI navigasyonu: Web ve mobil UI navigasyon görevlerine optimize edilerek yüksek performans elde edilebilir.
- Robot manipülasyonu: Robot kontrolü için ek eğitimle, OpenVLA gibi mevcut robot manipülasyon modellerini aşan performans gösterir.
Önyargı (Bias), riskler (Risks), sınırlamalar (Limitations)
- Bu model tüm alt görevler için tasarlanmamıştır.
- Belirli kullanım senaryolarına uygulanmadan önce doğruluk, güvenlik ve adalet açısından değerlendirilip ayarlanmalıdır.
- Özellikle yüksek riskli senaryolarda uygulanabilir yasa ve düzenlemelere uyulmalıdır.
1 yorum
Hacker News görüşleri