Waymo, otonom sürüş için uçtan uca multimodal model EMMA'yı tanıttı

(waymo.com)

5 puan yazan GN⁺ 2024-11-06 | Henüz yorum yok. | WhatsApp'ta paylaş

EMMA: Otonom Sürüş için Uçtan Uca Multimodal Model
Google'ın Gemini multimodal LLM'ini kullanarak sensör verilerinden doğrudan aracın gelecekteki yörüngesini üretiyor
Otonom sürüşe özel eğitim ve ince ayar sayesinde yol durumlarını anlama yeteneğini artırıyor

Başlıca araştırma içeriği

Multimodal modellerin otonom sürüşe nasıl uygulanabileceğini gösteriyor
Uçtan uca yaklaşımın avantaj ve dezavantajlarını inceliyor
Multimodal dünya bilgisinden yararlanmanın faydalarını vurguluyor
- Mekansal anlayış ve akıl yürütme gerektiren otonom sürüş görevlerinde de yardımcı oluyor
Birden fazla temel otonom sürüş görevi için olumlu transfer öğrenimi etkisini kanıtlıyor
- Rota planlama, nesne algılama, yol grafiği anlama gibi görevler birlikte öğrenildiğinde, ayrı ayrı öğrenmeye göre performans artıyor
- Daha fazla çekirdek otonom sürüş görevini benzer şekilde entegre etmenin umut verici bir araştırma yönü olduğunu gösteriyor

EMMA, büyük ölçekli multimodal öğrenme modellerini ve tekniklerini daha fazla alana entegre etmeyi amaçlayan yapay zeka araştırma eğilimini yansıtıyor
Gemini tabanlı olarak rota planlama, 3D nesne algılama gibi otonom sürüş görevlerine özelleştirilmiş bir model oluşturuyor

Başlıca özellikler:

Uçtan uca öğrenme
- Kamera girdileri ve metin verilerini işleyerek rota, algılanan nesneler, yol grafiği öğeleri gibi çeşitli çıktılar üretiyor
Birleşik dil uzayı
- Sensör dışı giriş ve çıkışları doğal dil metni olarak ifade ederek Gemini'nin dünya bilgisinden azami ölçüde yararlanıyor
Zincirleme düşünceyle akıl yürütme
- Zincirleme düşünce akıl yürütmesiyle karar verme sürecini iyileştirerek uçtan uca planlama performansını %6,7 artırıyor ve sürüş kararları için yorumlanabilir gerekçeler sunuyor

Açık ve şirket içi benchmark'larda en yüksek seviyede performans elde ediyor
- Uçtan uca rota planlama, kamera tabanlı 3D nesne algılama, yol grafiği tahmini, sahne anlama gibi alanlarda
Ortak öğrenmeyle performans artıyor
- Tek bir EMMA modeliyle birden fazla görevin çıktısını aynı anda üretirken, ayrı ayrı eğitilmiş modellerle eşdeğer veya daha iyi performans gösteriyor
- Birçok otonom sürüş uygulamasında kullanılabilecek genel amaçlı bir model olma potansiyelini gösteriyor

Uzun video dizilerini işlemede sınırlı olduğundan gerçek zamanlı sürüş senaryolarında akıl yürütmekte zorlanıyor
- Uzun süreli bellek kritik öneme sahip
LiDAR ve radar girdilerini kullanmıyor
- Gelişmiş 3D algılama encoder'larının entegrasyonu gerekiyor
Verimli simülasyon yöntemleri, optimize edilmiş model çıkarım süresi ve ara karar aşamalarının doğrulanması gibi zorluklar bulunuyor

EMMA bağımsız bir sürüş modeli olarak sınırlı olsa da, multimodal teknolojinin otonom sürüş sistemlerinin performansını ve genelleme yeteneğini artırabileceğini gösteriyor
İleri düzey yapay zeka teknolojilerini gerçek görevlere uygulayarak yapay zekanın yeteneklerini karmaşık ve dinamik ortamlara taşıyor
Belirsiz durumlarda çeşitli girdilere dayanarak hızlı ve doğru karar vermenin gerekli olduğu diğer kritik alanlarda da yapay zeka yardımcı olabilir
Multimodal büyük dil modellerinin otonom sürüşte kullanım potansiyelini araştırırken yol güvenliği ve erişilebilirliği artırmayı hedefliyor
Karmaşık gerçek dünya ortamlarını daha etkili biçimde keşfedebilen ve akıl yürütebilen yapay zekanın gelişimine katkı sağlaması bekleniyor

EMMA, otonom sürüş teknolojisinin gelişiminde önemli bir dönüm noktası olabilecek bir çalışma
- Multimodal öğrenmenin güçlü yönlerini iyi gösteren bir örnek
- Birden fazla temel otonom sürüş görevini entegre etmenin performans artışına yardımcı olduğunu kanıtlıyor
Henüz doğrudan gerçek sürüşe uygulanmasında sınırlamalar olsa da, ilgili teknolojilerin geliştirilmesi için iyi bir referans olabilir
- Özellikle uzun süreli bellek, multimodal füzyon ve simülasyon optimizasyonu, bundan sonra odaklanılması gereken alanlar
Sadece otonom sürüşte değil; sağlık, üretim, afet müdahalesi gibi çeşitli alanlarda da multimodal yapay zeka teknolojilerinin kullanılabileceği öngörülüyor
- Veri biçimlerinin çeşitli olduğu ve karar vermenin kritik önem taşıdığı alanlarda özellikle faydalı olabilir
Ancak multimodal modellerin kara kutu niteliği nedeniyle açıklanabilirlik ve etik sorunları gündeme gelebilir
- Model önyargısını en aza indirmek ve çıktılara ilişkin dayanak sunmak önemli olacaktır
Benzer çalışmalar arasında NVIDIA'nın DriveNet'i, Wayve'in AV2.0'ı ve Tesla'nın FSD'si bulunuyor
- Her şirket biraz farklı bir yaklaşım izlese de, ortak olarak multimodal öğrenmeden yararlanıyor
- Şirketler arasındaki rekabet ve iş birliğiyle otonom sürüş teknolojisinin daha da gelişmesi bekleniyor