- Gemini 2.0'ı robotiğe taşıyarak, görme-dil-eylem (VLA) modeli ile uzamsal anlayışa sahip bir ER modeli duyurdu
- Google DeepMind, karmaşık problemleri çözmek için metin, görsel, ses ve videoyu kullanan çok modlu akıl yürütme yeteneklerini geliştiriyordu
- Ancak bu yetenekler şimdiye kadar yalnızca dijital ortamlarla sınırlıydı
- Yapay zekanın fiziksel dünyada faydalı olabilmesi için insan gibi çevreyi anlayıp tepki vermesi ve işleri güvenli şekilde yerine getirmesini sağlayan "bedensel akıl yürütme (embodied reasoning)" yeteneğine ihtiyaç var
- Bu doğrultuda iki yeni model duyuruldu
- Gemini Robotics: Gemini 2.0 tabanlı, robotları doğrudan kontrol edebilen bir görme-dil-eylem (VLA) modeli
- Gemini Robotics-ER: gelişmiş uzamsal kavrayış ve robot kontrol yetenekleri sunan model
- Apptronik ile iş birliği içinde yeni nesil insansı robotlar geliştiriliyor
- Az sayıdaki güvenilir test kullanıcısıyla birlikte model performansı iyileştiriliyor
Gemini Robotics: En gelişmiş görme-dil-eylem modeli
1. Genelleme yeteneği (Generality)
- Yeni durumlara uyum sağlayabiliyor ve çeşitli görevleri yerine getirebiliyor
- Yeni nesneler, komutlar ve ortamlarda yüksek performans gösteriyor
- Teknik rapora göre, mevcut VLA modellere kıyasla genelleme performansı 2 katın üzerinde arttı
2. Etkileşim yeteneği (Interactivity)
- Doğal dil komutlarını anlayıp yanıtlayabiliyor
- Farklı dillerde ve günlük konuşma dilindeki komutlara yanıt verebiliyor
- Ortamdaki değişikliklere gerçek zamanlı tepki vererek davranışını ayarlayabiliyor
- Bir nesne elinden kaysa ya da yeri değişse bile anında yeniden plan yaparak göreve devam edebiliyor
3. El becerisi (Dexterity)
- Hassas görevleri yerine getirme kabiliyeti güçlendirildi
- Karmaşık çok adımlı görevleri yapabiliyor (ör. origami, fermuarlı poşete atıştırmalık koyma)
4. Farklı robot biçimlerine uygulanabilirlik (Multiple embodiments)
- Çeşitli robot türlerine kolayca uygulanabiliyor
- ALOHA 2, Franka tabanlı robotlar ve insansı Apollo robotunda çalıştığı doğrulandı
Gemini Robotics-ER: Güçlendirilmiş uzamsal anlayış
- Gemini 2.0'ın uzamsal farkındalık ve 3D algılama performansı büyük ölçüde geliştirildi
- Robot, nesnelerin konumunu algılayıp uygun şekilde manipüle edebiliyor
- Kod üretme yeteneği ile birleştirilerek robotun yeni görev yöntemlerini anında oluşturabilmesi sağlandı
- Başarı oranı, Gemini 2.0'a kıyasla 2 ila 3 kat arttı
- Demo örneği: kahve fincanının kulpunu algılayıp güvenli bir rotadan yaklaşarak kaldırıyor
Yapay zeka ve robotlarda güvenliği artırma stratejisi
- Robotların fiziksel güvenlik sorunlarını çözmeye odaklanıyor
- Robotlar; çarpışma önleme, temas kuvvetini sınırlama ve dinamik dengeyi koruma gibi geleneksel güvenlik önlemlerini uyguluyor
- Gemini Robotics-ER, güvenlik endişesi oluştuğunda görevin yapılıp yapılmayacağını değerlendirip uygun şekilde yanıt veriyor
- Yeni ASIMOV veri kümesi yayımlandı → robot davranışlarının güvenliğini değerlendirmek ve iyileştirmek için
- Etik sorunları çözmek için iç sorumluluk ve güvenlik komiteleri ile dış uzmanlarla birlikte çalışılıyor
Başlıca iş ortakları ve gelecek planları
- Apptronik ile birlikte insansı robot geliştiriliyor
- Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools gibi şirketlerde Gemini Robotics-ER test ediliyor
- Gelecekte yapay zeka ve robotik teknolojilerinin geliştirilmesi sürdürülecek
İlgili bağlantılar
1 yorum
Hacker News görüşleri