- Robotlara doğrudan entegre edilip kullanılmak üzere optimize edilmiş, yüksek genellenebilirliğe sahip bir VLA (vision-language-action) modeli
- Hızlı görev uyumu ve genel amaçlı manipülasyon becerisi sunuyor; internet bağlantısı olmadan yerelde çalışarak düşük gecikme ve dayanıklılık sağlıyor
- Çok az hesaplama kaynağı gerektiriyor ve çift kollu robot tabanlı hassas manipülasyon ile hızlı görev geçişi yeteneklerine sahip
- Geliştiriciler, Gemini Robotics SDK ile modeli kendi ortamlarına hızla test edebiliyor; yalnızca 50~100 kadar küçük ölçekli demo ile bile hızlı görev uyumu mümkün
- Diğer on-device modellere kıyasla daha yüksek genelleme ve uyum performansı gösteriyor; karmaşık talimatları ve yeni görevleri de verimli biçimde yerine getiriyor
- Güvenlik ve sorumlu geliştirme ilkeleri uygulanarak, gerçek ortamlar ve toplumsal etkilere yönelik risk minimizasyonu ile geri bildirim toplama sistemi devreye alındı
We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation
- Gemini Robotics On-Device, yerel robotik cihazlarda doğrudan çalışacak şekilde tasarlanmış yüksek verimli bir VLA (vision-language-action) modeli
- Mart ayında tanıtılan Gemini Robotics'in çok modlu akıl yürütme yeteneğini ve gerçek dünya anlayışını fiziksel ortamlara taşıyor
-
On-device modelin güçlü yönleri
- Ağ bağlantısı olmadan bağımsız şekilde çalışabildiği için, düşük gecikme gerektiren ya da bağlantının kararsız olduğu ortamlarda avantaj sağlıyor
- Yerel ortama optimize edildiğinden hızlı gerçek zamanlı görev yürütme mümkün
- Çeşitli görsel, anlamsal ve davranışsal genelleme yeteneklerine sahip
- Çift kollu robotlarla hassas manipülasyon görevleri gerçekleştirebiliyor (fermuar açma, kıyafet katlama gibi)
- Doğal dil talimatlarını anlayıp karmaşık, çok aşamalı görevleri yerine getirebiliyor
SDK ile kolay uygulama ve özelleştirme
- Gemini Robotics SDK sayesinde geliştiriciler modeli kendi ortamlarında test edebilir, MuJoCo fizik simülatörü ile deneyebilir ve çeşitli görevlere uygulayabilir
- Yalnızca 50~100 kadar küçük ölçekli demo ile bile yeni alanlara hızlı uyum sağlanabiliyor
Model capabilities and performance
- Gemini Robotics On-Device, çift kollu robotlar için uygun olacak şekilde minimum hesaplama kaynağıyla tasarlandı
- Hızlı deney, el becerisine dayalı manipülasyon, yerel çalışma ve düşük gecikmeli çıkarım için optimize edildi
- Doğal dil komutlarını algılıyor ve fermuar açma ya da kıyafet katlama gibi yüksek zorluktaki manipülasyonları doğrudan gerçekleştirebiliyor
- Mevcut on-device modellere kıyasla genel amaçlılık ve genelleme performansında üstün; karmaşık çok adımlı talimatları da etkili şekilde işleyebiliyor
- Daha yüksek performans ya da daha az kısıtlı bir ortam gerektiğinde, Gemini Robotics modelinin sunucu tabanlı sürümü de sunuluyor
Adaptable to new tasks, generalizable across embodiments
- Gemini Robotics On-Device, fine-tuning yapılabilen ilk VLA modeli
- 50~100 kadar demo ile yeni görevlere hızla uyum sağlıyor; farklı zorluk seviyelerindeki beceri odaklı görevlerde (fermuar kapatma, kart çekme, sos dökme gibi) rakip modellere göre daha yüksek uyum performansı gösteriyor
- Belirli bir robot (ALOHA) için eğitilmiş olsa da, ek eğitimle Franka FR3 ve Apollo humanoid gibi farklı robot biçimlerine de genişletilebiliyor
- Çeşitli talimatları, yeni nesneleri ve karmaşık endüstriyel görevleri (ör. kayış montajı) de işleyebiliyor
Responsible development and safety
- Model, AI Principles ve entegre güvenlik çerçevesi temel alınarak geliştirildi
- [Live API] ile anlamsal ve içerik güvenliği sağlanıyor; düşük seviyeli güvenlik denetleyicileriyle entegre edilerek gerçek çalışmadaki güvenlik güçlendiriliyor
- Semantic Safety Benchmark ve Red-Teaming gibi çeşitli değerlendirme sistemleriyle riskler inceleniyor
- Özel ekipler (Responsible Development & Innovation, RSC), toplumsal etki değerlendirmesi ve geri bildirim toplama çalışmalarını sürekli sürdürüyor
- Güvenilir tester gruplarına erken erişim verilerek ilk kullanılabilirlik ve güvenlik değerlendirmeleri toplanıyor
Accelerating innovation in robotics
- Gemini Robotics On-Device, robotik topluluğuna genel amaçlı ve uyarlanabilir yapay zeka modelleri sunarak gecikme ve bağlantı sorunlarının aşılmasına yardımcı olmayı hedefliyor
- SDK üzerinden hızlı uygulama ve görev uyumu özellikleriyle yeniliğin hızlanması bekleniyor
- Model ve SDK'ye Trusted Tester Program aracılığıyla erişilebiliyor
- Yapay zekanın fiziksel dünyadaki kullanım alanlarını genişletirken, robotik alanının geleceğine yön verecek bir vizyon sunuyor
1 yorum
Hacker News görüşleri
İnsansı robotik konusunda iyimser bir bakış açısına sahibim, ama güvenilirlik meselesini merak ediyorum. İnsan kolları, bacakları ve elleri dünyaya sürekli temas ederken doğal aşınma yaşasa da kendini toparlayabilen olağanüstü bir sistem
Endüstriyel robotlar güvenilirlik açısından son derece başarılı. MTBF (ortalama arıza aralığı) çoğu zaman 100.000 saatin üstünde oluyor. Buradaki kritik nokta, endüstriyel robotların kârlılığı artırmak için olabildiğince uzun süre arızasız çalışacak şekilde tasarlanması. Alman ve Japon şirketleri güvenilirliğe odaklanarak elektrikli aktüatörler geliştirdi ve endüstriyel robot pazarına hâkim oldu. Geçmişte ABD'li Cincinnati Millicron'un hidrolik robotları güçlüydü ama güvenilirlikleri düşük olduğu için rekabette geride kaldı. Ancak insan benzeri ellerde çok sayıda küçük parçanın büyük kuvvetlere dayanması gerektiğinden, endüstriyel robotlarla aynı güvenilirlik seviyesine ulaşmanın zor olduğuna dair şüpheci bir görüş de var ilgili bağlantı
Yakın geleceğin olasılıklarını düşününce hem çok heyecan verici hem de biraz ürkütücü geliyor. Önceden bunun belirli amaçlara odaklanacağını düşünüyordum (ör. sadece temizlik yapan robotlar), ama aslında hazır olduğunda çok genel amaçlı kullanılacak gibi görünüyor. Çok sayıda sensör ve motora ihtiyaç duyacaktır, ama otonom araçlara kıyasla hukuki riskin daha düşük ve gereken kaynakların daha az olması ilginç
Diğer robotların sarf parçalarını otomatik olarak değiştirmesi de mümkün olabilir diye düşünüyorum
Malzeme bilimindeki ek araştırmalarla bu sorunların da çözülebileceğini düşünüyorum. Tepkiselliği iyi ama torku düşük servo motorlarla birleşirse bunun da çözülebilir bir problem olduğunu düşünüyorum
Robotların zamanla bireysel olarak "farklı" hale gelmesi ilginç. Örneğin maden robotları gibi zorlu ortamlarda çalışanlarda parçalar tozla ciddi biçimde kirlenebilir, çeşitli yerleri aşınabilir ve kaya düşmesiyle eğilebilir. Başka bir robot geçici olarak tamir etse bile, zaman içinde tüm robotlar birbirinden biraz farklı hale gelecek gibi geliyor. Ticari uçak bakımında da çarpışma veya hasara göre her seferinde kendine özgü işlemler yapıldığı gibi, robotlarda da muhtemelen geri dönüşüm daha kolay bir çözüm olabilir
"trusted tester program"a katılmanın kolay olup olmadığını ve SDK'yı kolayca kullanmak için modüller sağlanıp sağlanmadığını merak ediyorum
SDK'nın hangi donanımda çalıştığını, en yeni Raspberry Pi'de de çalışıp çalışmadığını merak ediyorum
Blog gönderisine göre en az 8GB RAM'li NVIDIA Jetson Orin gerekiyor ve Jetson AGX Orin (64GB) ile Orin NX (16GB) modülleri için optimize edilmiş
Proje katkıcılarından birinin x'te bunun 4090 grafik kartında çalıştığını yazdığı belirtiliyor ilgili x bağlantısı
Temelde bu sistemin çok modlu bir LLM (büyük dil modeli) olarak düşünülebileceği söyleniyor. SmolVLA (0.5B parametre) gibi küçük modeller belirli görevlerde hızlı ve verimli olurken, OpenVLA (Llama2 7B finetune) daha genel görevler için kullanılan büyük bir model. Raspberry Pi'de de bazı özel amaçlı modeller çalıştırılabilir, daha genel modeller içinse yüksek performanslı tüketici donanımı yeterli olabilir
MuJoCo bağlantısı aslında github.com/google-deepmind/aloha_sim adresine gidiyor
Model mimarisini merak ediyorum; LLM'lerden oldukça farklı olacağını tahmin ediyorum. VLA mimarisini ayrıntılı anlatan bir bağlantı varsa paylaşılmasını isterim
Bu teknolojilerin kaçınılmaz olarak savaş makinelerinde de kullanılacağı kesin görünüyor. Cihaz üstü otonomi, merkezi otoriteyi veya sorumluluk takibini aşmak için ideal. Drone operatörlerinden farklı olarak bir insanı savaş suçuyla yargılamak da mümkün olmayacak. Askeri sözleşmeler o kadar büyük ki direnmek zor, ağır emeğin ortadan kalkışı da insanın bütünüyle devre dışı bırakılmasına giden bir akış gibi görünüyor. "AI-Powered Automation for Every Decision" ile insanların kârlı bir yaşam sürme imkânının yok olduğu bir gelecek çok açık biçimde yaklaşıyor palantir.com
Google'ın satın aldığı, MIT kökenli Boston Dynamics robotları askerîleştirmeyeceğine söz vermişti ama gerçekte DARPA, ABD Savunma Bakanlığı gibi askeri yatırım geçmişi olduğundan buna güvenmek çok zor
Esasen faydalı olan neredeyse her teknolojinin askeri bir uygulaması vardır. Bunun neden bu kadar hararetli bir tartışma konusu olduğunu anlamıyorum
Bu robotun savaş alanında dronlarla rekabet etmesi çok zor olur gibi geliyor. Muhtemelen 1000 otonom dronun fiyatına yaklaşan yüksek bir maliyet gerektirecek ve 100 kattan fazla zaman ve kaynak isteyecek. Dronlar gerçek savaş alanında (ör. Ukrayna) zaten küçük ama güçlü olduklarını kanıtladı; hareketi ne kadar çevik olursa olsun patlayıcı yüklü dronlardan kaçarak kurtulmak zor. Elinde pompalı tüfek tutan bir Terminator olsa bile, her biri için 5 dron konuşlandırmak kolay olabilir ve bu dronlar da başka bir otonom robot tarafından üretilebilir gibi geliyor
Google'ın yenilikçi ürünleri sessizce duyurup ardından hızla unutturması etkileyici. Büyük reklam kampanyaları yerine sadece bir blog yazısı yayımlanıyor, teknoloji topluluğu içinde biraz dolaşıp kayboluyor ve birkaç yıl sonra "ona ne oldu?" denilen durum tekrar ediyor. Ama bu ürün havalı görünüyor; umarım biri bunun üstüne harika bir startup kurar
Bir kahve içip API'den yanıt gelmesini bekleyeceğim
Robotun jailbreak yapıp banka soygunu gibi şeyler yapmasını engellemenin tek yolunun GPU'yu özel SOTA güvenlikli GPU bulutuna taşımak olduğunu düşünüyorum
Robotun istemleri işlerken çıldırmaması için Three Laws of Robotics benzeri koruma katmanları olup olmadığını merak ediyorum
Robotik Üç Yasası kurmaca bir çatışma düzeni için tasarlanmıştı; gerçek sistemlerde bunun gibi bir yaklaşım sorunlu olur. Gerçekte Gemini Robotics'in güvenlik tasarımı çok katmanlı. Model neyin güvenli olduğunu akıl yürütüyor, VLA yürütme seçenekleri üretiyor, en sonda da düşük seviye denetleyici (hız veya kuvvet sınırlamaları gibi kritik güvenlik işlevleri yerleşik) devreye giriyor
Bu tür araştırmaların genel terimi Constitutional AI ve birçok robotik VLA çalışmasında deneniyor / atıf alıyor ilgili makale
Şu anda uygulanan koruma katmanlarının üç yasadan çok IEC 61508'e (uluslararası işlevsel güvenlik standardı) daha yakın olduğu düşünülüyor
Gücü kesen bir kod da olduğundan söz ediliyor
Robotik Üç Yasası'nın pratikte anlamlı kurallar olmadığı görüşü de var