Google DeepMind, robot cihazlar için optimize edilen yapay zeka "Gemini Robotics On-Device"i tanıttı

(deepmind.google)

5 puan yazan GN⁺ 2025-06-26 | 1 yorum | WhatsApp'ta paylaş

Robotlara doğrudan entegre edilip kullanılmak üzere optimize edilmiş, yüksek genellenebilirliğe sahip bir VLA (vision-language-action) modeli
Hızlı görev uyumu ve genel amaçlı manipülasyon becerisi sunuyor; internet bağlantısı olmadan yerelde çalışarak düşük gecikme ve dayanıklılık sağlıyor
Çok az hesaplama kaynağı gerektiriyor ve çift kollu robot tabanlı hassas manipülasyon ile hızlı görev geçişi yeteneklerine sahip
Geliştiriciler, Gemini Robotics SDK ile modeli kendi ortamlarına hızla test edebiliyor; yalnızca 50~100 kadar küçük ölçekli demo ile bile hızlı görev uyumu mümkün
Diğer on-device modellere kıyasla daha yüksek genelleme ve uyum performansı gösteriyor; karmaşık talimatları ve yeni görevleri de verimli biçimde yerine getiriyor
Güvenlik ve sorumlu geliştirme ilkeleri uygulanarak, gerçek ortamlar ve toplumsal etkilere yönelik risk minimizasyonu ile geri bildirim toplama sistemi devreye alındı

We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation

Gemini Robotics On-Device, yerel robotik cihazlarda doğrudan çalışacak şekilde tasarlanmış yüksek verimli bir VLA (vision-language-action) modeli
Mart ayında tanıtılan Gemini Robotics'in çok modlu akıl yürütme yeteneğini ve gerçek dünya anlayışını fiziksel ortamlara taşıyor
On-device modelin güçlü yönleri
- Ağ bağlantısı olmadan bağımsız şekilde çalışabildiği için, düşük gecikme gerektiren ya da bağlantının kararsız olduğu ortamlarda avantaj sağlıyor
- Yerel ortama optimize edildiğinden hızlı gerçek zamanlı görev yürütme mümkün
- Çeşitli görsel, anlamsal ve davranışsal genelleme yeteneklerine sahip
- Çift kollu robotlarla hassas manipülasyon görevleri gerçekleştirebiliyor (fermuar açma, kıyafet katlama gibi)
- Doğal dil talimatlarını anlayıp karmaşık, çok aşamalı görevleri yerine getirebiliyor

SDK ile kolay uygulama ve özelleştirme

Gemini Robotics SDK sayesinde geliştiriciler modeli kendi ortamlarında test edebilir, MuJoCo fizik simülatörü ile deneyebilir ve çeşitli görevlere uygulayabilir
Yalnızca 50~100 kadar küçük ölçekli demo ile bile yeni alanlara hızlı uyum sağlanabiliyor

Model capabilities and performance

Gemini Robotics On-Device, çift kollu robotlar için uygun olacak şekilde minimum hesaplama kaynağıyla tasarlandı
Hızlı deney, el becerisine dayalı manipülasyon, yerel çalışma ve düşük gecikmeli çıkarım için optimize edildi
Doğal dil komutlarını algılıyor ve fermuar açma ya da kıyafet katlama gibi yüksek zorluktaki manipülasyonları doğrudan gerçekleştirebiliyor
Mevcut on-device modellere kıyasla genel amaçlılık ve genelleme performansında üstün; karmaşık çok adımlı talimatları da etkili şekilde işleyebiliyor
Daha yüksek performans ya da daha az kısıtlı bir ortam gerektiğinde, Gemini Robotics modelinin sunucu tabanlı sürümü de sunuluyor

Adaptable to new tasks, generalizable across embodiments

Gemini Robotics On-Device, fine-tuning yapılabilen ilk VLA modeli
50~100 kadar demo ile yeni görevlere hızla uyum sağlıyor; farklı zorluk seviyelerindeki beceri odaklı görevlerde (fermuar kapatma, kart çekme, sos dökme gibi) rakip modellere göre daha yüksek uyum performansı gösteriyor
Belirli bir robot (ALOHA) için eğitilmiş olsa da, ek eğitimle Franka FR3 ve Apollo humanoid gibi farklı robot biçimlerine de genişletilebiliyor
Çeşitli talimatları, yeni nesneleri ve karmaşık endüstriyel görevleri (ör. kayış montajı) de işleyebiliyor

Responsible development and safety

Model, AI Principles ve entegre güvenlik çerçevesi temel alınarak geliştirildi
[Live API] ile anlamsal ve içerik güvenliği sağlanıyor; düşük seviyeli güvenlik denetleyicileriyle entegre edilerek gerçek çalışmadaki güvenlik güçlendiriliyor
Semantic Safety Benchmark ve Red-Teaming gibi çeşitli değerlendirme sistemleriyle riskler inceleniyor
Özel ekipler (Responsible Development & Innovation, RSC), toplumsal etki değerlendirmesi ve geri bildirim toplama çalışmalarını sürekli sürdürüyor
Güvenilir tester gruplarına erken erişim verilerek ilk kullanılabilirlik ve güvenlik değerlendirmeleri toplanıyor

Accelerating innovation in robotics

Gemini Robotics On-Device, robotik topluluğuna genel amaçlı ve uyarlanabilir yapay zeka modelleri sunarak gecikme ve bağlantı sorunlarının aşılmasına yardımcı olmayı hedefliyor
SDK üzerinden hızlı uygulama ve görev uyumu özellikleriyle yeniliğin hızlanması bekleniyor
Model ve SDK'ye Trusted Tester Program aracılığıyla erişilebiliyor
Yapay zekanın fiziksel dünyadaki kullanım alanlarını genişletirken, robotik alanının geleceğine yön verecek bir vizyon sunuyor

1 yorum

GN⁺ 2025-06-26

Hacker News görüşleri

İnsansı robotik konusunda iyimser bir bakış açısına sahibim, ama güvenilirlik meselesini merak ediyorum. İnsan kolları, bacakları ve elleri dünyaya sürekli temas ederken doğal aşınma yaşasa da kendini toparlayabilen olağanüstü bir sistem
- Endüstriyel robotlar güvenilirlik açısından son derece başarılı. MTBF (ortalama arıza aralığı) çoğu zaman 100.000 saatin üstünde oluyor. Buradaki kritik nokta, endüstriyel robotların kârlılığı artırmak için olabildiğince uzun süre arızasız çalışacak şekilde tasarlanması. Alman ve Japon şirketleri güvenilirliğe odaklanarak elektrikli aktüatörler geliştirdi ve endüstriyel robot pazarına hâkim oldu. Geçmişte ABD'li Cincinnati Millicron'un hidrolik robotları güçlüydü ama güvenilirlikleri düşük olduğu için rekabette geride kaldı. Ancak insan benzeri ellerde çok sayıda küçük parçanın büyük kuvvetlere dayanması gerektiğinden, endüstriyel robotlarla aynı güvenilirlik seviyesine ulaşmanın zor olduğuna dair şüpheci bir görüş de var ilgili bağlantı
- Yakın geleceğin olasılıklarını düşününce hem çok heyecan verici hem de biraz ürkütücü geliyor. Önceden bunun belirli amaçlara odaklanacağını düşünüyordum (ör. sadece temizlik yapan robotlar), ama aslında hazır olduğunda çok genel amaçlı kullanılacak gibi görünüyor. Çok sayıda sensör ve motora ihtiyaç duyacaktır, ama otonom araçlara kıyasla hukuki riskin daha düşük ve gereken kaynakların daha az olması ilginç
- Diğer robotların sarf parçalarını otomatik olarak değiştirmesi de mümkün olabilir diye düşünüyorum
- Malzeme bilimindeki ek araştırmalarla bu sorunların da çözülebileceğini düşünüyorum. Tepkiselliği iyi ama torku düşük servo motorlarla birleşirse bunun da çözülebilir bir problem olduğunu düşünüyorum
- Robotların zamanla bireysel olarak "farklı" hale gelmesi ilginç. Örneğin maden robotları gibi zorlu ortamlarda çalışanlarda parçalar tozla ciddi biçimde kirlenebilir, çeşitli yerleri aşınabilir ve kaya düşmesiyle eğilebilir. Başka bir robot geçici olarak tamir etse bile, zaman içinde tüm robotlar birbirinden biraz farklı hale gelecek gibi geliyor. Ticari uçak bakımında da çarpışma veya hasara göre her seferinde kendine özgü işlemler yapıldığı gibi, robotlarda da muhtemelen geri dönüşüm daha kolay bir çözüm olabilir
"trusted tester program"a katılmanın kolay olup olmadığını ve SDK'yı kolayca kullanmak için modüller sağlanıp sağlanmadığını merak ediyorum
- İlgili yazının altında bir kayıt düğmesi olduğu belirtiliyor
SDK'nın hangi donanımda çalıştığını, en yeni Raspberry Pi'de de çalışıp çalışmadığını merak ediyorum
- Blog gönderisine göre en az 8GB RAM'li NVIDIA Jetson Orin gerekiyor ve Jetson AGX Orin (64GB) ile Orin NX (16GB) modülleri için optimize edilmiş
- Proje katkıcılarından birinin x'te bunun 4090 grafik kartında çalıştığını yazdığı belirtiliyor ilgili x bağlantısı
- Temelde bu sistemin çok modlu bir LLM (büyük dil modeli) olarak düşünülebileceği söyleniyor. SmolVLA (0.5B parametre) gibi küçük modeller belirli görevlerde hızlı ve verimli olurken, OpenVLA (Llama2 7B finetune) daha genel görevler için kullanılan büyük bir model. Raspberry Pi'de de bazı özel amaçlı modeller çalıştırılabilir, daha genel modeller içinse yüksek performanslı tüketici donanımı yeterli olabilir
MuJoCo bağlantısı aslında github.com/google-deepmind/aloha_sim adresine gidiyor
- mujoco_menagerie içinde çeşitli robotların Mujoco MJCF XML modelleri bulunuyor google-deepmind/mujoco_menagerie / aloha modeli
Model mimarisini merak ediyorum; LLM'lerden oldukça farklı olacağını tahmin ediyorum. VLA mimarisini ayrıntılı anlatan bir bağlantı varsa paylaşılmasını isterim
- Aslında yapının LLM'lere oldukça yakın olduğu düşünülüyor. Bu bir "Visual Language Action" VLA modeli ve Gemini 2.0 tabanlı. Gemini 2.0 dili, sesi ve videoyu doğal olarak desteklediği için "action" verisini de içerebildiği tahmin edilebilir. Muhtemelen çıktı fine-tuning aşamasında eylem verisi eklenmiş bir yapı. Bu tür doğal çok modlu LLM'lerin yakında "beyin" rolünü üstleneceği düşünülüyor
Bu teknolojilerin kaçınılmaz olarak savaş makinelerinde de kullanılacağı kesin görünüyor. Cihaz üstü otonomi, merkezi otoriteyi veya sorumluluk takibini aşmak için ideal. Drone operatörlerinden farklı olarak bir insanı savaş suçuyla yargılamak da mümkün olmayacak. Askeri sözleşmeler o kadar büyük ki direnmek zor, ağır emeğin ortadan kalkışı da insanın bütünüyle devre dışı bırakılmasına giden bir akış gibi görünüyor. "AI-Powered Automation for Every Decision" ile insanların kârlı bir yaşam sürme imkânının yok olduğu bir gelecek çok açık biçimde yaklaşıyor palantir.com
- Google'ın satın aldığı, MIT kökenli Boston Dynamics robotları askerîleştirmeyeceğine söz vermişti ama gerçekte DARPA, ABD Savunma Bakanlığı gibi askeri yatırım geçmişi olduğundan buna güvenmek çok zor
- Esasen faydalı olan neredeyse her teknolojinin askeri bir uygulaması vardır. Bunun neden bu kadar hararetli bir tartışma konusu olduğunu anlamıyorum
- Bu robotun savaş alanında dronlarla rekabet etmesi çok zor olur gibi geliyor. Muhtemelen 1000 otonom dronun fiyatına yaklaşan yüksek bir maliyet gerektirecek ve 100 kattan fazla zaman ve kaynak isteyecek. Dronlar gerçek savaş alanında (ör. Ukrayna) zaten küçük ama güçlü olduklarını kanıtladı; hareketi ne kadar çevik olursa olsun patlayıcı yüklü dronlardan kaçarak kurtulmak zor. Elinde pompalı tüfek tutan bir Terminator olsa bile, her biri için 5 dron konuşlandırmak kolay olabilir ve bu dronlar da başka bir otonom robot tarafından üretilebilir gibi geliyor
Google'ın yenilikçi ürünleri sessizce duyurup ardından hızla unutturması etkileyici. Büyük reklam kampanyaları yerine sadece bir blog yazısı yayımlanıyor, teknoloji topluluğu içinde biraz dolaşıp kayboluyor ve birkaç yıl sonra "ona ne oldu?" denilen durum tekrar ediyor. Ama bu ürün havalı görünüyor; umarım biri bunun üstüne harika bir startup kurar
- Google'ın bu tür projelerdeki temel amacı düzenleyici kurumları dengelemek. Böyle ürünleri gelir elde etmek için çıkarmıyorlar; bilinçli olarak para yakıp geçiyorlar ve bu özgürlük de ancak tekel konumundaki bir şirket için mümkün
Bir kahve içip API'den yanıt gelmesini bekleyeceğim
Robotun jailbreak yapıp banka soygunu gibi şeyler yapmasını engellemenin tek yolunun GPU'yu özel SOTA güvenlikli GPU bulutuna taşımak olduğunu düşünüyorum
Robotun istemleri işlerken çıldırmaması için Three Laws of Robotics benzeri koruma katmanları olup olmadığını merak ediyorum
- Robotik Üç Yasası kurmaca bir çatışma düzeni için tasarlanmıştı; gerçek sistemlerde bunun gibi bir yaklaşım sorunlu olur. Gerçekte Gemini Robotics'in güvenlik tasarımı çok katmanlı. Model neyin güvenli olduğunu akıl yürütüyor, VLA yürütme seçenekleri üretiyor, en sonda da düşük seviye denetleyici (hız veya kuvvet sınırlamaları gibi kritik güvenlik işlevleri yerleşik) devreye giriyor
- Bu tür araştırmaların genel terimi Constitutional AI ve birçok robotik VLA çalışmasında deneniyor / atıf alıyor ilgili makale
- Şu anda uygulanan koruma katmanlarının üç yasadan çok IEC 61508'e (uluslararası işlevsel güvenlik standardı) daha yakın olduğu düşünülüyor
- Gücü kesen bir kod da olduğundan söz ediliyor
- Robotik Üç Yasası'nın pratikte anlamlı kurallar olmadığı görüşü de var

Google DeepMind, robot cihazlar için optimize edilen yapay zeka "Gemini Robotics On-Device"i tanıttı

We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation

On-device modelin güçlü yönleri

SDK ile kolay uygulama ve özelleştirme

Model capabilities and performance

Adaptable to new tasks, generalizable across embodiments

Responsible development and safety

Accelerating innovation in robotics

İlgili okumalar

1 yorum

Hacker News görüşleri