Google DeepMind, Gemini Robotics'i tanıttı

(deepmind.google)

4 puan yazan GN⁺ 2025-03-13 | 1 yorum | WhatsApp'ta paylaş

Gemini 2.0'ı robotiğe taşıyarak, görme-dil-eylem (VLA) modeli ile uzamsal anlayışa sahip bir ER modeli duyurdu
Google DeepMind, karmaşık problemleri çözmek için metin, görsel, ses ve videoyu kullanan çok modlu akıl yürütme yeteneklerini geliştiriyordu
Ancak bu yetenekler şimdiye kadar yalnızca dijital ortamlarla sınırlıydı
Yapay zekanın fiziksel dünyada faydalı olabilmesi için insan gibi çevreyi anlayıp tepki vermesi ve işleri güvenli şekilde yerine getirmesini sağlayan "bedensel akıl yürütme (embodied reasoning)" yeteneğine ihtiyaç var
Bu doğrultuda iki yeni model duyuruldu
- Gemini Robotics: Gemini 2.0 tabanlı, robotları doğrudan kontrol edebilen bir görme-dil-eylem (VLA) modeli
- Gemini Robotics-ER: gelişmiş uzamsal kavrayış ve robot kontrol yetenekleri sunan model
Apptronik ile iş birliği içinde yeni nesil insansı robotlar geliştiriliyor
Az sayıdaki güvenilir test kullanıcısıyla birlikte model performansı iyileştiriliyor

Gemini Robotics: En gelişmiş görme-dil-eylem modeli

1. Genelleme yeteneği (Generality)

Yeni durumlara uyum sağlayabiliyor ve çeşitli görevleri yerine getirebiliyor
Yeni nesneler, komutlar ve ortamlarda yüksek performans gösteriyor
Teknik rapora göre, mevcut VLA modellere kıyasla genelleme performansı 2 katın üzerinde arttı

2. Etkileşim yeteneği (Interactivity)

Doğal dil komutlarını anlayıp yanıtlayabiliyor
Farklı dillerde ve günlük konuşma dilindeki komutlara yanıt verebiliyor
Ortamdaki değişikliklere gerçek zamanlı tepki vererek davranışını ayarlayabiliyor
Bir nesne elinden kaysa ya da yeri değişse bile anında yeniden plan yaparak göreve devam edebiliyor

3. El becerisi (Dexterity)

Hassas görevleri yerine getirme kabiliyeti güçlendirildi
Karmaşık çok adımlı görevleri yapabiliyor (ör. origami, fermuarlı poşete atıştırmalık koyma)

4. Farklı robot biçimlerine uygulanabilirlik (Multiple embodiments)

Çeşitli robot türlerine kolayca uygulanabiliyor
ALOHA 2, Franka tabanlı robotlar ve insansı Apollo robotunda çalıştığı doğrulandı

Gemini Robotics-ER: Güçlendirilmiş uzamsal anlayış

Gemini 2.0'ın uzamsal farkındalık ve 3D algılama performansı büyük ölçüde geliştirildi
Robot, nesnelerin konumunu algılayıp uygun şekilde manipüle edebiliyor
Kod üretme yeteneği ile birleştirilerek robotun yeni görev yöntemlerini anında oluşturabilmesi sağlandı
Başarı oranı, Gemini 2.0'a kıyasla 2 ila 3 kat arttı
Demo örneği: kahve fincanının kulpunu algılayıp güvenli bir rotadan yaklaşarak kaldırıyor

Yapay zeka ve robotlarda güvenliği artırma stratejisi

Robotların fiziksel güvenlik sorunlarını çözmeye odaklanıyor
Robotlar; çarpışma önleme, temas kuvvetini sınırlama ve dinamik dengeyi koruma gibi geleneksel güvenlik önlemlerini uyguluyor
Gemini Robotics-ER, güvenlik endişesi oluştuğunda görevin yapılıp yapılmayacağını değerlendirip uygun şekilde yanıt veriyor
Yeni ASIMOV veri kümesi yayımlandı → robot davranışlarının güvenliğini değerlendirmek ve iyileştirmek için
Etik sorunları çözmek için iç sorumluluk ve güvenlik komiteleri ile dış uzmanlarla birlikte çalışılıyor

Başlıca iş ortakları ve gelecek planları

Apptronik ile birlikte insansı robot geliştiriliyor
Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools gibi şirketlerde Gemini Robotics-ER test ediliyor
Gelecekte yapay zeka ve robotik teknolojilerinin geliştirilmesi sürdürülecek

İlgili bağlantılar

1 yorum

GN⁺ 2025-03-13

Hacker News görüşleri

YouTube'da 20 video demoyu izleyebileceğiniz tam oynatma listesine bir bağlantı var
Daha önce Google Gemini'nin etkileyici demolarının manipüle edildiğini hatırlayan kimse olup olmadığını merak ediyor
Asimov'un robot yasalarının ilginç bir bilim kurgu unsuru olduğunu ama gerçek bilişimden uzak kaldığını düşünüyordu
- Meğerse Asimov zamanının ötesinde davranıp LLM prompt'ları yazıyormuş
Çöp ayırma daha kolay ve hızlı hale gelirse geri dönüşüm verimliliğini 100 kat artırabilir
- Bunu zaten yapan yerler var ama robotların dünyayı iyileştirebileceği çok sayıda basit iş bulunuyor
Ana videonun sonunda robotun kasnağa dairesel bir kayış taktığı sahne etkileyiciydi
- Eğitim verilerinde buna benzer çok davranış vardır ama gömlek katlama ya da nesne sınıflandırmadan daha sezgisel geldi
- Sayfadaki video otomatik oynatma/duraklatma/kaydırma işlevi bozuk gibi görünüyor
Gerçek zamanlı çift yönlü çevirmen gibi çalışan bir cihaz istiyor
- Almanca ya da başka bir dili öğrenmek için zaman harcamadan orada yaşayabilmek güzel olurdu
- Sadece İngilizceyle yemek siparişi verebilmek ve resmi işlemleri halledebilmek inanılmaz olurdu
Herkes Çin'den bir robot kol sipariş edip garajına kurabilecek ve onu LLM'ler gibi metinle programlayabilecek
- Daha büyük düşünmenin zamanı geldi
Videonun gerçek performansı mı gösterdiğinden yoksa bir pazarlama taktiği mi olduğundan emin değil ama etkileyici
- Iron Man 1'deki robot kollarını hatırlatıyor
Robotlar yemek hazırlayabilecek kadar becerikli hale gelirse bu, iş gücü piyasası için bir dönüm noktası olur
- Mevcut model henüz o seviyede değil ama önümüzdeki birkaç yılda sentetik veri üretimine yapılacak büyük yatırımların bu seviyeye yaklaştırıp yaklaştırmayacağını göreceğiz
Google'ın sorunu, reklam işinin o kadar çok gelir getirmesi ki diğer ürünlerin anlamsız kalması
- Robotlar aracılığıyla öğrendiklerini reklam gelirini artırmak için kullanacak

Google DeepMind, Gemini Robotics'i tanıttı

Gemini Robotics: En gelişmiş görme-dil-eylem modeli

1. Genelleme yeteneği (Generality)

2. Etkileşim yeteneği (Interactivity)

3. El becerisi (Dexterity)

4. Farklı robot biçimlerine uygulanabilirlik (Multiple embodiments)

Gemini Robotics-ER: Güçlendirilmiş uzamsal anlayış

Yapay zeka ve robotlarda güvenliği artırma stratejisi

Başlıca iş ortakları ve gelecek planları

İlgili bağlantılar

İlgili okumalar

1 yorum

Hacker News görüşleri