Google, Gemini Robotics modelini nasıl geliştirdi

(blog.google)

6 puan yazan GN⁺ 2025-04-04 | 1 yorum | WhatsApp'ta paylaş

Google DeepMind, fiziksel görevleri yerine getirebilen yeni nesil robotlar için çok modlu yapay zeka modeli Gemini Robotics'i geliştirdi
Bu model, Gemini 2.0'ın robotlara özel verilerle ince ayar yapılmış bir sürümü ve metin, video, sesin yanı sıra gerçek eylemleri de gerçekleştirebiliyor
Robot, salata hazırlama, tic-tac-toe oynama, origami yapma, öğle yemeği kutusu paketleme gibi çeşitli görevleri yerine getirebiliyor

Gerçek test örnekleri ve potansiyelin doğrulanması

Araştırma amaçlı ALOHA çift kollu robot üzerinde çeşitli görev istekleri denendi
- Örnek: ayakkabının içine kalem koymak, basketbol topuyla smaç yapmak gibi istekler
- Robot, daha önce hiç görmediği nesneler ve görevler olsa da isteği anlayıp ilk denemede başarıyla yerine getirdi
Mevcut modellerden farklı olarak karmaşık fiziksel komutları doğal dille anlayıp uygulayabiliyor

Gemini Robotics'in temel özellikleri

Yüksek esneklik, etkileşim yeteneği ve genelleme kabiliyeti sunuyor
- Ek eğitim olmadan yeni nesnelere, ortamlara ve talimatlara uyum sağlayabiliyor
Yapay zeka ile robotları tek bir birleşik ajan olarak hayata geçirebilecek bir temel oluşturuyor
İnsana benzer algılama, karar verme ve hareket kabiliyeti sağlıyor

Bileşen modeller

Gemini Robotics-ER (Embodied Reasoning):
- Gemini 2.0 Flash tabanlı
- Nesne tanıma, konum belirleme, hareket yörüngesi tahmini ve tutuş ayarı gibi işlevlerle kod üretip çalıştırıyor
- Güvenilir test kullanıcıları ve iş ortaklarına açılmış durumda
Gemini Robotics:
- Görüntü-dil-eylem entegre modeli
- Sahneyi anlayabiliyor, kullanıcıyla etkileşime girebiliyor ve çok aşamalı görevleri yerine getirebiliyor
- Karmaşık manipülasyon ve mekansal akıl yürütme gerektiren görevlerde en güncel en yüksek düzey el becerisi performansı sergiliyor

Somut teknik yetenekler

2D ve 3D nesne tespiti
İşaret etme özelliği
Birden fazla görünüm arasında eşleşen noktaları bulma
Çeşitli görsel bilgileri kullanarak manipülasyon yapabilme

Eğitim yaklaşımı ve avantajları

Geleneksel endüstriyel yöntem olan tek bir görevin tekrarına dayalı eğitim yerine, çeşitli görevler üzerinden geniş kapsamlı öğrenme tercih edildi
Bunun sonucunda genelleme kabiliyeti doğal olarak ortaya çıktı
Farklı robot biçimlerine uygulanabiliyor
- Örnek: ALOHA (araştırma amaçlı), Apptronik'in Apollo'su (insansı robot)

Farklı robot biçimlerini destekleme

Yemek kutusu paketleme, beyaz tahtayı silme, küçük nesneleri alma gibi görevlerde farklı robot türleri kullanılabiliyor
Temel nokta, tek bir modelin birden fazla robota uyum sağlayabilmesi

Gelecek vizyonu

Hassas görevlerin gerektiği ya da insanlar için uygun olmayan ortamlardaki endüstrilerde faydalı olması bekleniyor
Ev gibi insan merkezli ortamlarda da yardımcı olabilecek robotlara dönüşme potansiyeli taşıyor
Gerçek günlük yaşamda robotlar, yapay zeka ile etkileşimin başka bir arayüzü haline gelebilir

1 yorum

GN⁺ 2025-04-04

Hacker News yorumları

Bunu yapabiliyorlar ama Pixel telefonlardaki Gemini Assistant hâlâ zamanlayıcı kurma ya da alışveriş listesine öğe ekleme konusunda başarısız oluyor. (Google Assistant'ta gayet iyi çalışıyordu)
"Nasıl" olduğuna dair hiçbir açıklama yok ama bu özellik yarı yarıya bile güvenilir çalışırsa ChatGPT'den yaklaşık 100 kat daha büyük bir etki yaratır
Yapay zeka ve robotikteki ilerlemeler çok heyecan verici. Gemini gibi karmaşık sistemler nedeniyle şirketler, bu yenilikleri hayata geçirmek için uzman ekiplere bağımlı kalacak gibi görünüyor
- AI research veya robotics engineer gibi belirli rolleri dış kaynak kullanımıyla karşılayarak şirketler, tam zamanlı işe alım yükü olmadan en üst düzey yetenekleri bünyelerine katabilir
- Dış kaynak kullanımının robotik gibi ileri teknoloji sektörlerinde Ar-Ge'yi nasıl tamamlayabildiğini görmek ilginç
- Özellikle ölçeklenebilirlik ve pazara giriş hızı açısından sektörün nasıl değişeceğini merak ediyorum
Sonunda birileri ev işlerinde yardımcı olacak gibi görünüyor
- Ah, güzel. Sadece tüm bunların arkasında askerî amaçlar varken, bize çamaşırlarımızı katlayacaklarını düşündürmeye çalışmaları harika
"Basketbol topunu al ve smaç bas." Uzun zamandır beklediğimiz killer use case buydu :)
Google'ın robotik teknolojisi (yazılım ve donanım) son teknoloji olsa bile, bunu gerçekten ürüne dönüştürüp dönüştüremeyecekleri şüpheli
- Transformer'larda öncüydüler ama tüm avantajlarını ChatGPT'ye kaptırmış gibi görünüyorlar
- Google'ın araştırmadan ürüne etkili biçimde geçmesini engelleyen bir şey var gibi
- Waymo'nun bugün product-market fit'e ulaştığını düşünüyorsanız bu iyi bir karşı örnek olabilir ama Google'ın çoğu zaman ya bir şeyi pazara çıkaramadığı ya da çıkarsa bile tutunmadan önce vazgeçtiği hissinden kurtulamıyorum
- Robotik çabaları hakkında güçlü bir görüşü veya içgörüsü olan biri var mı merak ediyorum
Bu tür robotların bir gün savunma sanayisinde kullanılma ihtimalini düşünmek ürkütücü
- Bir robot "silgiyi yerine koy" gibi genel bir komutu anlayabiliyorsa, "bütün düşmanları ortadan kaldır" komutunu düşünün
Sadece merak ediyorum, birine öldürmesini emredersen ne yapar? Robotik yasalarına uyar mı?
1 Nisan!

Google, Gemini Robotics modelini nasıl geliştirdi

Gerçek test örnekleri ve potansiyelin doğrulanması

Gemini Robotics'in temel özellikleri

Bileşen modeller

Somut teknik yetenekler

Eğitim yaklaşımı ve avantajları

Farklı robot biçimlerini destekleme

Gelecek vizyonu

İlgili okumalar

1 yorum

Hacker News yorumları