Google, Gemini Robotics modelini nasıl geliştirdi
(blog.google)- Google DeepMind, fiziksel görevleri yerine getirebilen yeni nesil robotlar için çok modlu yapay zeka modeli Gemini Robotics'i geliştirdi
- Bu model, Gemini 2.0'ın robotlara özel verilerle ince ayar yapılmış bir sürümü ve metin, video, sesin yanı sıra gerçek eylemleri de gerçekleştirebiliyor
- Robot, salata hazırlama, tic-tac-toe oynama, origami yapma, öğle yemeği kutusu paketleme gibi çeşitli görevleri yerine getirebiliyor
Gerçek test örnekleri ve potansiyelin doğrulanması
- Araştırma amaçlı ALOHA çift kollu robot üzerinde çeşitli görev istekleri denendi
- Örnek: ayakkabının içine kalem koymak, basketbol topuyla smaç yapmak gibi istekler
- Robot, daha önce hiç görmediği nesneler ve görevler olsa da isteği anlayıp ilk denemede başarıyla yerine getirdi
- Mevcut modellerden farklı olarak karmaşık fiziksel komutları doğal dille anlayıp uygulayabiliyor
Gemini Robotics'in temel özellikleri
- Yüksek esneklik, etkileşim yeteneği ve genelleme kabiliyeti sunuyor
- Ek eğitim olmadan yeni nesnelere, ortamlara ve talimatlara uyum sağlayabiliyor
- Yapay zeka ile robotları tek bir birleşik ajan olarak hayata geçirebilecek bir temel oluşturuyor
- İnsana benzer algılama, karar verme ve hareket kabiliyeti sağlıyor
Bileşen modeller
-
Gemini Robotics-ER (Embodied Reasoning):
- Gemini 2.0 Flash tabanlı
- Nesne tanıma, konum belirleme, hareket yörüngesi tahmini ve tutuş ayarı gibi işlevlerle kod üretip çalıştırıyor
- Güvenilir test kullanıcıları ve iş ortaklarına açılmış durumda
-
Gemini Robotics:
- Görüntü-dil-eylem entegre modeli
- Sahneyi anlayabiliyor, kullanıcıyla etkileşime girebiliyor ve çok aşamalı görevleri yerine getirebiliyor
- Karmaşık manipülasyon ve mekansal akıl yürütme gerektiren görevlerde en güncel en yüksek düzey el becerisi performansı sergiliyor
Somut teknik yetenekler
- 2D ve 3D nesne tespiti
- İşaret etme özelliği
- Birden fazla görünüm arasında eşleşen noktaları bulma
- Çeşitli görsel bilgileri kullanarak manipülasyon yapabilme
Eğitim yaklaşımı ve avantajları
- Geleneksel endüstriyel yöntem olan tek bir görevin tekrarına dayalı eğitim yerine, çeşitli görevler üzerinden geniş kapsamlı öğrenme tercih edildi
- Bunun sonucunda genelleme kabiliyeti doğal olarak ortaya çıktı
- Farklı robot biçimlerine uygulanabiliyor
- Örnek: ALOHA (araştırma amaçlı), Apptronik'in Apollo'su (insansı robot)
Farklı robot biçimlerini destekleme
- Yemek kutusu paketleme, beyaz tahtayı silme, küçük nesneleri alma gibi görevlerde farklı robot türleri kullanılabiliyor
- Temel nokta, tek bir modelin birden fazla robota uyum sağlayabilmesi
Gelecek vizyonu
- Hassas görevlerin gerektiği ya da insanlar için uygun olmayan ortamlardaki endüstrilerde faydalı olması bekleniyor
- Ev gibi insan merkezli ortamlarda da yardımcı olabilecek robotlara dönüşme potansiyeli taşıyor
- Gerçek günlük yaşamda robotlar, yapay zeka ile etkileşimin başka bir arayüzü haline gelebilir
1 yorum
Hacker News yorumları