6 puan yazan GN⁺ 2025-04-04 | 1 yorum | WhatsApp'ta paylaş
  • Google DeepMind, fiziksel görevleri yerine getirebilen yeni nesil robotlar için çok modlu yapay zeka modeli Gemini Robotics'i geliştirdi
  • Bu model, Gemini 2.0'ın robotlara özel verilerle ince ayar yapılmış bir sürümü ve metin, video, sesin yanı sıra gerçek eylemleri de gerçekleştirebiliyor
  • Robot, salata hazırlama, tic-tac-toe oynama, origami yapma, öğle yemeği kutusu paketleme gibi çeşitli görevleri yerine getirebiliyor

Gerçek test örnekleri ve potansiyelin doğrulanması

  • Araştırma amaçlı ALOHA çift kollu robot üzerinde çeşitli görev istekleri denendi
    • Örnek: ayakkabının içine kalem koymak, basketbol topuyla smaç yapmak gibi istekler
    • Robot, daha önce hiç görmediği nesneler ve görevler olsa da isteği anlayıp ilk denemede başarıyla yerine getirdi
  • Mevcut modellerden farklı olarak karmaşık fiziksel komutları doğal dille anlayıp uygulayabiliyor

Gemini Robotics'in temel özellikleri

  • Yüksek esneklik, etkileşim yeteneği ve genelleme kabiliyeti sunuyor
    • Ek eğitim olmadan yeni nesnelere, ortamlara ve talimatlara uyum sağlayabiliyor
  • Yapay zeka ile robotları tek bir birleşik ajan olarak hayata geçirebilecek bir temel oluşturuyor
  • İnsana benzer algılama, karar verme ve hareket kabiliyeti sağlıyor

Bileşen modeller

  • Gemini Robotics-ER (Embodied Reasoning):

    • Gemini 2.0 Flash tabanlı
    • Nesne tanıma, konum belirleme, hareket yörüngesi tahmini ve tutuş ayarı gibi işlevlerle kod üretip çalıştırıyor
    • Güvenilir test kullanıcıları ve iş ortaklarına açılmış durumda
  • Gemini Robotics:

    • Görüntü-dil-eylem entegre modeli
    • Sahneyi anlayabiliyor, kullanıcıyla etkileşime girebiliyor ve çok aşamalı görevleri yerine getirebiliyor
    • Karmaşık manipülasyon ve mekansal akıl yürütme gerektiren görevlerde en güncel en yüksek düzey el becerisi performansı sergiliyor

Somut teknik yetenekler

  • 2D ve 3D nesne tespiti
  • İşaret etme özelliği
  • Birden fazla görünüm arasında eşleşen noktaları bulma
  • Çeşitli görsel bilgileri kullanarak manipülasyon yapabilme

Eğitim yaklaşımı ve avantajları

  • Geleneksel endüstriyel yöntem olan tek bir görevin tekrarına dayalı eğitim yerine, çeşitli görevler üzerinden geniş kapsamlı öğrenme tercih edildi
  • Bunun sonucunda genelleme kabiliyeti doğal olarak ortaya çıktı
  • Farklı robot biçimlerine uygulanabiliyor
    • Örnek: ALOHA (araştırma amaçlı), Apptronik'in Apollo'su (insansı robot)

Farklı robot biçimlerini destekleme

  • Yemek kutusu paketleme, beyaz tahtayı silme, küçük nesneleri alma gibi görevlerde farklı robot türleri kullanılabiliyor
  • Temel nokta, tek bir modelin birden fazla robota uyum sağlayabilmesi

Gelecek vizyonu

  • Hassas görevlerin gerektiği ya da insanlar için uygun olmayan ortamlardaki endüstrilerde faydalı olması bekleniyor
  • Ev gibi insan merkezli ortamlarda da yardımcı olabilecek robotlara dönüşme potansiyeli taşıyor
  • Gerçek günlük yaşamda robotlar, yapay zeka ile etkileşimin başka bir arayüzü haline gelebilir

1 yorum

 
GN⁺ 2025-04-04
Hacker News yorumları
  • Bunu yapabiliyorlar ama Pixel telefonlardaki Gemini Assistant hâlâ zamanlayıcı kurma ya da alışveriş listesine öğe ekleme konusunda başarısız oluyor. (Google Assistant'ta gayet iyi çalışıyordu)
  • "Nasıl" olduğuna dair hiçbir açıklama yok ama bu özellik yarı yarıya bile güvenilir çalışırsa ChatGPT'den yaklaşık 100 kat daha büyük bir etki yaratır
  • Yapay zeka ve robotikteki ilerlemeler çok heyecan verici. Gemini gibi karmaşık sistemler nedeniyle şirketler, bu yenilikleri hayata geçirmek için uzman ekiplere bağımlı kalacak gibi görünüyor
    • AI research veya robotics engineer gibi belirli rolleri dış kaynak kullanımıyla karşılayarak şirketler, tam zamanlı işe alım yükü olmadan en üst düzey yetenekleri bünyelerine katabilir
    • Dış kaynak kullanımının robotik gibi ileri teknoloji sektörlerinde Ar-Ge'yi nasıl tamamlayabildiğini görmek ilginç
    • Özellikle ölçeklenebilirlik ve pazara giriş hızı açısından sektörün nasıl değişeceğini merak ediyorum
  • Sonunda birileri ev işlerinde yardımcı olacak gibi görünüyor

    • Ah, güzel. Sadece tüm bunların arkasında askerî amaçlar varken, bize çamaşırlarımızı katlayacaklarını düşündürmeye çalışmaları harika
  • "Basketbol topunu al ve smaç bas." Uzun zamandır beklediğimiz killer use case buydu :)
  • Google'ın robotik teknolojisi (yazılım ve donanım) son teknoloji olsa bile, bunu gerçekten ürüne dönüştürüp dönüştüremeyecekleri şüpheli
    • Transformer'larda öncüydüler ama tüm avantajlarını ChatGPT'ye kaptırmış gibi görünüyorlar
    • Google'ın araştırmadan ürüne etkili biçimde geçmesini engelleyen bir şey var gibi
    • Waymo'nun bugün product-market fit'e ulaştığını düşünüyorsanız bu iyi bir karşı örnek olabilir ama Google'ın çoğu zaman ya bir şeyi pazara çıkaramadığı ya da çıkarsa bile tutunmadan önce vazgeçtiği hissinden kurtulamıyorum
    • Robotik çabaları hakkında güçlü bir görüşü veya içgörüsü olan biri var mı merak ediyorum
  • Bu tür robotların bir gün savunma sanayisinde kullanılma ihtimalini düşünmek ürkütücü
    • Bir robot "silgiyi yerine koy" gibi genel bir komutu anlayabiliyorsa, "bütün düşmanları ortadan kaldır" komutunu düşünün
  • Sadece merak ediyorum, birine öldürmesini emredersen ne yapar? Robotik yasalarına uyar mı?
  • 1 Nisan!