4 puan yazan GN⁺ 2025-03-13 | 1 yorum | WhatsApp'ta paylaş
  • Gemini 2.0'ı robotiğe taşıyarak, görme-dil-eylem (VLA) modeli ile uzamsal anlayışa sahip bir ER modeli duyurdu
  • Google DeepMind, karmaşık problemleri çözmek için metin, görsel, ses ve videoyu kullanan çok modlu akıl yürütme yeteneklerini geliştiriyordu
  • Ancak bu yetenekler şimdiye kadar yalnızca dijital ortamlarla sınırlıydı
  • Yapay zekanın fiziksel dünyada faydalı olabilmesi için insan gibi çevreyi anlayıp tepki vermesi ve işleri güvenli şekilde yerine getirmesini sağlayan "bedensel akıl yürütme (embodied reasoning)" yeteneğine ihtiyaç var
  • Bu doğrultuda iki yeni model duyuruldu
    • Gemini Robotics: Gemini 2.0 tabanlı, robotları doğrudan kontrol edebilen bir görme-dil-eylem (VLA) modeli
    • Gemini Robotics-ER: gelişmiş uzamsal kavrayış ve robot kontrol yetenekleri sunan model
  • Apptronik ile iş birliği içinde yeni nesil insansı robotlar geliştiriliyor
  • Az sayıdaki güvenilir test kullanıcısıyla birlikte model performansı iyileştiriliyor

Gemini Robotics: En gelişmiş görme-dil-eylem modeli

1. Genelleme yeteneği (Generality)

  • Yeni durumlara uyum sağlayabiliyor ve çeşitli görevleri yerine getirebiliyor
  • Yeni nesneler, komutlar ve ortamlarda yüksek performans gösteriyor
  • Teknik rapora göre, mevcut VLA modellere kıyasla genelleme performansı 2 katın üzerinde arttı

2. Etkileşim yeteneği (Interactivity)

  • Doğal dil komutlarını anlayıp yanıtlayabiliyor
  • Farklı dillerde ve günlük konuşma dilindeki komutlara yanıt verebiliyor
  • Ortamdaki değişikliklere gerçek zamanlı tepki vererek davranışını ayarlayabiliyor
  • Bir nesne elinden kaysa ya da yeri değişse bile anında yeniden plan yaparak göreve devam edebiliyor

3. El becerisi (Dexterity)

  • Hassas görevleri yerine getirme kabiliyeti güçlendirildi
  • Karmaşık çok adımlı görevleri yapabiliyor (ör. origami, fermuarlı poşete atıştırmalık koyma)

4. Farklı robot biçimlerine uygulanabilirlik (Multiple embodiments)

  • Çeşitli robot türlerine kolayca uygulanabiliyor
  • ALOHA 2, Franka tabanlı robotlar ve insansı Apollo robotunda çalıştığı doğrulandı

Gemini Robotics-ER: Güçlendirilmiş uzamsal anlayış

  • Gemini 2.0'ın uzamsal farkındalık ve 3D algılama performansı büyük ölçüde geliştirildi
  • Robot, nesnelerin konumunu algılayıp uygun şekilde manipüle edebiliyor
  • Kod üretme yeteneği ile birleştirilerek robotun yeni görev yöntemlerini anında oluşturabilmesi sağlandı
  • Başarı oranı, Gemini 2.0'a kıyasla 2 ila 3 kat arttı
  • Demo örneği: kahve fincanının kulpunu algılayıp güvenli bir rotadan yaklaşarak kaldırıyor

Yapay zeka ve robotlarda güvenliği artırma stratejisi

  • Robotların fiziksel güvenlik sorunlarını çözmeye odaklanıyor
  • Robotlar; çarpışma önleme, temas kuvvetini sınırlama ve dinamik dengeyi koruma gibi geleneksel güvenlik önlemlerini uyguluyor
  • Gemini Robotics-ER, güvenlik endişesi oluştuğunda görevin yapılıp yapılmayacağını değerlendirip uygun şekilde yanıt veriyor
  • Yeni ASIMOV veri kümesi yayımlandı → robot davranışlarının güvenliğini değerlendirmek ve iyileştirmek için
  • Etik sorunları çözmek için iç sorumluluk ve güvenlik komiteleri ile dış uzmanlarla birlikte çalışılıyor

Başlıca iş ortakları ve gelecek planları

  • Apptronik ile birlikte insansı robot geliştiriliyor
  • Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools gibi şirketlerde Gemini Robotics-ER test ediliyor
  • Gelecekte yapay zeka ve robotik teknolojilerinin geliştirilmesi sürdürülecek

İlgili bağlantılar

1 yorum

 
GN⁺ 2025-03-13
Hacker News görüşleri
  • YouTube'da 20 video demoyu izleyebileceğiniz tam oynatma listesine bir bağlantı var
  • Daha önce Google Gemini'nin etkileyici demolarının manipüle edildiğini hatırlayan kimse olup olmadığını merak ediyor
  • Asimov'un robot yasalarının ilginç bir bilim kurgu unsuru olduğunu ama gerçek bilişimden uzak kaldığını düşünüyordu
    • Meğerse Asimov zamanının ötesinde davranıp LLM prompt'ları yazıyormuş
  • Çöp ayırma daha kolay ve hızlı hale gelirse geri dönüşüm verimliliğini 100 kat artırabilir
    • Bunu zaten yapan yerler var ama robotların dünyayı iyileştirebileceği çok sayıda basit iş bulunuyor
  • Ana videonun sonunda robotun kasnağa dairesel bir kayış taktığı sahne etkileyiciydi
    • Eğitim verilerinde buna benzer çok davranış vardır ama gömlek katlama ya da nesne sınıflandırmadan daha sezgisel geldi
    • Sayfadaki video otomatik oynatma/duraklatma/kaydırma işlevi bozuk gibi görünüyor
  • Gerçek zamanlı çift yönlü çevirmen gibi çalışan bir cihaz istiyor
    • Almanca ya da başka bir dili öğrenmek için zaman harcamadan orada yaşayabilmek güzel olurdu
    • Sadece İngilizceyle yemek siparişi verebilmek ve resmi işlemleri halledebilmek inanılmaz olurdu
  • Herkes Çin'den bir robot kol sipariş edip garajına kurabilecek ve onu LLM'ler gibi metinle programlayabilecek
    • Daha büyük düşünmenin zamanı geldi
  • Videonun gerçek performansı mı gösterdiğinden yoksa bir pazarlama taktiği mi olduğundan emin değil ama etkileyici
    • Iron Man 1'deki robot kollarını hatırlatıyor
  • Robotlar yemek hazırlayabilecek kadar becerikli hale gelirse bu, iş gücü piyasası için bir dönüm noktası olur
    • Mevcut model henüz o seviyede değil ama önümüzdeki birkaç yılda sentetik veri üretimine yapılacak büyük yatırımların bu seviyeye yaklaştırıp yaklaştırmayacağını göreceğiz
  • Google'ın sorunu, reklam işinin o kadar çok gelir getirmesi ki diğer ürünlerin anlamsız kalması
    • Robotlar aracılığıyla öğrendiklerini reklam gelirini artırmak için kullanacak