1 puan yazan GN⁺ 14 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Robotların fiziksel çevreyi hassas biçimde anlayıp otonom şekilde hareket edebilmesi için tasarlanmış geliştirilmiş bedenlenmiş akıl yürütme (embodied reasoning) modeli; uzamsal akıl yürütme ve görev planlama yeteneklerini büyük ölçüde güçlendiriyor
  • Görsel ve uzamsal anlama, başarı tespiti, çoklu bakış açısından akıl yürütme gibi robotların üst düzey karar verme işlevlerini yerine getiriyor; Google Search veya harici fonksiyon çağrılarıyla karmaşık görevleri doğrudan işleyebiliyor
  • Pointing özelliğiyle nesne tespiti, karşılaştırma ve rota tahmini gibi çeşitli uzamsal mantık işlemlerini gerçekleştiriyor; önceki sürüme kıyasla halüsinasyon hatalarını azaltıp algılama doğruluğunu artırıyor
  • Yeni eklenen Instrument Reading özelliği sayesinde Boston Dynamics'in Spot robotu, endüstriyel tesislerdeki termometre ve basınç göstergeleri gibi cihazları hassas biçimde yorumlayabiliyor
  • Güvenlik politikalarına uyum oranındaki artış ve topluluk işbirliği sayesinde gerçek dünyadaki otonomi ve güvenilirliği artırması öne çıkıyor

Gemini Robotics-ER 1.6'ya genel bakış

  • Gemini Robotics-ER 1.6, robotların fiziksel çevreyi hassas biçimde anlayıp otonom şekilde hareket edebilmesi için tasarlanmış geliştirilmiş bir bedenlenmiş akıl yürütme modeli
  • Uzamsal akıl yürütme, çoklu bakış açısını anlama, görev planlama ve başarı tespiti gibi robotlar için kritik üst düzey akıl yürütme yeteneklerini güçlendiriyor
  • Google Search, Vision-Language-Action(VLA) modelleri ve harici kullanıcı tanımlı fonksiyonlar gibi çeşitli araçları doğrudan çağırarak görev yürütebiliyor
  • Gemini Robotics-ER 1.5 ve Gemini 3.0 Flash ile karşılaştırıldığında uzamsal ve fiziksel akıl yürütmede (pointing, sayma, başarı tespiti) belirgin performans artışı gösteriyor
  • Boston Dynamics ile işbirliği içinde geliştirilen instrument reading özelliği yeni eklendi

Temel özellikler ve performans iyileştirmeleri

  • Gemini Robotics-ER 1.6, geliştiricilere Gemini API ve Google AI Studio üzerinden sunuluyor
    • GitHub'daki Colab örnekleri üzerinden model kurulumu ve bedenlenmiş akıl yürütme görevleri için prompt oluşturma yöntemleri sağlanıyor
  • Model, görsel ve uzamsal anlama, görev planlama ve başarı tespiti gibi robotların üst düzey muhakemesini üstlenen bir üst akıl yürütme motoru olarak çalışıyor
  • Agentic vision kullanarak görsel akıl yürütmeyi kod yürütmeyle birleştiriyor ve karmaşık fiziksel ortamlarda yüksek doğruluk elde ediyor

Pointing: uzamsal akıl yürütmenin temeli

  • Pointing, bedenlenmiş akıl yürütme modelinin temel işlevlerinden biri olarak nesne tespiti, karşılaştırma ve rota tahmini gibi farklı uzamsal mantık görevlerinde kullanılıyor
    • Uzamsal akıl yürütme: hassas nesne tespiti ve nesne sayımı
    • İlişkisel mantık: bir kümedeki en küçük öğeyi belirleme, “X'i Y konumuna taşı” gibi ilişkileri tanımlama
    • Hareket akıl yürütmesi: yörünge eşleme ve en uygun kavrama noktasını belirleme
    • Kısıt uyumu: “Mavi bardağın içine sığacak kadar küçük tüm nesneleri işaret et” gibi karmaşık komutları işleme
  • Gemini Robotics-ER 1.6, karmaşık görevleri adım adım çözmek için pointing'i ara aşama olarak kullanıyor
    • Örnek: görüntüdeki nesne sayısını hesaplama, matematiksel hesaplamalar için kilit noktaları belirleme
  • Deney sonuçlarına göre 1.6, çekiç, makas, boya fırçası ve pense gibi çok sayıda nesneyi doğru biçimde tanımlıyor; var olmayan nesneleri (ör. el arabası, matkap) ise işaret etmiyor
    • 1.5 bazı nesneleri yanlış tanıyor veya var olmayan nesneler için halüsinasyon üretiyor
    • 3.0 Flash benzer performans gösterse de pense tanımada doğruluğu daha düşük

Başarı tespiti: otonominin temel motoru

  • Bir robotun görevin ne zaman tamamlandığını algılayabilmesi, otonominin temel unsurlarından biri
  • Gemini Robotics-ER 1.6, çoklu bakış açısından akıl yürütmeyi (multi-view reasoning) geliştirerek birden fazla kamera akışı arasındaki ilişkileri anlayabiliyor
    • Karmaşık ortamlar, örtülme (occlusion), ışık sorunları ve belirsiz talimatlar altında bile sahneyi tutarlı biçimde yorumlayabiliyor
    • Örnek: “Mavi kalemi siyah kalemliğe koy” görevinin tamamlandığı anı birden fazla açıdan gelen görüntülerle doğru biçimde tespit ediyor

Instrument reading: gerçek dünya için görsel akıl yürütme

  • Endüstriyel tesislerdeki termometre, basınç göstergesi, sight glass gibi cihazları yorumlama yeteneği sunuyor
    • Boston Dynamics'in Spot robotu tesisteki cihazların görüntüsünü alıyor, Gemini Robotics-ER 1.6 ise bunları yorumluyor
  • Dairesel basınç göstergeleri, dikey seviye göstergeleri ve dijital cihazlar gibi farklı gösterge türlerini okuyabiliyor
  • Okuma süreci, çökelti sıvısı seviyesi, ölçek işaretleri, birim metni ve çoklu ibreler gibi karmaşık görsel unsurları birlikte yorumluyor
    • Sight glass için kamera bozulmasını hesaba katarak sıvı seviyesini tahmin ediyor
  • Agentic vision aracılığıyla zoom, pointing ve kod yürütmeyi adım adım gerçekleştirerek sub-tick düzeyinde hassas okuma sağlıyor
  • Boston Dynamics Başkan Yardımcısı Marco da Silva, bu özelliğin Spot'un gerçek dünyadaki sorunları tamamen otonom biçimde algılayıp yanıtlamasını mümkün kıldığını söylüyor

Güvenlik iyileştirmeleri

  • Gemini Robotics-ER 1.6, en güvenli robotik modellerden biri olarak değerlendiriliyor
    • Gemini güvenlik politikalarına uyum oranı önceki nesle göre daha yüksek
  • Fiziksel güvenlik kısıtlarına uyma yeteneği güçlendirildi
    • Örnek: “Sıvılarla uğraşma”, “20 kg'dan ağır nesneleri kaldırma” gibi kısıtlar uzamsal çıktı (pointing) aşamasında yansıtılıyor
  • Gerçek yaralanma raporlarına dayanan metin ve video güvenlik senaryosu tanıma testlerinde
    • Gemini 3.0 Flash'a kıyasla metinde +6%, videoda +10% iyileşme sağlandı
  • Safety Instruction Following değerlendirmesinde 1.5'e göre büyük gelişme ve pointing doğruluğunda da artış var

Robotik topluluğuyla işbirliği

  • Google DeepMind, Gemini Robotics-ER'in yeteneklerini sürekli iyileştirmek için robotik topluluğuyla işbirliğini sürdürüyor
    • Belirli uygulama alanlarında sınırlamalar varsa, başarısız örneklerin paylaşılması için 10 ila 50 etiketli görüntü gönderilmesi isteniyor
    • Bununla gelecekteki sürümlerde akıl yürütme yeteneklerinin dayanıklılığını artırmak hedefleniyor
  • Gemini Robotics-ER 1.6, Google AI Studio üzerinden hemen denenebiliyor

1 yorum

 
GN⁺ 14 일 전
Hacker News yorumları
  • İnsan ya da hayvanların davranışlarını taklit etme seviyesine giderek daha fazla yaklaşılıyormuş gibi geliyor
    Beyin gibi çalışan bir orkestrasyon kalıbı üretici modellerin üstüne eklenebilirse, çıkarım hızı da yeterince yüksek olursa çok daha fazlasını yapmanın mümkün olabileceği düşünülüyor
    Örneğin bir göstergeden değer okuyan Python betiğini üretip çalıştırmak bugün yavaş, ama hız 100x~1000x artarsa modelin fotoğraf çekip geleceği simüle ederek kendi kendine karar verdiği bir döngü kurulabilir gibi görünüyor

    • Taalas, modeli doğrudan çipin üzerine gömerek ultra hızlı çıkarım elde etmeye yönelik deneyler yapıyor
      Ancak kullandıkları model eski bir Llama olduğu için kalite düşük; yine de ölçeklenebilirse gerçekten çok etkileyici olur
    • Taalas, LLM'leri ASIC'e dönüştürerek 10 binden fazla tokenı hızlı üretebildiğini gösterdi
      Sonuçta bunun sadece zaman meselesi olduğu düşünülüyor
    • İnsan davranışını taklit etmenin gerçekten değerli bir hedef olup olmadığı sorgulanıyor
      İnsanlar avlanma ve alet yapımının evrimsel ürünü, ama gerçek endüstriyel otomasyon insansı değil, R2D2 benzeri pratik formlar yönünde gelişti
      Ev tipi robotların da buna daha yakın olacağı düşünülüyor
    • “slop görseli”ni “slop makinesi”ne koyunca “slop²” çıkmasıyla ilgili bir şaka yapılıyor
  • Bir arazi parçası, robot bacaklar, kollar, pil, GPU ve güneş paneli hazırlayıp
    prompt olarak “bu araziyi yönet ve sebze yetiştir” demenin nasıl olacağı hayal ediliyor

    • Sonucun ne olacağı henüz bilinmiyor ama geleneksel prompt “çoğalın ve çoğalın” idi
    • “Bu araziyi yönet” ifadesi, Kaliforniya yerlilerinin binlerce yıldır yaptığı küçük ölçekli kontrollü yakma uygulamalarını da kapsayabilir
      Japonya'daki satoyama, Afrika'daki ekim nöbeti, Rusya'daki kontur tarımı gibi her bölgede kendine özgü yöntemler vardı
      Sonuçta araziye nasıl bakılacağının yerellik ve hedeflere göre değiştiği vurgulanıyor
    • Proof of Corn gibi deneylerin pratikte nasıl gittiği merak ediliyor
    • “Bitti! Artık tüm dünya bir sebze tarlasına dönüştü” diye şaka yapılıyor
  • Google ve Boston Dynamics bu modeli birlikte geliştirmek için iş birliği yapıyor,
    şu anda da Hyundai, Boston Dynamics'i satın almış durumda ve robotları fabrika otomasyonunda kullanmayı hedefliyor

  • Basınç göstergesini kamerayla çekip grafiğe kaydeden bir yazılım olsa güzel olurdu diye düşünülmüş
    Tüketici tarafında böyle bir şey olup olmadığı merak ediliyor

    • Claude'dan istenirse bunu tek seferde, hatta Home Assistant panosu dahil olacak şekilde yapabilir
    • Evin çevresindeki sayaçlara kamera takılırsa kamu görevlilerinin tepkisinin ne olacağı merak ediliyor
    • OpenCV'ye bakılabilir
    • Frigate ya da Openclaw ile de yapılabilir, ama ilki fazla kapsamlı, ikincisi ise biraz daha az kapsamlı
  • Analog göstergeleri robota okutmanın doğru yaklaşım olup olmadığı sorgulanıyor
    Bunun yerine doğrudan dijital sensörlere geçmek daha iyi olabilir gibi duruyor

    • Ancak pratikte değiştirmek için mühendislik onayı, fabrika duruşu, kablolama, SCADA entegrasyonu gibi muazzam maliyet ve süreçler gerekiyor
      Basit bir karşılaştırma yapmak zor; bu tür değişikliklerin karmaşıklığını küçümsemek kolay
    • Ekipmanı durdurup değiştirmek yerine IoT kamera kurmak çok daha ucuz ve güvenilir olabilir
      “Bozuk değilse tamir etme” ilkesi burada geçerli
  • Bunu benim 'LLMs can control robots over MCP' sistemime bağlarsam mükemmel olabilir gibi görünüyor
    LLM kod yazmada iyi olduğu için bu beceriyi kullanmayı denemek isteniyor
    Yeni alınan büyük robotla test edilmesi planlanıyor
    ilgili gönderi

    • Yaklaşık 2 hafta önce görülen Google PaLM-E videosu akla geliyor
      Robot kontrol modeli ile LLM'in attention layer üzerinden birleştirildiği bir yapıydı
  • En çok merak edilen şey gecikme (latency) kısmıydı
    Bazı algı görevlerinde frontier vision modellerinden daha iyi olsa da, robotlarda Hz seviyesinde performans önemli
    Muhtemelen yavaş olduğu tahmin ediliyor

    • AI Studio'da test edilince 3.1 Pro düzeyinde algı performansı verdiği ama çok daha hızlı olduğu görülmüş
      Birkaç saniye “düşünüp” sonuç veriyor
      Hayvanların bacak sayısını sayma ya da analog saat okuma gibi işlerde modelin verimlilik/performans oranı çok yüksekti
  • “En güvenli robot modeli” ifadesi ilgi çekici bulunuyor
    Gemini Robotics-ER 1.6, önceki nesle göre güvenlik politikalarına daha yüksek uyum gösteriyor,
    ama hâlâ tam ticari aşamada değil ve hedef olarak güvenliği benimseyen yaklaşım daha gerçekçi görünüyor

  • Robotlara yönelik yapay zekanın içinde GPT-2, GPT-3 seviyesinde modeller olabilir,
    ancak gündelik ortamlardaki başarısızlıklar çok kritik olduğu için bunları açıkça yayımlamak zor olabilir diye düşünülüyor
    Örneğin bulaşık makinesinde tek bir tabağın kırılması bile büyük sorun sayılabilir

    • Hafta sonu Bicentennial Man (1999) izlenmiş ve bulaşık makinesi sahnesi özellikle akılda kalmış
      Şu dönemde izlemek için iyi bir filmmiş
    • Bir tabağın kırılması o kadar da büyük mesele olmayabilir
      İlk Roomba modelleri de sık sık ortalığı dağıtıyordu ama pazar bunu kabul etti ve sonunda ilerleme sağlandı
      Mükemmel olmasa bile önce veri toplayarak pazara girmek önemli olabilir
    • Ben de bulaşık makinesinde çok tabak kırdım
      Kusursuz sistem diye bir şey yok
    • İnsan olarak ben bile ayda iki kez tabak kırıyorum
      Robot bundan daha iyiyse bu aslında iyileşme demektir
    • Robotikte hâlâ internet ölçeğinde veri eksik
      GPT düzeyinde bir model olduğunu iddia etmek dürüstçe görünmüyor
  • Google, Gemini Flash 3.1'i resmen duyurana kadar
    bu modeli kullanmaya devam edip etmemek konusunda kararsız kalındığı söyleniyor