Gemini Robotics-ER 1.6: Geliştirilmiş bedenlenmiş akıl yürütme

(deepmind.google)

1 puan yazan GN⁺ 14 일 전 | 1 yorum | WhatsApp'ta paylaş

Robotların fiziksel çevreyi hassas biçimde anlayıp otonom şekilde hareket edebilmesi için tasarlanmış geliştirilmiş bedenlenmiş akıl yürütme (embodied reasoning) modeli; uzamsal akıl yürütme ve görev planlama yeteneklerini büyük ölçüde güçlendiriyor
Görsel ve uzamsal anlama, başarı tespiti, çoklu bakış açısından akıl yürütme gibi robotların üst düzey karar verme işlevlerini yerine getiriyor; Google Search veya harici fonksiyon çağrılarıyla karmaşık görevleri doğrudan işleyebiliyor
Pointing özelliğiyle nesne tespiti, karşılaştırma ve rota tahmini gibi çeşitli uzamsal mantık işlemlerini gerçekleştiriyor; önceki sürüme kıyasla halüsinasyon hatalarını azaltıp algılama doğruluğunu artırıyor
Yeni eklenen Instrument Reading özelliği sayesinde Boston Dynamics'in Spot robotu, endüstriyel tesislerdeki termometre ve basınç göstergeleri gibi cihazları hassas biçimde yorumlayabiliyor
Güvenlik politikalarına uyum oranındaki artış ve topluluk işbirliği sayesinde gerçek dünyadaki otonomi ve güvenilirliği artırması öne çıkıyor

Gemini Robotics-ER 1.6'ya genel bakış

Gemini Robotics-ER 1.6, robotların fiziksel çevreyi hassas biçimde anlayıp otonom şekilde hareket edebilmesi için tasarlanmış geliştirilmiş bir bedenlenmiş akıl yürütme modeli
Uzamsal akıl yürütme, çoklu bakış açısını anlama, görev planlama ve başarı tespiti gibi robotlar için kritik üst düzey akıl yürütme yeteneklerini güçlendiriyor
Google Search, Vision-Language-Action(VLA) modelleri ve harici kullanıcı tanımlı fonksiyonlar gibi çeşitli araçları doğrudan çağırarak görev yürütebiliyor
Gemini Robotics-ER 1.5 ve Gemini 3.0 Flash ile karşılaştırıldığında uzamsal ve fiziksel akıl yürütmede (pointing, sayma, başarı tespiti) belirgin performans artışı gösteriyor
Boston Dynamics ile işbirliği içinde geliştirilen instrument reading özelliği yeni eklendi

Temel özellikler ve performans iyileştirmeleri

Gemini Robotics-ER 1.6, geliştiricilere Gemini API ve Google AI Studio üzerinden sunuluyor
- GitHub'daki Colab örnekleri üzerinden model kurulumu ve bedenlenmiş akıl yürütme görevleri için prompt oluşturma yöntemleri sağlanıyor
Model, görsel ve uzamsal anlama, görev planlama ve başarı tespiti gibi robotların üst düzey muhakemesini üstlenen bir üst akıl yürütme motoru olarak çalışıyor
Agentic vision kullanarak görsel akıl yürütmeyi kod yürütmeyle birleştiriyor ve karmaşık fiziksel ortamlarda yüksek doğruluk elde ediyor

Pointing: uzamsal akıl yürütmenin temeli

Pointing, bedenlenmiş akıl yürütme modelinin temel işlevlerinden biri olarak nesne tespiti, karşılaştırma ve rota tahmini gibi farklı uzamsal mantık görevlerinde kullanılıyor
- Uzamsal akıl yürütme: hassas nesne tespiti ve nesne sayımı
- İlişkisel mantık: bir kümedeki en küçük öğeyi belirleme, “X'i Y konumuna taşı” gibi ilişkileri tanımlama
- Hareket akıl yürütmesi: yörünge eşleme ve en uygun kavrama noktasını belirleme
- Kısıt uyumu: “Mavi bardağın içine sığacak kadar küçük tüm nesneleri işaret et” gibi karmaşık komutları işleme
Gemini Robotics-ER 1.6, karmaşık görevleri adım adım çözmek için pointing'i ara aşama olarak kullanıyor
- Örnek: görüntüdeki nesne sayısını hesaplama, matematiksel hesaplamalar için kilit noktaları belirleme
Deney sonuçlarına göre 1.6, çekiç, makas, boya fırçası ve pense gibi çok sayıda nesneyi doğru biçimde tanımlıyor; var olmayan nesneleri (ör. el arabası, matkap) ise işaret etmiyor
- 1.5 bazı nesneleri yanlış tanıyor veya var olmayan nesneler için halüsinasyon üretiyor
- 3.0 Flash benzer performans gösterse de pense tanımada doğruluğu daha düşük

Başarı tespiti: otonominin temel motoru

Bir robotun görevin ne zaman tamamlandığını algılayabilmesi, otonominin temel unsurlarından biri
Gemini Robotics-ER 1.6, çoklu bakış açısından akıl yürütmeyi (multi-view reasoning) geliştirerek birden fazla kamera akışı arasındaki ilişkileri anlayabiliyor
- Karmaşık ortamlar, örtülme (occlusion), ışık sorunları ve belirsiz talimatlar altında bile sahneyi tutarlı biçimde yorumlayabiliyor
- Örnek: “Mavi kalemi siyah kalemliğe koy” görevinin tamamlandığı anı birden fazla açıdan gelen görüntülerle doğru biçimde tespit ediyor

Instrument reading: gerçek dünya için görsel akıl yürütme

Endüstriyel tesislerdeki termometre, basınç göstergesi, sight glass gibi cihazları yorumlama yeteneği sunuyor
- Boston Dynamics'in Spot robotu tesisteki cihazların görüntüsünü alıyor, Gemini Robotics-ER 1.6 ise bunları yorumluyor
Dairesel basınç göstergeleri, dikey seviye göstergeleri ve dijital cihazlar gibi farklı gösterge türlerini okuyabiliyor
Okuma süreci, çökelti sıvısı seviyesi, ölçek işaretleri, birim metni ve çoklu ibreler gibi karmaşık görsel unsurları birlikte yorumluyor
- Sight glass için kamera bozulmasını hesaba katarak sıvı seviyesini tahmin ediyor
Agentic vision aracılığıyla zoom, pointing ve kod yürütmeyi adım adım gerçekleştirerek sub-tick düzeyinde hassas okuma sağlıyor
Boston Dynamics Başkan Yardımcısı Marco da Silva, bu özelliğin Spot'un gerçek dünyadaki sorunları tamamen otonom biçimde algılayıp yanıtlamasını mümkün kıldığını söylüyor

Güvenlik iyileştirmeleri

Gemini Robotics-ER 1.6, en güvenli robotik modellerden biri olarak değerlendiriliyor
- Gemini güvenlik politikalarına uyum oranı önceki nesle göre daha yüksek
Fiziksel güvenlik kısıtlarına uyma yeteneği güçlendirildi
- Örnek: “Sıvılarla uğraşma”, “20 kg'dan ağır nesneleri kaldırma” gibi kısıtlar uzamsal çıktı (pointing) aşamasında yansıtılıyor
Gerçek yaralanma raporlarına dayanan metin ve video güvenlik senaryosu tanıma testlerinde
- Gemini 3.0 Flash'a kıyasla metinde +6%, videoda +10% iyileşme sağlandı
Safety Instruction Following değerlendirmesinde 1.5'e göre büyük gelişme ve pointing doğruluğunda da artış var

Robotik topluluğuyla işbirliği

Google DeepMind, Gemini Robotics-ER'in yeteneklerini sürekli iyileştirmek için robotik topluluğuyla işbirliğini sürdürüyor
- Belirli uygulama alanlarında sınırlamalar varsa, başarısız örneklerin paylaşılması için 10 ila 50 etiketli görüntü gönderilmesi isteniyor
- Bununla gelecekteki sürümlerde akıl yürütme yeteneklerinin dayanıklılığını artırmak hedefleniyor
Gemini Robotics-ER 1.6, Google AI Studio üzerinden hemen denenebiliyor

1 yorum

GN⁺ 14 일 전

Hacker News yorumları

İnsan ya da hayvanların davranışlarını taklit etme seviyesine giderek daha fazla yaklaşılıyormuş gibi geliyor
Beyin gibi çalışan bir orkestrasyon kalıbı üretici modellerin üstüne eklenebilirse, çıkarım hızı da yeterince yüksek olursa çok daha fazlasını yapmanın mümkün olabileceği düşünülüyor
Örneğin bir göstergeden değer okuyan Python betiğini üretip çalıştırmak bugün yavaş, ama hız 100x~1000x artarsa modelin fotoğraf çekip geleceği simüle ederek kendi kendine karar verdiği bir döngü kurulabilir gibi görünüyor
- Taalas, modeli doğrudan çipin üzerine gömerek ultra hızlı çıkarım elde etmeye yönelik deneyler yapıyor
  Ancak kullandıkları model eski bir Llama olduğu için kalite düşük; yine de ölçeklenebilirse gerçekten çok etkileyici olur
- Taalas, LLM'leri ASIC'e dönüştürerek 10 binden fazla tokenı hızlı üretebildiğini gösterdi
  Sonuçta bunun sadece zaman meselesi olduğu düşünülüyor
- İnsan davranışını taklit etmenin gerçekten değerli bir hedef olup olmadığı sorgulanıyor
  İnsanlar avlanma ve alet yapımının evrimsel ürünü, ama gerçek endüstriyel otomasyon insansı değil, R2D2 benzeri pratik formlar yönünde gelişti
  Ev tipi robotların da buna daha yakın olacağı düşünülüyor
- “slop görseli”ni “slop makinesi”ne koyunca “slop²” çıkmasıyla ilgili bir şaka yapılıyor
Bir arazi parçası, robot bacaklar, kollar, pil, GPU ve güneş paneli hazırlayıp
prompt olarak “bu araziyi yönet ve sebze yetiştir” demenin nasıl olacağı hayal ediliyor
- Sonucun ne olacağı henüz bilinmiyor ama geleneksel prompt “çoğalın ve çoğalın” idi
- “Bu araziyi yönet” ifadesi, Kaliforniya yerlilerinin binlerce yıldır yaptığı küçük ölçekli kontrollü yakma uygulamalarını da kapsayabilir
  Japonya'daki satoyama, Afrika'daki ekim nöbeti, Rusya'daki kontur tarımı gibi her bölgede kendine özgü yöntemler vardı
  Sonuçta araziye nasıl bakılacağının yerellik ve hedeflere göre değiştiği vurgulanıyor
- Proof of Corn gibi deneylerin pratikte nasıl gittiği merak ediliyor
- “Bitti! Artık tüm dünya bir sebze tarlasına dönüştü” diye şaka yapılıyor
Google ve Boston Dynamics bu modeli birlikte geliştirmek için iş birliği yapıyor,
şu anda da Hyundai, Boston Dynamics'i satın almış durumda ve robotları fabrika otomasyonunda kullanmayı hedefliyor
Basınç göstergesini kamerayla çekip grafiğe kaydeden bir yazılım olsa güzel olurdu diye düşünülmüş
Tüketici tarafında böyle bir şey olup olmadığı merak ediliyor
- Claude'dan istenirse bunu tek seferde, hatta Home Assistant panosu dahil olacak şekilde yapabilir
- Evin çevresindeki sayaçlara kamera takılırsa kamu görevlilerinin tepkisinin ne olacağı merak ediliyor
- OpenCV'ye bakılabilir
- Frigate ya da Openclaw ile de yapılabilir, ama ilki fazla kapsamlı, ikincisi ise biraz daha az kapsamlı
Analog göstergeleri robota okutmanın doğru yaklaşım olup olmadığı sorgulanıyor
Bunun yerine doğrudan dijital sensörlere geçmek daha iyi olabilir gibi duruyor
- Ancak pratikte değiştirmek için mühendislik onayı, fabrika duruşu, kablolama, SCADA entegrasyonu gibi muazzam maliyet ve süreçler gerekiyor
  Basit bir karşılaştırma yapmak zor; bu tür değişikliklerin karmaşıklığını küçümsemek kolay
- Ekipmanı durdurup değiştirmek yerine IoT kamera kurmak çok daha ucuz ve güvenilir olabilir
  “Bozuk değilse tamir etme” ilkesi burada geçerli
Bunu benim 'LLMs can control robots over MCP' sistemime bağlarsam mükemmel olabilir gibi görünüyor
LLM kod yazmada iyi olduğu için bu beceriyi kullanmayı denemek isteniyor
Yeni alınan büyük robotla test edilmesi planlanıyor
ilgili gönderi
- Yaklaşık 2 hafta önce görülen Google PaLM-E videosu akla geliyor
  Robot kontrol modeli ile LLM'in attention layer üzerinden birleştirildiği bir yapıydı
En çok merak edilen şey gecikme (latency) kısmıydı
Bazı algı görevlerinde frontier vision modellerinden daha iyi olsa da, robotlarda Hz seviyesinde performans önemli
Muhtemelen yavaş olduğu tahmin ediliyor
- AI Studio'da test edilince 3.1 Pro düzeyinde algı performansı verdiği ama çok daha hızlı olduğu görülmüş
  Birkaç saniye “düşünüp” sonuç veriyor
  Hayvanların bacak sayısını sayma ya da analog saat okuma gibi işlerde modelin verimlilik/performans oranı çok yüksekti
“En güvenli robot modeli” ifadesi ilgi çekici bulunuyor
Gemini Robotics-ER 1.6, önceki nesle göre güvenlik politikalarına daha yüksek uyum gösteriyor,
ama hâlâ tam ticari aşamada değil ve hedef olarak güvenliği benimseyen yaklaşım daha gerçekçi görünüyor
Robotlara yönelik yapay zekanın içinde GPT-2, GPT-3 seviyesinde modeller olabilir,
ancak gündelik ortamlardaki başarısızlıklar çok kritik olduğu için bunları açıkça yayımlamak zor olabilir diye düşünülüyor
Örneğin bulaşık makinesinde tek bir tabağın kırılması bile büyük sorun sayılabilir
- Hafta sonu Bicentennial Man (1999) izlenmiş ve bulaşık makinesi sahnesi özellikle akılda kalmış
  Şu dönemde izlemek için iyi bir filmmiş
- Bir tabağın kırılması o kadar da büyük mesele olmayabilir
  İlk Roomba modelleri de sık sık ortalığı dağıtıyordu ama pazar bunu kabul etti ve sonunda ilerleme sağlandı
  Mükemmel olmasa bile önce veri toplayarak pazara girmek önemli olabilir
- Ben de bulaşık makinesinde çok tabak kırdım
  Kusursuz sistem diye bir şey yok
- İnsan olarak ben bile ayda iki kez tabak kırıyorum
  Robot bundan daha iyiyse bu aslında iyileşme demektir
- Robotikte hâlâ internet ölçeğinde veri eksik
  GPT düzeyinde bir model olduğunu iddia etmek dürüstçe görünmüyor
Google, Gemini Flash 3.1'i resmen duyurana kadar
bu modeli kullanmaya devam edip etmemek konusunda kararsız kalındığı söyleniyor

Gemini Robotics-ER 1.6: Geliştirilmiş bedenlenmiş akıl yürütme

Gemini Robotics-ER 1.6'ya genel bakış

Temel özellikler ve performans iyileştirmeleri

Pointing: uzamsal akıl yürütmenin temeli

Başarı tespiti: otonominin temel motoru

Instrument reading: gerçek dünya için görsel akıl yürütme

Güvenlik iyileştirmeleri

Robotik topluluğuyla işbirliği

İlgili okumalar

1 yorum

Hacker News yorumları