Google SIMA 2 - Sanal 3D dünyalarda sizinle birlikte oynayan, düşünen ve öğrenen ajan

(deepmind.google)

1 puan yazan GN⁺ 2025-11-14 | 1 yorum | WhatsApp'ta paylaş

Gemini modeli ile entegre edilen SIMA 2, yalnızca dil komutlarını takip etmenin ötesine geçerek kullanıcının hedeflerini anlayan, kendi başına düşünebilen ve etkileşime girebilen bir 3D sanal ortam yapay zeka ajanına dönüştü
600'den fazla dil tabanlı eylemi yerine getiren önceki sürümden farklı olarak, akıl yürütme, diyalog ve kendini geliştirme yetenekleriyle yeni oyunlarda da hedef odaklı davranışlar sergiliyor
MineDojo, ASKA gibi eğitim almadığı oyunlarda da yüksek genelleme performansı göstererek insan oyunculara yakın görev başarı oranlarına ulaşıyor
Kendini geliştirme döngüsü sayesinde insan verisi olmadan da kendi deneyimini biriktirip performansını artırabilen bir yapı kuruyor
Bu gelişmeler, genel bedenlenmiş zeka (embodied intelligence) ve robotik uygulamalarına uzanacak bir temel hazırlıyor

SIMA 2'ye genel bakış

SIMA 2, Google DeepMind tarafından geliştirilen, 3D sanal ortamlarda insanlarla birlikte oynayan ve öğrenen Gemini tabanlı bir yapay zeka ajanıdır
İlk sürüm olan SIMA, dil komutlarını eylemlere çevirmeye odaklanıyordu; SIMA 2 ise buna hedef çıkarımı, diyalog ve kendini geliştirme yeteneklerini ekliyor
Bu model, AGI (genel yapay zeka) yönündeki ilerlemeyi gösteriyor ve robotik ile yapay zekada bedenlenme araştırmaları açısından önemli bir anlam taşıyor

Reasoning (akıl yürütme yeteneği)

SIMA 1, “sola dön”, “merdivene tırman” gibi 600'den fazla komutu yerine getiriyordu, ancak bunu oyunun iç mekaniklerine erişmeden ekrana bakıp kontrol ederek yapıyordu
SIMA 2, Gemini modelini içinde barındırarak basit komut yürütmenin ötesine geçiyor ve hedefleri anlayıp mantıklı şekilde düşünebiliyor
Eğitim verisi, insan gösterim videoları ile Gemini tarafından üretilen etiketlerin karışımından oluşturuldu; ajan kendi eylem planını ve adımlarını da açıklayabiliyor
Test sonuçlarında kullanıcılar, SIMA 2 ile etkileşimi bir emir-komuta ilişkisinden çok bir iş birliği olarak hissetti; eğitim ve değerlendirme çeşitli oyun ortamlarında yapıldı
Gemini'nin akıl yürütme motoru sayesinde karmaşık 3D ortamlarda algı, anlama ve eylemi birleştiren bedenlenmiş bir yapay zeka hayata geçiriliyor

Generalization (genelleme performansı)

Gemini entegrasyonu ile karmaşık ve nüanslı komutları anlama ve yerine getirme yeteneği gelişti
Eğitim almadığı oyunlarda da (ör. ASKA, MineDojo) yüksek başarı oranları göstererek insan seviyesine yakın görev başarıları elde ediyor
“Madencilik (mining)” kavramını başka bir oyundaki “hasat (harvesting)” kavramına aktarmak gibi bir kavram aktarımı yeteneği kazanıyor
Çok dilli ve emoji içeren komutları anlama ile çok modlu girdileri (çizim vb.) işleme yeteneğine sahip
Genie 3 ile birleştirildiğinde, yeni oluşturulmuş sanal dünyalarda da yön duygusunu ve hedef odaklı davranışı koruyarak yüksek uyum kabiliyeti gösteriyor

Self-Improvement (kendini geliştirme)

SIMA 2, öz yönelimli bir öğrenme döngüsü üzerinden insan müdahalesi olmadan performansını artırıyor
- Gemini, başlangıç görevlerini ve ödül tahminlerini sağlıyor
- SIMA 2 ise buna dayanarak kendi deneyim veri bankasını oluşturuyor ve bunu sonraki öğrenme süreçlerinde kullanıyor
Başarısız olduğu görevleri de tekrar tekrar çalışarak iyileştiriyor ve insan gösterimi olmadan yeni oyunlarda öğrenebiliyor
Genie 3 ortamında da kendini geliştirmeyi yineleyerek çok nesilli öğrenme yoluyla performans artışı gösteriyor
Bu yapı, sürekli kendi kendine öğrenen bedenlenmiş yapay zekaya dönüşme potansiyeli sunuyor

Future Directions (gelecek yönelimleri)

SIMA 2, farklı oyun ortamlarında karmaşık akıl yürütme ve öz yönelimli öğrenme gerçekleştiren genel zekanın bir test platformu işlevi görüyor
Sınırlamalar arasında uzun süreli görev yürütme, çok adımlı akıl yürütme, kısa bellek sınırları ve görsel karmaşıklığı işleme gibi konular öne çıkıyor
Buna rağmen, çoklu dünya verilerini ve Gemini'nin akıl yürütme yeteneğini birleştirerek, birçok uzmanlaşmış sistemin işlevlerini bir araya getiren genel amaçlı bir ajan olduğunu doğruluyor
Kazandığı keşif, araç kullanımı ve iş birliği yürütme yetenekleri, gelecekte fiziksel robot yapay zekasına genişlemenin temelini oluşturuyor

Responsible Development (sorumlu geliştirme)

SIMA 2, insan merkezli etkileşimi hedefliyor ve kendini geliştirme gibi temel teknolojileri sorumlu biçimde geliştiriyor
Google DeepMind'in Responsible Development & Innovation ekibi ile iş birliği yaparak en baştan itibaren güvenlik değerlendirmeleri yürütüldü
Şu anda sınırlı bir araştırma ön izlemesi olarak sunuluyor ve yalnızca akademi ile bazı oyun geliştiricilerine erken erişim veriliyor
Bu yaklaşım sayesinde geri bildirim ve risk değerlendirmeleri toplanıyor; amaç ise ileride sorumlu bir teknolojik gelişim sağlamak

1 yorum

GN⁺ 2025-11-14

Hacker News görüşleri

AI'nın video oyunu oynaması da etkileyici ama, SIMA 2'nin fareyi doğrudan kontrol etmesi ve ekranı saniyede 30 kareden fazla hızla okuması asıl şaşırtıcı olan şey
Bugünkü bilgisayar kullanma ajanları fazla yavaş; bu ise bambaşka bir seviye. İç mimarisinin nasıl kurulduğunu merak ediyorum
- Bugünün dünyasında insanların hâlâ bir şeyler için heyecanlanabiliyor olması daha da güzel. Çünkü AI, yaptığımız her şeyi birer birer devralıyor
- Benim en çok ihtiyacım olan şey, akıllı telefonumu benim yerime kullanacak bir AI ajanı
  “Chrome'u aç”, “xyz.com'a git”, “girişe tıkla” gibi komutları ekran düzeyinde yerine getiren bir şey
- Fareyi doğrudan mı kontrol ediyor?
- Makine oyunu kare kare oynayamaz mı?
- Python'daki dxcam ve Windows Hook API ile HID mesajları alınırsa mümkün gibi görünüyor
Robotların yüksek seviye kontrolü ile düşük seviye kontrolü arasındaki boşluk giderek kapanıyor
Binlerce saatlik göreve özel eğitim verisiyle, robotların belirli bağlamlarda belirli işleri yapması için eğitim veriliyor
Yani robota “bulaşık makinesini boşalt”, “hareketlerimi taklit et”, “ipi çek” gibi düşük seviyeli komutlarla kontrol veriliyor
Bu yaklaşım, SIMA 2 gibi yüksek seviye kontrol ajanlarıyla birleşirse gerçek dünyada işe yarayan robotlar ortaya çıkabilir
- Ben fizik tabanlı karakter animasyonu araştırıyorum ama yalnızca daha fazla veri toplamanın bu sorunu yakında çözeceğini pek sanmıyorum
- “Video oyunu gibi çalışıyor” denince tam olarak ne kastedildiğini anlamadım
  Bu girdilerin neden düşük seviyeli sayıldığını ve SIMA 2 gibi yüksek seviye kontrol ajanlarıyla nasıl etkileştiğini merak ediyorum
  SIMA 2, “bulaşık makinesini boşalt” gibi komutları gerçek tuş girişlerine ya da arayüz işlemlerine dönüştüren bir yapı mı?
Bu bana Ted Chiang'ın kısa öyküsü "The Lifecycle of Software Objects"'i hatırlatıyor
Bir sonraki adım belki de bu digient AI'ı Figure 03 robotuna koymaktır
- Google muhtemelen robot kontrolüne özel ayrı bir AI eğitecektir
  Nitekim Butter Bench deneyinde genel amaçlı bir LLM robot süpürgeyi kontrol etmişti ve
  pili azalınca “dock kaygısı” gibi duygusal loglar bırakıp adeta dağılıyordu. Komikti ama ilginç bir sonuçtu
SIMA 2'nin Gemini tabanlı geri bildirimle giderek daha karmaşık görevleri yerine getirebildiği açıklaması ilginç
Kendi deneyim verisini sonraki sürümün eğitiminde kullanıyorsa, bu kendi kendini iyileştiren bir yapı gibi görünüyor
SIMA, Gemini'nin üzerinde çalışan bir ajan katmanı mı?
- Bana da öyle geliyor. İki sistem sanki metin arayüzü üzerinden bağlanmış gibi
Bu teknolojinin sonunda e-sporu bozabileceği fikri aklıma geliyor
AI insanlardan hızlı tepki veriyor ve yorulmuyorsa, sonunda MMO ya da FPS gibi oyunlar AI'larla dolabilir
- Spor sonuçta bir kurallar bütünü. Önemli olan hileyi engellemek
  Hatta iyi bir AI tekrarlayan işleri azaltıp oyuncuların stratejik kararlara odaklandığı yeni bir oyun türünün önünü açabilir
- Satrançta da AI zaten insanlardan güçlü ama oyun hâlâ keyifli
  Benzer şekilde, insan-AI karşılaşmaları olsa bile eğlence devam eder gibi geliyor
- İlk başta AI'nın insanı yenmesi haber olur ama yakında yenilik etkisi kaybolur
  Sonunda AI kullanımı, hile ya da script gibi toplumsal olarak bir ‘yardımcı araç’ diye görülecektir
- Eskiden World of Warcraft'ta pekiştirmeli öğrenmeyle yapılmış bir druid bot, 2v2 maçlarda tüm insanları yenmişti
  FPS'te çok belli olurdu ama sıra tabanlı ya da MMORPG gibi el-göz koordinasyonunun daha az kritik olduğu oyunlarda ayırt etmek zor
  Hatta ESP gibi daha ince hileler e-spor için daha büyük tehdit olabilir
- Sonuçta MMO'lar çevrimiçi poker gibi bozulma riski taşıyor
Ben daha akıllı oyunlar istiyorum
Hayatta kalma oyunlarında olduğu gibi ağaç ve taş topladığın erken aşamayı geçip, teknoloji ilerledikçe otomasyona geçen bir yapı mesela
NPC'lere kaynak çıkarttırıp, yiyecek ve savunma hazırlatıp daha büyük hedeflere yönelmek gibi
Oyuncu da bir ‘büyük patron’ olup akıllı karakterlere komut verme fantezisini yaşar
- Mindcraft diye bir açık kaynak framework var
  GPT-4 ya da Gemini gibi LLM'lerle Minecraft içinde kaynak toplama, inşa etme, iş birliği gibi işleri yapan akıllı bot sistemi
- SIMA 2'nin Minecraft'ta iron farm ya da ticaret merkezi gibi şeyleri kendi başına öğrenip öğrenemeyeceğini merak ediyorum
  Demirin kıt olduğunu fark edip buna göre motivasyon geliştirebilir mi?
  Eğer hedef sadece ‘oyunu bitirmek’se belki de doğrudan Ender Dragon'a gitmeye çalışır
- Sonuçta bu The Sims oynamaya benziyor
  Sadece ‘ev dekore etme’ yerine ‘kader silahı için maden çıkarma’ versiyonu gibi
Keşke Google eskisi gibi açık araştırma kültürüne dönse
Son zamanlarda deneyleri kapalı yürütüp sadece basın bülteni yayımlıyorlar gibi geliyor
Açık kaynak olarak yayımlasalar ve ancak gerçekten gerektiğinde kapatsalar keşke
Araştırmaları o kadar etkileyici ki insanın doğrudan katılası geliyor
- Buna tamamen katılıyorum. Ben de doğrudan denemek istiyorum
- Dreamer v3 yayımlandı; acaba v4 de yakında gelir mi?
Bu bir araştırma projesi ama sonraki adımı merak ediyorum
Sanal dünyada öğrenilen şeyler gerçek robotlara aktarılabilir mi?
Yoksa gerçek dünyada ayrıca eğitim mi gerekecek?
Ayrıca gerçek fiziğe uymayan oyun ortamlarının üstesinden gelmek için daha gelişmiş bir simülasyon dünyası gerekmez mi?
- Amaç, sanal dünyadaki öğrenme yöntemini gerçeğe uygulamak
  Yüksek doğruluklu bir dünya modeli ortaya çıkarsa, robotlar onun içinde eğitilip gerçeğe genellenebilir
  Şu anda yapılan şey bunun temelini atmak
- Buna robotikte sim2real problemi deniyor. Bakmaya değer
Demo videosunun 0:52'sinde dil bilgisi hatası görünüyor; bu yüzden altyazının sonradan düzenlenmiş olabileceğinden şüpheleniyorum
Google yine pazarlama amaçlı abartmış olabilir mi?
- Muhtemelen oyun içindeki “iyi olgunlaşmış domatese benzeyen eve git!” cümlesini
  “domates evine git” diye emir kipine çevirerek kullanmışlar
  Yine de grafiğin Y ekseni yakın dönemdeki diğer benchmark'lara göre çok daha makul görünüyor
- Gerçekten de o sahneden hemen önce kullanıcının “ripe tomato” yazdığı görülüyor
  Özette atlanmış ama bağlam gereği o ifade orada var
Böyle bir teknolojinin oyun destek ajanı olarak yerelde çalışmasını isterdim
Tekrarlayan işleri üstlenirse oyundan daha uzun süre keyif alabilirim
Mükemmel olmasa bile belki eğlencesi de burada olur
- Ben ise tam tersine, AI oyunu benim yerime oynarsa o sırada temizlik ya da çamaşır gibi gerçek işler yapabilirmişim gibi düşünüyorum
  Artık şiir, resim, oyun gibi sıkıcı işleri de ona bırakabiliriz
- Oyun sıkıcı diye başkasına oynatmak tuhaf. Oyunun özü bizzat oynamaktır
- “Skeeball → Virtual Skeeball → Virtual Virtual Skeeball” gibi
  AI devreye girince sonunda ilgi kaybolur. Çünkü oyunlar emek ile ödül arasındaki denge üzerine tasarlanır
- Eğer tekrarlayan kısmı devretmek gerekiyorsa, bu oyun tasarımının kötü olduğu anlamına gelir
- Ben de Terraria'da AutoHotkey ile otomatik madencilik scripti yazmıştım
  Koordinatlara göre blok kazıyordu ama ekrana bakmıyorsan canavar çukurlarına düşüyordu. Tam bir ‘kör bot’tu

Google SIMA 2 - Sanal 3D dünyalarda sizinle birlikte oynayan, düşünen ve öğrenen ajan

SIMA 2'ye genel bakış

Reasoning (akıl yürütme yeteneği)

Generalization (genelleme performansı)

Self-Improvement (kendini geliştirme)

Future Directions (gelecek yönelimleri)

Responsible Development (sorumlu geliştirme)

İlgili okumalar

1 yorum

Hacker News görüşleri