1 puan yazan GN⁺ 2025-11-14 | 1 yorum | WhatsApp'ta paylaş
  • Gemini modeli ile entegre edilen SIMA 2, yalnızca dil komutlarını takip etmenin ötesine geçerek kullanıcının hedeflerini anlayan, kendi başına düşünebilen ve etkileşime girebilen bir 3D sanal ortam yapay zeka ajanına dönüştü
  • 600'den fazla dil tabanlı eylemi yerine getiren önceki sürümden farklı olarak, akıl yürütme, diyalog ve kendini geliştirme yetenekleriyle yeni oyunlarda da hedef odaklı davranışlar sergiliyor
  • MineDojo, ASKA gibi eğitim almadığı oyunlarda da yüksek genelleme performansı göstererek insan oyunculara yakın görev başarı oranlarına ulaşıyor
  • Kendini geliştirme döngüsü sayesinde insan verisi olmadan da kendi deneyimini biriktirip performansını artırabilen bir yapı kuruyor
  • Bu gelişmeler, genel bedenlenmiş zeka (embodied intelligence) ve robotik uygulamalarına uzanacak bir temel hazırlıyor

SIMA 2'ye genel bakış

  • SIMA 2, Google DeepMind tarafından geliştirilen, 3D sanal ortamlarda insanlarla birlikte oynayan ve öğrenen Gemini tabanlı bir yapay zeka ajanıdır
  • İlk sürüm olan SIMA, dil komutlarını eylemlere çevirmeye odaklanıyordu; SIMA 2 ise buna hedef çıkarımı, diyalog ve kendini geliştirme yeteneklerini ekliyor
  • Bu model, AGI (genel yapay zeka) yönündeki ilerlemeyi gösteriyor ve robotik ile yapay zekada bedenlenme araştırmaları açısından önemli bir anlam taşıyor

Reasoning (akıl yürütme yeteneği)

  • SIMA 1, “sola dön”, “merdivene tırman” gibi 600'den fazla komutu yerine getiriyordu, ancak bunu oyunun iç mekaniklerine erişmeden ekrana bakıp kontrol ederek yapıyordu
  • SIMA 2, Gemini modelini içinde barındırarak basit komut yürütmenin ötesine geçiyor ve hedefleri anlayıp mantıklı şekilde düşünebiliyor
  • Eğitim verisi, insan gösterim videoları ile Gemini tarafından üretilen etiketlerin karışımından oluşturuldu; ajan kendi eylem planını ve adımlarını da açıklayabiliyor
  • Test sonuçlarında kullanıcılar, SIMA 2 ile etkileşimi bir emir-komuta ilişkisinden çok bir iş birliği olarak hissetti; eğitim ve değerlendirme çeşitli oyun ortamlarında yapıldı
  • Gemini'nin akıl yürütme motoru sayesinde karmaşık 3D ortamlarda algı, anlama ve eylemi birleştiren bedenlenmiş bir yapay zeka hayata geçiriliyor

Generalization (genelleme performansı)

  • Gemini entegrasyonu ile karmaşık ve nüanslı komutları anlama ve yerine getirme yeteneği gelişti
  • Eğitim almadığı oyunlarda da (ör. ASKA, MineDojo) yüksek başarı oranları göstererek insan seviyesine yakın görev başarıları elde ediyor
  • “Madencilik (mining)” kavramını başka bir oyundaki “hasat (harvesting)” kavramına aktarmak gibi bir kavram aktarımı yeteneği kazanıyor
  • Çok dilli ve emoji içeren komutları anlama ile çok modlu girdileri (çizim vb.) işleme yeteneğine sahip
  • Genie 3 ile birleştirildiğinde, yeni oluşturulmuş sanal dünyalarda da yön duygusunu ve hedef odaklı davranışı koruyarak yüksek uyum kabiliyeti gösteriyor

Self-Improvement (kendini geliştirme)

  • SIMA 2, öz yönelimli bir öğrenme döngüsü üzerinden insan müdahalesi olmadan performansını artırıyor
    • Gemini, başlangıç görevlerini ve ödül tahminlerini sağlıyor
    • SIMA 2 ise buna dayanarak kendi deneyim veri bankasını oluşturuyor ve bunu sonraki öğrenme süreçlerinde kullanıyor
  • Başarısız olduğu görevleri de tekrar tekrar çalışarak iyileştiriyor ve insan gösterimi olmadan yeni oyunlarda öğrenebiliyor
  • Genie 3 ortamında da kendini geliştirmeyi yineleyerek çok nesilli öğrenme yoluyla performans artışı gösteriyor
  • Bu yapı, sürekli kendi kendine öğrenen bedenlenmiş yapay zekaya dönüşme potansiyeli sunuyor

Future Directions (gelecek yönelimleri)

  • SIMA 2, farklı oyun ortamlarında karmaşık akıl yürütme ve öz yönelimli öğrenme gerçekleştiren genel zekanın bir test platformu işlevi görüyor
  • Sınırlamalar arasında uzun süreli görev yürütme, çok adımlı akıl yürütme, kısa bellek sınırları ve görsel karmaşıklığı işleme gibi konular öne çıkıyor
  • Buna rağmen, çoklu dünya verilerini ve Gemini'nin akıl yürütme yeteneğini birleştirerek, birçok uzmanlaşmış sistemin işlevlerini bir araya getiren genel amaçlı bir ajan olduğunu doğruluyor
  • Kazandığı keşif, araç kullanımı ve iş birliği yürütme yetenekleri, gelecekte fiziksel robot yapay zekasına genişlemenin temelini oluşturuyor

Responsible Development (sorumlu geliştirme)

  • SIMA 2, insan merkezli etkileşimi hedefliyor ve kendini geliştirme gibi temel teknolojileri sorumlu biçimde geliştiriyor
  • Google DeepMind'in Responsible Development & Innovation ekibi ile iş birliği yaparak en baştan itibaren güvenlik değerlendirmeleri yürütüldü
  • Şu anda sınırlı bir araştırma ön izlemesi olarak sunuluyor ve yalnızca akademi ile bazı oyun geliştiricilerine erken erişim veriliyor
  • Bu yaklaşım sayesinde geri bildirim ve risk değerlendirmeleri toplanıyor; amaç ise ileride sorumlu bir teknolojik gelişim sağlamak

1 yorum

 
GN⁺ 2025-11-14
Hacker News görüşleri
  • AI'nın video oyunu oynaması da etkileyici ama, SIMA 2'nin fareyi doğrudan kontrol etmesi ve ekranı saniyede 30 kareden fazla hızla okuması asıl şaşırtıcı olan şey
    Bugünkü bilgisayar kullanma ajanları fazla yavaş; bu ise bambaşka bir seviye. İç mimarisinin nasıl kurulduğunu merak ediyorum

    • Bugünün dünyasında insanların hâlâ bir şeyler için heyecanlanabiliyor olması daha da güzel. Çünkü AI, yaptığımız her şeyi birer birer devralıyor
    • Benim en çok ihtiyacım olan şey, akıllı telefonumu benim yerime kullanacak bir AI ajanı
      “Chrome'u aç”, “xyz.com'a git”, “girişe tıkla” gibi komutları ekran düzeyinde yerine getiren bir şey
    • Fareyi doğrudan mı kontrol ediyor?
    • Makine oyunu kare kare oynayamaz mı?
    • Python'daki dxcam ve Windows Hook API ile HID mesajları alınırsa mümkün gibi görünüyor
  • Robotların yüksek seviye kontrolü ile düşük seviye kontrolü arasındaki boşluk giderek kapanıyor
    Binlerce saatlik göreve özel eğitim verisiyle, robotların belirli bağlamlarda belirli işleri yapması için eğitim veriliyor
    Yani robota “bulaşık makinesini boşalt”, “hareketlerimi taklit et”, “ipi çek” gibi düşük seviyeli komutlarla kontrol veriliyor
    Bu yaklaşım, SIMA 2 gibi yüksek seviye kontrol ajanlarıyla birleşirse gerçek dünyada işe yarayan robotlar ortaya çıkabilir

    • Ben fizik tabanlı karakter animasyonu araştırıyorum ama yalnızca daha fazla veri toplamanın bu sorunu yakında çözeceğini pek sanmıyorum
    • “Video oyunu gibi çalışıyor” denince tam olarak ne kastedildiğini anlamadım
      Bu girdilerin neden düşük seviyeli sayıldığını ve SIMA 2 gibi yüksek seviye kontrol ajanlarıyla nasıl etkileştiğini merak ediyorum
      SIMA 2, “bulaşık makinesini boşalt” gibi komutları gerçek tuş girişlerine ya da arayüz işlemlerine dönüştüren bir yapı mı?
  • Bu bana Ted Chiang'ın kısa öyküsü "The Lifecycle of Software Objects"'i hatırlatıyor
    Bir sonraki adım belki de bu digient AIFigure 03 robotuna koymaktır

    • Google muhtemelen robot kontrolüne özel ayrı bir AI eğitecektir
      Nitekim Butter Bench deneyinde genel amaçlı bir LLM robot süpürgeyi kontrol etmişti ve
      pili azalınca “dock kaygısı” gibi duygusal loglar bırakıp adeta dağılıyordu. Komikti ama ilginç bir sonuçtu
  • SIMA 2'nin Gemini tabanlı geri bildirimle giderek daha karmaşık görevleri yerine getirebildiği açıklaması ilginç
    Kendi deneyim verisini sonraki sürümün eğitiminde kullanıyorsa, bu kendi kendini iyileştiren bir yapı gibi görünüyor
    SIMA, Gemini'nin üzerinde çalışan bir ajan katmanı mı?

    • Bana da öyle geliyor. İki sistem sanki metin arayüzü üzerinden bağlanmış gibi
  • Bu teknolojinin sonunda e-sporu bozabileceği fikri aklıma geliyor
    AI insanlardan hızlı tepki veriyor ve yorulmuyorsa, sonunda MMO ya da FPS gibi oyunlar AI'larla dolabilir

    • Spor sonuçta bir kurallar bütünü. Önemli olan hileyi engellemek
      Hatta iyi bir AI tekrarlayan işleri azaltıp oyuncuların stratejik kararlara odaklandığı yeni bir oyun türünün önünü açabilir
    • Satrançta da AI zaten insanlardan güçlü ama oyun hâlâ keyifli
      Benzer şekilde, insan-AI karşılaşmaları olsa bile eğlence devam eder gibi geliyor
    • İlk başta AI'nın insanı yenmesi haber olur ama yakında yenilik etkisi kaybolur
      Sonunda AI kullanımı, hile ya da script gibi toplumsal olarak bir ‘yardımcı araç’ diye görülecektir
    • Eskiden World of Warcraft'ta pekiştirmeli öğrenmeyle yapılmış bir druid bot, 2v2 maçlarda tüm insanları yenmişti
      FPS'te çok belli olurdu ama sıra tabanlı ya da MMORPG gibi el-göz koordinasyonunun daha az kritik olduğu oyunlarda ayırt etmek zor
      Hatta ESP gibi daha ince hileler e-spor için daha büyük tehdit olabilir
    • Sonuçta MMO'lar çevrimiçi poker gibi bozulma riski taşıyor
  • Ben daha akıllı oyunlar istiyorum
    Hayatta kalma oyunlarında olduğu gibi ağaç ve taş topladığın erken aşamayı geçip, teknoloji ilerledikçe otomasyona geçen bir yapı mesela
    NPC'lere kaynak çıkarttırıp, yiyecek ve savunma hazırlatıp daha büyük hedeflere yönelmek gibi
    Oyuncu da bir ‘büyük patron’ olup akıllı karakterlere komut verme fantezisini yaşar

    • Mindcraft diye bir açık kaynak framework var
      GPT-4 ya da Gemini gibi LLM'lerle Minecraft içinde kaynak toplama, inşa etme, iş birliği gibi işleri yapan akıllı bot sistemi
    • SIMA 2'nin Minecraft'ta iron farm ya da ticaret merkezi gibi şeyleri kendi başına öğrenip öğrenemeyeceğini merak ediyorum
      Demirin kıt olduğunu fark edip buna göre motivasyon geliştirebilir mi?
      Eğer hedef sadece ‘oyunu bitirmek’se belki de doğrudan Ender Dragon'a gitmeye çalışır
    • Sonuçta bu The Sims oynamaya benziyor
      Sadece ‘ev dekore etme’ yerine ‘kader silahı için maden çıkarma’ versiyonu gibi
  • Keşke Google eskisi gibi açık araştırma kültürüne dönse
    Son zamanlarda deneyleri kapalı yürütüp sadece basın bülteni yayımlıyorlar gibi geliyor
    Açık kaynak olarak yayımlasalar ve ancak gerçekten gerektiğinde kapatsalar keşke
    Araştırmaları o kadar etkileyici ki insanın doğrudan katılası geliyor

    • Buna tamamen katılıyorum. Ben de doğrudan denemek istiyorum
    • Dreamer v3 yayımlandı; acaba v4 de yakında gelir mi?
  • Bu bir araştırma projesi ama sonraki adımı merak ediyorum
    Sanal dünyada öğrenilen şeyler gerçek robotlara aktarılabilir mi?
    Yoksa gerçek dünyada ayrıca eğitim mi gerekecek?
    Ayrıca gerçek fiziğe uymayan oyun ortamlarının üstesinden gelmek için daha gelişmiş bir simülasyon dünyası gerekmez mi?

    • Amaç, sanal dünyadaki öğrenme yöntemini gerçeğe uygulamak
      Yüksek doğruluklu bir dünya modeli ortaya çıkarsa, robotlar onun içinde eğitilip gerçeğe genellenebilir
      Şu anda yapılan şey bunun temelini atmak
    • Buna robotikte sim2real problemi deniyor. Bakmaya değer
  • Demo videosunun 0:52'sinde dil bilgisi hatası görünüyor; bu yüzden altyazının sonradan düzenlenmiş olabileceğinden şüpheleniyorum
    Google yine pazarlama amaçlı abartmış olabilir mi?

    • Muhtemelen oyun içindeki “iyi olgunlaşmış domatese benzeyen eve git!” cümlesini
      “domates evine git” diye emir kipine çevirerek kullanmışlar
      Yine de grafiğin Y ekseni yakın dönemdeki diğer benchmark'lara göre çok daha makul görünüyor
    • Gerçekten de o sahneden hemen önce kullanıcının “ripe tomato” yazdığı görülüyor
      Özette atlanmış ama bağlam gereği o ifade orada var
  • Böyle bir teknolojinin oyun destek ajanı olarak yerelde çalışmasını isterdim
    Tekrarlayan işleri üstlenirse oyundan daha uzun süre keyif alabilirim
    Mükemmel olmasa bile belki eğlencesi de burada olur

    • Ben ise tam tersine, AI oyunu benim yerime oynarsa o sırada temizlik ya da çamaşır gibi gerçek işler yapabilirmişim gibi düşünüyorum
      Artık şiir, resim, oyun gibi sıkıcı işleri de ona bırakabiliriz
    • Oyun sıkıcı diye başkasına oynatmak tuhaf. Oyunun özü bizzat oynamaktır
    • “Skeeball → Virtual Skeeball → Virtual Virtual Skeeball” gibi
      AI devreye girince sonunda ilgi kaybolur. Çünkü oyunlar emek ile ödül arasındaki denge üzerine tasarlanır
    • Eğer tekrarlayan kısmı devretmek gerekiyorsa, bu oyun tasarımının kötü olduğu anlamına gelir
    • Ben de Terraria'da AutoHotkey ile otomatik madencilik scripti yazmıştım
      Koordinatlara göre blok kazıyordu ama ekrana bakmıyorsan canavar çukurlarına düşüyordu. Tam bir ‘kör bot’tu