- Gemini modeli ile entegre edilen SIMA 2, yalnızca dil komutlarını takip etmenin ötesine geçerek kullanıcının hedeflerini anlayan, kendi başına düşünebilen ve etkileşime girebilen bir 3D sanal ortam yapay zeka ajanına dönüştü
- 600'den fazla dil tabanlı eylemi yerine getiren önceki sürümden farklı olarak, akıl yürütme, diyalog ve kendini geliştirme yetenekleriyle yeni oyunlarda da hedef odaklı davranışlar sergiliyor
- MineDojo, ASKA gibi eğitim almadığı oyunlarda da yüksek genelleme performansı göstererek insan oyunculara yakın görev başarı oranlarına ulaşıyor
- Kendini geliştirme döngüsü sayesinde insan verisi olmadan da kendi deneyimini biriktirip performansını artırabilen bir yapı kuruyor
- Bu gelişmeler, genel bedenlenmiş zeka (embodied intelligence) ve robotik uygulamalarına uzanacak bir temel hazırlıyor
SIMA 2'ye genel bakış
- SIMA 2, Google DeepMind tarafından geliştirilen, 3D sanal ortamlarda insanlarla birlikte oynayan ve öğrenen Gemini tabanlı bir yapay zeka ajanıdır
- İlk sürüm olan SIMA, dil komutlarını eylemlere çevirmeye odaklanıyordu; SIMA 2 ise buna hedef çıkarımı, diyalog ve kendini geliştirme yeteneklerini ekliyor
- Bu model, AGI (genel yapay zeka) yönündeki ilerlemeyi gösteriyor ve robotik ile yapay zekada bedenlenme araştırmaları açısından önemli bir anlam taşıyor
Reasoning (akıl yürütme yeteneği)
- SIMA 1, “sola dön”, “merdivene tırman” gibi 600'den fazla komutu yerine getiriyordu, ancak bunu oyunun iç mekaniklerine erişmeden ekrana bakıp kontrol ederek yapıyordu
- SIMA 2, Gemini modelini içinde barındırarak basit komut yürütmenin ötesine geçiyor ve hedefleri anlayıp mantıklı şekilde düşünebiliyor
- Eğitim verisi, insan gösterim videoları ile Gemini tarafından üretilen etiketlerin karışımından oluşturuldu; ajan kendi eylem planını ve adımlarını da açıklayabiliyor
- Test sonuçlarında kullanıcılar, SIMA 2 ile etkileşimi bir emir-komuta ilişkisinden çok bir iş birliği olarak hissetti; eğitim ve değerlendirme çeşitli oyun ortamlarında yapıldı
- Gemini'nin akıl yürütme motoru sayesinde karmaşık 3D ortamlarda algı, anlama ve eylemi birleştiren bedenlenmiş bir yapay zeka hayata geçiriliyor
Generalization (genelleme performansı)
- Gemini entegrasyonu ile karmaşık ve nüanslı komutları anlama ve yerine getirme yeteneği gelişti
- Eğitim almadığı oyunlarda da (ör. ASKA, MineDojo) yüksek başarı oranları göstererek insan seviyesine yakın görev başarıları elde ediyor
- “Madencilik (mining)” kavramını başka bir oyundaki “hasat (harvesting)” kavramına aktarmak gibi bir kavram aktarımı yeteneği kazanıyor
- Çok dilli ve emoji içeren komutları anlama ile çok modlu girdileri (çizim vb.) işleme yeteneğine sahip
- Genie 3 ile birleştirildiğinde, yeni oluşturulmuş sanal dünyalarda da yön duygusunu ve hedef odaklı davranışı koruyarak yüksek uyum kabiliyeti gösteriyor
Self-Improvement (kendini geliştirme)
- SIMA 2, öz yönelimli bir öğrenme döngüsü üzerinden insan müdahalesi olmadan performansını artırıyor
- Gemini, başlangıç görevlerini ve ödül tahminlerini sağlıyor
- SIMA 2 ise buna dayanarak kendi deneyim veri bankasını oluşturuyor ve bunu sonraki öğrenme süreçlerinde kullanıyor
- Başarısız olduğu görevleri de tekrar tekrar çalışarak iyileştiriyor ve insan gösterimi olmadan yeni oyunlarda öğrenebiliyor
- Genie 3 ortamında da kendini geliştirmeyi yineleyerek çok nesilli öğrenme yoluyla performans artışı gösteriyor
- Bu yapı, sürekli kendi kendine öğrenen bedenlenmiş yapay zekaya dönüşme potansiyeli sunuyor
Future Directions (gelecek yönelimleri)
- SIMA 2, farklı oyun ortamlarında karmaşık akıl yürütme ve öz yönelimli öğrenme gerçekleştiren genel zekanın bir test platformu işlevi görüyor
- Sınırlamalar arasında uzun süreli görev yürütme, çok adımlı akıl yürütme, kısa bellek sınırları ve görsel karmaşıklığı işleme gibi konular öne çıkıyor
- Buna rağmen, çoklu dünya verilerini ve Gemini'nin akıl yürütme yeteneğini birleştirerek, birçok uzmanlaşmış sistemin işlevlerini bir araya getiren genel amaçlı bir ajan olduğunu doğruluyor
- Kazandığı keşif, araç kullanımı ve iş birliği yürütme yetenekleri, gelecekte fiziksel robot yapay zekasına genişlemenin temelini oluşturuyor
Responsible Development (sorumlu geliştirme)
- SIMA 2, insan merkezli etkileşimi hedefliyor ve kendini geliştirme gibi temel teknolojileri sorumlu biçimde geliştiriyor
- Google DeepMind'in Responsible Development & Innovation ekibi ile iş birliği yaparak en baştan itibaren güvenlik değerlendirmeleri yürütüldü
- Şu anda sınırlı bir araştırma ön izlemesi olarak sunuluyor ve yalnızca akademi ile bazı oyun geliştiricilerine erken erişim veriliyor
- Bu yaklaşım sayesinde geri bildirim ve risk değerlendirmeleri toplanıyor; amaç ise ileride sorumlu bir teknolojik gelişim sağlamak
1 yorum
Hacker News görüşleri
AI'nın video oyunu oynaması da etkileyici ama, SIMA 2'nin fareyi doğrudan kontrol etmesi ve ekranı saniyede 30 kareden fazla hızla okuması asıl şaşırtıcı olan şey
Bugünkü bilgisayar kullanma ajanları fazla yavaş; bu ise bambaşka bir seviye. İç mimarisinin nasıl kurulduğunu merak ediyorum
“Chrome'u aç”, “xyz.com'a git”, “girişe tıkla” gibi komutları ekran düzeyinde yerine getiren bir şey
Robotların yüksek seviye kontrolü ile düşük seviye kontrolü arasındaki boşluk giderek kapanıyor
Binlerce saatlik göreve özel eğitim verisiyle, robotların belirli bağlamlarda belirli işleri yapması için eğitim veriliyor
Yani robota “bulaşık makinesini boşalt”, “hareketlerimi taklit et”, “ipi çek” gibi düşük seviyeli komutlarla kontrol veriliyor
Bu yaklaşım, SIMA 2 gibi yüksek seviye kontrol ajanlarıyla birleşirse gerçek dünyada işe yarayan robotlar ortaya çıkabilir
Bu girdilerin neden düşük seviyeli sayıldığını ve SIMA 2 gibi yüksek seviye kontrol ajanlarıyla nasıl etkileştiğini merak ediyorum
SIMA 2, “bulaşık makinesini boşalt” gibi komutları gerçek tuş girişlerine ya da arayüz işlemlerine dönüştüren bir yapı mı?
Bu bana Ted Chiang'ın kısa öyküsü "The Lifecycle of Software Objects"'i hatırlatıyor
Bir sonraki adım belki de bu digient AI'ı Figure 03 robotuna koymaktır
Nitekim Butter Bench deneyinde genel amaçlı bir LLM robot süpürgeyi kontrol etmişti ve
pili azalınca “dock kaygısı” gibi duygusal loglar bırakıp adeta dağılıyordu. Komikti ama ilginç bir sonuçtu
SIMA 2'nin Gemini tabanlı geri bildirimle giderek daha karmaşık görevleri yerine getirebildiği açıklaması ilginç
Kendi deneyim verisini sonraki sürümün eğitiminde kullanıyorsa, bu kendi kendini iyileştiren bir yapı gibi görünüyor
SIMA, Gemini'nin üzerinde çalışan bir ajan katmanı mı?
Bu teknolojinin sonunda e-sporu bozabileceği fikri aklıma geliyor
AI insanlardan hızlı tepki veriyor ve yorulmuyorsa, sonunda MMO ya da FPS gibi oyunlar AI'larla dolabilir
Hatta iyi bir AI tekrarlayan işleri azaltıp oyuncuların stratejik kararlara odaklandığı yeni bir oyun türünün önünü açabilir
Benzer şekilde, insan-AI karşılaşmaları olsa bile eğlence devam eder gibi geliyor
Sonunda AI kullanımı, hile ya da script gibi toplumsal olarak bir ‘yardımcı araç’ diye görülecektir
FPS'te çok belli olurdu ama sıra tabanlı ya da MMORPG gibi el-göz koordinasyonunun daha az kritik olduğu oyunlarda ayırt etmek zor
Hatta ESP gibi daha ince hileler e-spor için daha büyük tehdit olabilir
Ben daha akıllı oyunlar istiyorum
Hayatta kalma oyunlarında olduğu gibi ağaç ve taş topladığın erken aşamayı geçip, teknoloji ilerledikçe otomasyona geçen bir yapı mesela
NPC'lere kaynak çıkarttırıp, yiyecek ve savunma hazırlatıp daha büyük hedeflere yönelmek gibi
Oyuncu da bir ‘büyük patron’ olup akıllı karakterlere komut verme fantezisini yaşar
GPT-4 ya da Gemini gibi LLM'lerle Minecraft içinde kaynak toplama, inşa etme, iş birliği gibi işleri yapan akıllı bot sistemi
Demirin kıt olduğunu fark edip buna göre motivasyon geliştirebilir mi?
Eğer hedef sadece ‘oyunu bitirmek’se belki de doğrudan Ender Dragon'a gitmeye çalışır
Sadece ‘ev dekore etme’ yerine ‘kader silahı için maden çıkarma’ versiyonu gibi
Keşke Google eskisi gibi açık araştırma kültürüne dönse
Son zamanlarda deneyleri kapalı yürütüp sadece basın bülteni yayımlıyorlar gibi geliyor
Açık kaynak olarak yayımlasalar ve ancak gerçekten gerektiğinde kapatsalar keşke
Araştırmaları o kadar etkileyici ki insanın doğrudan katılası geliyor
Bu bir araştırma projesi ama sonraki adımı merak ediyorum
Sanal dünyada öğrenilen şeyler gerçek robotlara aktarılabilir mi?
Yoksa gerçek dünyada ayrıca eğitim mi gerekecek?
Ayrıca gerçek fiziğe uymayan oyun ortamlarının üstesinden gelmek için daha gelişmiş bir simülasyon dünyası gerekmez mi?
Yüksek doğruluklu bir dünya modeli ortaya çıkarsa, robotlar onun içinde eğitilip gerçeğe genellenebilir
Şu anda yapılan şey bunun temelini atmak
Demo videosunun 0:52'sinde dil bilgisi hatası görünüyor; bu yüzden altyazının sonradan düzenlenmiş olabileceğinden şüpheleniyorum
Google yine pazarlama amaçlı abartmış olabilir mi?
“domates evine git” diye emir kipine çevirerek kullanmışlar
Yine de grafiğin Y ekseni yakın dönemdeki diğer benchmark'lara göre çok daha makul görünüyor
Özette atlanmış ama bağlam gereği o ifade orada var
Böyle bir teknolojinin oyun destek ajanı olarak yerelde çalışmasını isterdim
Tekrarlayan işleri üstlenirse oyundan daha uzun süre keyif alabilirim
Mükemmel olmasa bile belki eğlencesi de burada olur
Artık şiir, resim, oyun gibi sıkıcı işleri de ona bırakabiliriz
AI devreye girince sonunda ilgi kaybolur. Çünkü oyunlar emek ile ödül arasındaki denge üzerine tasarlanır
Koordinatlara göre blok kazıyordu ama ekrana bakmıyorsan canavar çukurlarına düşüyordu. Tam bir ‘kör bot’tu