- Google'ın Project Genie projesi, kullanıcıların metin ve görseller kullanarak etkileşimli sanal dünyalar oluşturmasına, keşfetmesine ve remix'lemesine olanak tanıyan deneysel bir araştırma prototipi
- Genie 3 modeli temel alınmış olup, kullanıcının hareketlerine göre gerçek zamanlı olarak rotalar ve ortamlar üretiyor
- Bir web uygulaması olarak sunuluyor ve Nano Banana Pro ile Gemini modelleri entegre edilerek dünya taslağı, keşif ve remix işlevleri destekleniyor
- Modelin sınırlamaları nedeniyle, ilk sürümde fizik kurallarıyla tutarsızlıklar, karakter kontrolünde gecikme ve 60 saniye sınırı gibi kısıtlar bulunuyor
- Şu anda ABD'deki Google AI Ultra abonelerine (18 yaş ve üzeri) sunuluyor; gelecekte daha fazla bölgeye genişletilmesi planlanıyor
Project Genie'ye Genel Bakış
- Project Genie, Google DeepMind tarafından geliştirilen, Genie 3 tabanlı deneysel bir araştırma prototipi; kullanıcılara sanal dünyalar oluşturabilecekleri, keşfedebilecekleri ve remix'leyebilecekleri bir ortam sunuyor
- ABD'deki Google AI Ultra aboneleri (18 yaş ve üzeri) kullanabiliyor
- Kullanıcılar metin istemleri ve görseller aracılığıyla dünyalar oluşturabiliyor ve bunları gerçek zamanlı olarak keşfedebiliyor
- Bu proje, sürükleyici dünya üretim teknolojisini genel kullanıcılara açmanın ilk adımı ve dünya modeli (world model) araştırmalarının genişletilmiş bir versiyonu niteliğinde
Dünya Modelinin (World Model) Gelişimi
- Dünya modeli, ortamdaki dinamik değişimleri simüle eden ve eylemlerin etkisini öngören bir sistem
- Google DeepMind, satranç veya Go gibi belirli ortamlara yönelik ajan araştırmalarının ötesine geçerek, gerçek dünyanın çeşitliliğini keşfedebilen AGI sistemleri geliştirmeyi hedefliyor
- Genie 3, kullanıcının hareketine göre gerçek zamanlı olarak rotalar oluşturuyor ve fiziksel etkileşimleri simüle ediyor
- Statik 3D anlık görüntüler yerine dinamik dünya üretimini destekliyor
- Robotik, animasyon, kurgu ve tarihî mekân keşfi gibi çeşitli senaryolarda kullanılabiliyor
Project Genie Nasıl Çalışıyor?
- Web tabanlı bir prototip olan sistemde, Genie 3'ün yanı sıra Nano Banana Pro ve Gemini modelleri de entegre edilmiş durumda
- Üç temel işlevden oluşuyor
-
1. World Sketching (Dünya Taslağı)
- Metin ve görselleri (üretilmiş veya yüklenmiş) kullanarak yaşayan ortamlar tasarlamayı sağlıyor
- Karakter ve keşif biçimi tanımlanabiliyor; yürüme, uçma, araç kullanma gibi çeşitli hareket biçimleri destekleniyor
- Nano Banana Pro entegrasyonu sayesinde dünyanın önizlemesi yapılabiliyor ve ayrıntılar ince ayarlanabiliyor
- Birinci şahıs veya üçüncü şahıs bakış açısı seçilebiliyor
-
2. World Exploration (Dünya Keşfi)
- Oluşturulan dünyalar keşfedilebilir ortamlar olarak sunuluyor ve kullanıcının eylemlerine göre gerçek zamanlı olarak rotalar oluşturuluyor
- Keşif sırasında kamera açısı ayarlanabiliyor
-
3. World Remixing (Dünya Remix'i)
- Mevcut dünyanın istemine dayanarak yeni yorumlara sahip dünyalar yeniden oluşturulabiliyor
- Galeri veya rastgele keşif işlevleri aracılığıyla diğer kullanıcıların dünyaları keşfedilebiliyor ya da düzenlenebiliyor
- Tamamlanan dünya ve keşif süreci video olarak indirilebiliyor
Sorumlu Yapay Zeka İnşası
- Project Genie, Google Labs bünyesinde yürütülen deneysel bir araştırma prototipi ve sorumlu yapay zeka geliştirme ilkeleri doğrultusunda işletiliyor
- Mevcut model sınırlamaları nedeniyle şu kısıtlar açıkça belirtiliyor
- Üretilen dünya gerçeklikten farklı olabilir veya istemle ya da fizik kurallarıyla tutarsızlık gösterebilir
- Karakter kontrolünde gecikme veya düşük tepki hızı yaşanabilir
- 60 saniyelik üretim süresi sınırı bulunuyor
- 2025 Ağustos'ta duyurulan istem tabanlı olay değişimi özelliği henüz dahil edilmiş değil
- Gelecekteki güncellemeler ve iyileştirmeler DeepMind'ın resmî sayfasından takip edilebilecek
Gelecek Planları ve Erişimin Genişletilmesi
- Project Genie, güvenilir test kullanıcılarıyla yapılan ortak araştırmalar temelinde geliştirildi
- Bu yayın, kullanıcıların dünya modellerini pratikte nasıl kullandığını anlamaya yönelik bir adım niteliğinde
- Şu anda yalnızca ABD'deki Google AI Ultra abonelerine sunuluyor ve ileride daha fazla bölgeye genişletilmesi planlanıyor
- Google, uzun vadede dünya üretim teknolojisini daha fazla kullanıcıya açmayı planlıyor
1 yorum
Hacker News yorumları
Son zamanlarda sürekli Andy Clark’ın The Experience Machine kitabını düşünüyorum
Bu, insan beyninin dünyayı doğrudan algılamadığı; bunun yerine içeride ürettiği bir simülasyonu duyularla düzelterek gerçekliği deneyimlediği teorisi
Yani biz yüksek çözünürlüklü bir üretici modelin içinde yaşıyoruz ve duyular bu modelin hata sinyalini ayarlama görevini görüyor
Genie 3’ün gizil uzayda bir sonraki kareyi tahmin etmesi gibi, insan beyni de ‘Active Inference’ yoluyla beklenti ile gerçek deneyim arasındaki farkı en aza indirmeye çalışıyor
Sonuçta gerçeklik hissi, dış dünyanın doğrudan kaydı değil; durmaksızın düzeltilen etkileşimli bir simülasyon olarak görülebilir
Örneğin rüyalar, duyusal girdinin kesildiği durumda iç modelin serbestçe çalıştığı bir örnek olarak görülebilir
Bu tür konular çok uzun zamandır felsefe ve din içinde de ele alınıyor; insan bilincinin kendi yansımalarıyla gerçekliği kurması ilgi çekici
Bir noktadan sonra bunun fotoğraf değil de hesaplanmış izlenimci bir eser olup olmadığı sorusu akla geliyor
Pek çok kişi Genie’yi yalnızca oyun ya da film ürünü sanıyor gibi görünüyor
Oysa asıl amaç, sonraki nesil AI ve robotlar için bir ‘hayal gücü motoru’, yani eylemlerin sonuçlarını simüle ederek karar vermeye yardımcı olan bir dünya modeli kurmak
Gerçek dünya videolarını belirli bir kare hızında kodlayıp modelin hayal gücünü gerçek veriye sabitleyen, olası eylem senaryolarını dallandırıp değerlendiren ve sonra en iyi tahmini motorlara gönderen bir yapı hayal ediyorum
Zamanlamayı ayarlamak kolay olmayacaktır ama büyük resim artık görünüyor
Genie, insanların anlayabildiği ve debug edebildiği bir arayüz olarak video üretiyor
Yani amacı, araştırmacılar için bir AI deney oyunu olmak bakımından farklı
Genie VR ile birleşirse benzer bir distopik dönüm noktası gelebilir
Ama ben yine de gerçek dünyanın riskini ve canlılığını tercih ediyorum
Genie’nin yayınlanmasına gerçekten sevindim
İlk kullanıcıların ilginç videoları var:
şehir keşfi, helikopter simülasyonu, uzay istasyonu ve Dunkin Donuts, laptop simülasyonu, su samuru pilot
Ayda yürümek, 221B Baker Street’te Holmes ve Watson’la karşılaşmak ya da Taipei gece pazarında dev bir bubble tea olarak dolaşmak gibi farklı dünyalar oluşturdum
Bir tanıtım videosu da var
Henüz deneysel bir prototip ama bana geleceğe dair bir ipucu gibi geliyor
Unreal 5 varlıklarını birkaç kelimeyle üretebilmek harika ama pratikte bu şekilde oynamak istemem
Üstelik saniye başına hesaplama maliyeti ödemeyi de istemem
Genie’nin asıl atılımı, arkana dönebiliyor olman
Diğer laboratuvarların simülatörleri görüş alanı dışındaki tutarlılığı koruyamıyordu, ama Genie bunu çözmüş görünüyor
Ancak bu yaklaşımın animasyon ifadesi açısından bazı sınırlamaları olabilir
Project Genie ekibiyle yapılmış bir röportaj videosu var
YouTube bağlantısı
Genie, gerçek zamanlı olarak sonsuz çeşitlilikte fotogerçekçi dünyalar üretip keşfetmeye ve onlarla etkileşime girmeye imkân veren bir araştırma prototipi
Pasif video üretiminden etkileşimli medyaya geçişi, dünya tutarlılığı ve belleği koruma gibi teknik zorlukları ve AI ajanları için bir eğitim alanı olarak rolünü ele alıyor
Bu tür teknolojileri gördükçe aksine gerçek dünyada zaman geçirmek istiyorum
Ekranı kapatıp sevdiğim şeyleri yeniden yapmak istiyorum
Gerçek çekimlerden oluşturulmuş sanal bir dünya bile tuhaf bir hüzün veriyor
Belki de gerçeklik zaten bir simülasyondur
Daha önce HN’de paylaşılmış, park videosuyla dünya modeli eğiten kişisel bir proje aklıma geldi
Bir de etkileşimli demosu vardı; Genie sanki o fikri bir adım ileri taşımış gibi
Blogların ve bağımsız demoların alıntılanmıyor olması üzücü
Park modeli 5 milyon parametreyle, 15 dakikalık videodan eğitilmiş ve iPhone’da bile çalışıyor
Buna karşılık Genie 3, yüz milyonlarca saat videoyla eğitilmiş, milyarlarca parametreli devasa bir model
Orta ölçekli modeller de ortaya çıkıyor; bu yüzden 1-2 yıl içinde oyun GPU’sunda yerel çalıştırma mümkün olabilir
Örnekler: LingBot-World, Waypoint 1
Bütün bunlar bana 『The Thirteenth Floor』 filminin temasını hatırlatıyor
Fragman bağlantısı
Keşke biri şu GIF ile bir dünya oluştursa
Bunu uzun zamandır merak ediyordum. Neden Meta(FB) dünya modellerine bu kadar az yükleniyor?
Bu tam olarak metaverse vizyonunun çekirdeği, ama buna rağmen Yann LeCun’u gönderdiler
LLM yarışına girmedi ve yalnızca doğrulanmamış teorilere odaklandı
Sonuç olarak Meta, AI’daki öncü gruptan geriye düştü; LeCun da itibarını koruyarak ayrılmış oldu
JEPA bir romancı gibi “köpek postacıya doğru koşuyor” diye özetler
Genie ise bir ressam gibi hikâyenin var olabilmesi için bir sonraki sahneyi doğrudan çizmek zorunda
Yani Genie kare düzeyinde üretim, JEPA ise kavram düzeyinde tahmin yapıyor
Bunu ürüne dönüştüremezlerse projenin tamamını kapatmaları gerekir
İçerik ne kadar iyi olursa olsun hâlâ niş bir pazar olarak kalıyor