Project Genie: Sonsuz ve Etkileşimli Dünyaları Deneyimlemek

(blog.google)

6 puan yazan GN⁺ 2026-01-30 | 1 yorum | WhatsApp'ta paylaş

Google'ın Project Genie projesi, kullanıcıların metin ve görseller kullanarak etkileşimli sanal dünyalar oluşturmasına, keşfetmesine ve remix'lemesine olanak tanıyan deneysel bir araştırma prototipi
Genie 3 modeli temel alınmış olup, kullanıcının hareketlerine göre gerçek zamanlı olarak rotalar ve ortamlar üretiyor
Bir web uygulaması olarak sunuluyor ve Nano Banana Pro ile Gemini modelleri entegre edilerek dünya taslağı, keşif ve remix işlevleri destekleniyor
Modelin sınırlamaları nedeniyle, ilk sürümde fizik kurallarıyla tutarsızlıklar, karakter kontrolünde gecikme ve 60 saniye sınırı gibi kısıtlar bulunuyor
Şu anda ABD'deki Google AI Ultra abonelerine (18 yaş ve üzeri) sunuluyor; gelecekte daha fazla bölgeye genişletilmesi planlanıyor

Project Genie'ye Genel Bakış

Project Genie, Google DeepMind tarafından geliştirilen, Genie 3 tabanlı deneysel bir araştırma prototipi; kullanıcılara sanal dünyalar oluşturabilecekleri, keşfedebilecekleri ve remix'leyebilecekleri bir ortam sunuyor
- ABD'deki Google AI Ultra aboneleri (18 yaş ve üzeri) kullanabiliyor
- Kullanıcılar metin istemleri ve görseller aracılığıyla dünyalar oluşturabiliyor ve bunları gerçek zamanlı olarak keşfedebiliyor
Bu proje, sürükleyici dünya üretim teknolojisini genel kullanıcılara açmanın ilk adımı ve dünya modeli (world model) araştırmalarının genişletilmiş bir versiyonu niteliğinde

Dünya Modelinin (World Model) Gelişimi

Dünya modeli, ortamdaki dinamik değişimleri simüle eden ve eylemlerin etkisini öngören bir sistem
Google DeepMind, satranç veya Go gibi belirli ortamlara yönelik ajan araştırmalarının ötesine geçerek, gerçek dünyanın çeşitliliğini keşfedebilen AGI sistemleri geliştirmeyi hedefliyor
Genie 3, kullanıcının hareketine göre gerçek zamanlı olarak rotalar oluşturuyor ve fiziksel etkileşimleri simüle ediyor
- Statik 3D anlık görüntüler yerine dinamik dünya üretimini destekliyor
- Robotik, animasyon, kurgu ve tarihî mekân keşfi gibi çeşitli senaryolarda kullanılabiliyor

Project Genie Nasıl Çalışıyor?

Web tabanlı bir prototip olan sistemde, Genie 3'ün yanı sıra Nano Banana Pro ve Gemini modelleri de entegre edilmiş durumda
Üç temel işlevden oluşuyor
1. World Sketching (Dünya Taslağı)
- Metin ve görselleri (üretilmiş veya yüklenmiş) kullanarak yaşayan ortamlar tasarlamayı sağlıyor
- Karakter ve keşif biçimi tanımlanabiliyor; yürüme, uçma, araç kullanma gibi çeşitli hareket biçimleri destekleniyor
- Nano Banana Pro entegrasyonu sayesinde dünyanın önizlemesi yapılabiliyor ve ayrıntılar ince ayarlanabiliyor
- Birinci şahıs veya üçüncü şahıs bakış açısı seçilebiliyor
2. World Exploration (Dünya Keşfi)
- Oluşturulan dünyalar keşfedilebilir ortamlar olarak sunuluyor ve kullanıcının eylemlerine göre gerçek zamanlı olarak rotalar oluşturuluyor
- Keşif sırasında kamera açısı ayarlanabiliyor
3. World Remixing (Dünya Remix'i)
- Mevcut dünyanın istemine dayanarak yeni yorumlara sahip dünyalar yeniden oluşturulabiliyor
- Galeri veya rastgele keşif işlevleri aracılığıyla diğer kullanıcıların dünyaları keşfedilebiliyor ya da düzenlenebiliyor
- Tamamlanan dünya ve keşif süreci video olarak indirilebiliyor

Sorumlu Yapay Zeka İnşası

Project Genie, Google Labs bünyesinde yürütülen deneysel bir araştırma prototipi ve sorumlu yapay zeka geliştirme ilkeleri doğrultusunda işletiliyor
Mevcut model sınırlamaları nedeniyle şu kısıtlar açıkça belirtiliyor
- Üretilen dünya gerçeklikten farklı olabilir veya istemle ya da fizik kurallarıyla tutarsızlık gösterebilir
- Karakter kontrolünde gecikme veya düşük tepki hızı yaşanabilir
- 60 saniyelik üretim süresi sınırı bulunuyor
2025 Ağustos'ta duyurulan istem tabanlı olay değişimi özelliği henüz dahil edilmiş değil
Gelecekteki güncellemeler ve iyileştirmeler DeepMind'ın resmî sayfasından takip edilebilecek

Gelecek Planları ve Erişimin Genişletilmesi

Project Genie, güvenilir test kullanıcılarıyla yapılan ortak araştırmalar temelinde geliştirildi
Bu yayın, kullanıcıların dünya modellerini pratikte nasıl kullandığını anlamaya yönelik bir adım niteliğinde
Şu anda yalnızca ABD'deki Google AI Ultra abonelerine sunuluyor ve ileride daha fazla bölgeye genişletilmesi planlanıyor
Google, uzun vadede dünya üretim teknolojisini daha fazla kullanıcıya açmayı planlıyor

1 yorum

GN⁺ 2026-01-30

Hacker News yorumları

Son zamanlarda sürekli Andy Clark’ın The Experience Machine kitabını düşünüyorum
Bu, insan beyninin dünyayı doğrudan algılamadığı; bunun yerine içeride ürettiği bir simülasyonu duyularla düzelterek gerçekliği deneyimlediği teorisi
Yani biz yüksek çözünürlüklü bir üretici modelin içinde yaşıyoruz ve duyular bu modelin hata sinyalini ayarlama görevini görüyor
Genie 3’ün gizil uzayda bir sonraki kareyi tahmin etmesi gibi, insan beyni de ‘Active Inference’ yoluyla beklenti ile gerçek deneyim arasındaki farkı en aza indirmeye çalışıyor
Sonuçta gerçeklik hissi, dış dünyanın doğrudan kaydı değil; durmaksızın düzeltilen etkileşimli bir simülasyon olarak görülebilir
- Nörolojik açıdan bu zaten oldukça yerleşmiş bir kavram
  Örneğin rüyalar, duyusal girdinin kesildiği durumda iç modelin serbestçe çalıştığı bir örnek olarak görülebilir
- İlgili videolar olarak kurzgesagt’ın Why Your Brain Blinds You For 2 Hours Every Day videosunu ve onun kaynak derlemesini öneririm
- Anil Seth’in Your Brain Hallucinates Your Conscious Reality konuşması da aynı bağlamda
  Bu tür konular çok uzun zamandır felsefe ve din içinde de ele alınıyor; insan bilincinin kendi yansımalarıyla gerçekliği kurması ilgi çekici
- Akıllı telefon fotoğraflarındaki sonradan işleme de benzer bir benzetme olarak görülebilir
  Bir noktadan sonra bunun fotoğraf değil de hesaplanmış izlenimci bir eser olup olmadığı sorusu akla geliyor
- Donald Hoffman’ın 『The Case Against Reality』 kitabı da birlikte okunmaya değer
Pek çok kişi Genie’yi yalnızca oyun ya da film ürünü sanıyor gibi görünüyor
Oysa asıl amaç, sonraki nesil AI ve robotlar için bir ‘hayal gücü motoru’, yani eylemlerin sonuçlarını simüle ederek karar vermeye yardımcı olan bir dünya modeli kurmak
- Ben de katılıyorum. LLM’lerin dünya modeli olmadığı söylenirdi; şimdi sanki bir sonraki aşamaya geçiyoruz
  Gerçek dünya videolarını belirli bir kare hızında kodlayıp modelin hayal gücünü gerçek veriye sabitleyen, olası eylem senaryolarını dallandırıp değerlendiren ve sonra en iyi tahmini motorlara gönderen bir yapı hayal ediyorum
  Zamanlamayı ayarlamak kolay olmayacaktır ama büyük resim artık görünüyor
- Ben biraz farklı düşünüyorum. Gerçek hayal gücü isteniyorsa ille de video çözümleme gerekmediğini düşünüyorum
  Genie, insanların anlayabildiği ve debug edebildiği bir arayüz olarak video üretiyor
  Yani amacı, araştırmacılar için bir AI deney oyunu olmak bakımından farklı
- Ama bu tür bir yapı fazlasıyla maliyetli. Robotik için tamamen farklı bir mimari gerekecek gibi duruyor
- Instagram da ilk başta arkadaşlarla fotoğraf paylaşma uygulamasıydı ama şimdi bağımlılık yaratan bir platform oldu
  Genie VR ile birleşirse benzer bir distopik dönüm noktası gelebilir
- Bu tür çevre haritalama ve AI’ın alternatif sonuçlar üretmesi sonuçta holodeck fikri
  Ama ben yine de gerçek dünyanın riskini ve canlılığını tercih ediyorum
Genie’nin yayınlanmasına gerçekten sevindim
İlk kullanıcıların ilginç videoları var:
şehir keşfi, helikopter simülasyonu, uzay istasyonu ve Dunkin Donuts, laptop simülasyonu, su samuru pilot
- Ben de erken test kullanıcılarından biriydim
  Ayda yürümek, 221B Baker Street’te Holmes ve Watson’la karşılaşmak ya da Taipei gece pazarında dev bir bubble tea olarak dolaşmak gibi farklı dünyalar oluşturdum
  Bir tanıtım videosu da var
  Henüz deneysel bir prototip ama bana geleceğe dair bir ipucu gibi geliyor
- Teknik olarak etkileyici ama sürükleyiciliği yetersiz
  Unreal 5 varlıklarını birkaç kelimeyle üretebilmek harika ama pratikte bu şekilde oynamak istemem
  Üstelik saniye başına hesaplama maliyeti ödemeyi de istemem
- Dinozor çağını yeniden kuran bir sürüm çıkarsa gerçekten görmek isterim
- Project Genie hakkında başkalarının ne düşündüğünü merak ediyorum
Genie’nin asıl atılımı, arkana dönebiliyor olman
Diğer laboratuvarların simülatörleri görüş alanı dışındaki tutarlılığı koruyamıyordu, ama Genie bunu çözmüş görünüyor
- Fei-Fei Li’nin laboratuvarının gerçek 3D dünyalar ürettiğini duydum
  Ancak bu yaklaşımın animasyon ifadesi açısından bazı sınırlamaları olabilir
- ML araştırmacılarının açık önbellek yapısına ihtiyaç olduğunu ancak şimdi fark etmiş olması şaşırtıcı
- O zaman bir hafta sonra aynı yere dönülürse sahnenin korunup korunmayacağını merak ediyorum
Project Genie ekibiyle yapılmış bir röportaj videosu var
YouTube bağlantısı
Genie, gerçek zamanlı olarak sonsuz çeşitlilikte fotogerçekçi dünyalar üretip keşfetmeye ve onlarla etkileşime girmeye imkân veren bir araştırma prototipi
Pasif video üretiminden etkileşimli medyaya geçişi, dünya tutarlılığı ve belleği koruma gibi teknik zorlukları ve AI ajanları için bir eğitim alanı olarak rolünü ele alıyor
Bu tür teknolojileri gördükçe aksine gerçek dünyada zaman geçirmek istiyorum
Ekranı kapatıp sevdiğim şeyleri yeniden yapmak istiyorum
- Ben de aynı hissi yaşıyorum. Videoda klavyeye basan birini gördüğüm anda içime bir burukluk çöküyor
  Gerçek çekimlerden oluşturulmuş sanal bir dünya bile tuhaf bir hüzün veriyor
- AI’ı seviyorum ama umarım bu tür teknolojiler gerçek insan deneyiminin değerini daha da belirginleştirir
- Hayatım boyunca teknoloji sektöründe çalıştım ama artık her şeyi kapatıp kurtulmak istiyorum
- İronik şekilde bu ilerlemeler beni simülasyon hipotezine daha çok inandırıyor
  Belki de gerçeklik zaten bir simülasyondur
- Gökyüzü mavi, güneş güzel ama üşeniyorum; acaba sadece bir yürüyüş simülasyonu mu açsam diye düşünüyorum
Daha önce HN’de paylaşılmış, park videosuyla dünya modeli eğiten kişisel bir proje aklıma geldi
Bir de etkileşimli demosu vardı; Genie sanki o fikri bir adım ileri taşımış gibi
Blogların ve bağımsız demoların alıntılanmıyor olması üzücü
- Evet, kavram benzer ama ölçeğin uç noktası çok farklı
  Park modeli 5 milyon parametreyle, 15 dakikalık videodan eğitilmiş ve iPhone’da bile çalışıyor
  Buna karşılık Genie 3, yüz milyonlarca saat videoyla eğitilmiş, milyarlarca parametreli devasa bir model
  Orta ölçekli modeller de ortaya çıkıyor; bu yüzden 1-2 yıl içinde oyun GPU’sunda yerel çalıştırma mümkün olabilir
  Örnekler: LingBot-World, Waypoint 1
Bütün bunlar bana 『The Thirteenth Floor』 filminin temasını hatırlatıyor
Fragman bağlantısı
Keşke biri şu GIF ile bir dünya oluştursa
Bunu uzun zamandır merak ediyordum. Neden Meta(FB) dünya modellerine bu kadar az yükleniyor?
Bu tam olarak metaverse vizyonunun çekirdeği, ama buna rağmen Yann LeCun’u gönderdiler
- LeCun, sonuç eksikliği ve inatçı araştırma yönü nedeniyle içeride çatlaklara yol açtı
  LLM yarışına girmedi ve yalnızca doğrulanmamış teorilere odaklandı
  Sonuç olarak Meta, AI’daki öncü gruptan geriye düştü; LeCun da itibarını koruyarak ayrılmış oldu
- JEPA ile Genie arasındaki farkı şöyle benzetiyorum
  JEPA bir romancı gibi “köpek postacıya doğru koşuyor” diye özetler
  Genie ise bir ressam gibi hikâyenin var olabilmesi için bir sonraki sahneyi doğrudan çizmek zorunda
  Yani Genie kare düzeyinde üretim, JEPA ise kavram düzeyinde tahmin yapıyor
- Buna tamamen katılıyorum. Dünya modelleri tam da Reality Labs yatırımının kurtarıcı kartı
  Bunu ürüne dönüştüremezlerse projenin tamamını kapatmaları gerekir
- Başarısız örnekler açıklanmıyor. Meta’nın gerçekte nereye yatırım yaptığı belirsiz
- Temelde insanlar VR başlığı takmayı sevmiyor
  İçerik ne kadar iyi olursa olsun hâlâ niş bir pazar olarak kalıyor

Project Genie: Sonsuz ve Etkileşimli Dünyaları Deneyimlemek

Project Genie'ye Genel Bakış

Dünya Modelinin (World Model) Gelişimi

Project Genie Nasıl Çalışıyor?

1. World Sketching (Dünya Taslağı)

2. World Exploration (Dünya Keşfi)

3. World Remixing (Dünya Remix'i)

Sorumlu Yapay Zeka İnşası

Gelecek Planları ve Erişimin Genişletilmesi

İlgili okumalar

1 yorum

Hacker News yorumları