6 puan yazan GN⁺ 2026-01-30 | 1 yorum | WhatsApp'ta paylaş
  • Google'ın Project Genie projesi, kullanıcıların metin ve görseller kullanarak etkileşimli sanal dünyalar oluşturmasına, keşfetmesine ve remix'lemesine olanak tanıyan deneysel bir araştırma prototipi
  • Genie 3 modeli temel alınmış olup, kullanıcının hareketlerine göre gerçek zamanlı olarak rotalar ve ortamlar üretiyor
  • Bir web uygulaması olarak sunuluyor ve Nano Banana Pro ile Gemini modelleri entegre edilerek dünya taslağı, keşif ve remix işlevleri destekleniyor
  • Modelin sınırlamaları nedeniyle, ilk sürümde fizik kurallarıyla tutarsızlıklar, karakter kontrolünde gecikme ve 60 saniye sınırı gibi kısıtlar bulunuyor
  • Şu anda ABD'deki Google AI Ultra abonelerine (18 yaş ve üzeri) sunuluyor; gelecekte daha fazla bölgeye genişletilmesi planlanıyor

Project Genie'ye Genel Bakış

  • Project Genie, Google DeepMind tarafından geliştirilen, Genie 3 tabanlı deneysel bir araştırma prototipi; kullanıcılara sanal dünyalar oluşturabilecekleri, keşfedebilecekleri ve remix'leyebilecekleri bir ortam sunuyor
    • ABD'deki Google AI Ultra aboneleri (18 yaş ve üzeri) kullanabiliyor
    • Kullanıcılar metin istemleri ve görseller aracılığıyla dünyalar oluşturabiliyor ve bunları gerçek zamanlı olarak keşfedebiliyor
  • Bu proje, sürükleyici dünya üretim teknolojisini genel kullanıcılara açmanın ilk adımı ve dünya modeli (world model) araştırmalarının genişletilmiş bir versiyonu niteliğinde

Dünya Modelinin (World Model) Gelişimi

  • Dünya modeli, ortamdaki dinamik değişimleri simüle eden ve eylemlerin etkisini öngören bir sistem
  • Google DeepMind, satranç veya Go gibi belirli ortamlara yönelik ajan araştırmalarının ötesine geçerek, gerçek dünyanın çeşitliliğini keşfedebilen AGI sistemleri geliştirmeyi hedefliyor
  • Genie 3, kullanıcının hareketine göre gerçek zamanlı olarak rotalar oluşturuyor ve fiziksel etkileşimleri simüle ediyor
    • Statik 3D anlık görüntüler yerine dinamik dünya üretimini destekliyor
    • Robotik, animasyon, kurgu ve tarihî mekân keşfi gibi çeşitli senaryolarda kullanılabiliyor

Project Genie Nasıl Çalışıyor?

  • Web tabanlı bir prototip olan sistemde, Genie 3'ün yanı sıra Nano Banana Pro ve Gemini modelleri de entegre edilmiş durumda
  • Üç temel işlevden oluşuyor
  • 1. World Sketching (Dünya Taslağı)

    • Metin ve görselleri (üretilmiş veya yüklenmiş) kullanarak yaşayan ortamlar tasarlamayı sağlıyor
    • Karakter ve keşif biçimi tanımlanabiliyor; yürüme, uçma, araç kullanma gibi çeşitli hareket biçimleri destekleniyor
    • Nano Banana Pro entegrasyonu sayesinde dünyanın önizlemesi yapılabiliyor ve ayrıntılar ince ayarlanabiliyor
    • Birinci şahıs veya üçüncü şahıs bakış açısı seçilebiliyor
  • 2. World Exploration (Dünya Keşfi)

    • Oluşturulan dünyalar keşfedilebilir ortamlar olarak sunuluyor ve kullanıcının eylemlerine göre gerçek zamanlı olarak rotalar oluşturuluyor
    • Keşif sırasında kamera açısı ayarlanabiliyor
  • 3. World Remixing (Dünya Remix'i)

    • Mevcut dünyanın istemine dayanarak yeni yorumlara sahip dünyalar yeniden oluşturulabiliyor
    • Galeri veya rastgele keşif işlevleri aracılığıyla diğer kullanıcıların dünyaları keşfedilebiliyor ya da düzenlenebiliyor
    • Tamamlanan dünya ve keşif süreci video olarak indirilebiliyor

Sorumlu Yapay Zeka İnşası

  • Project Genie, Google Labs bünyesinde yürütülen deneysel bir araştırma prototipi ve sorumlu yapay zeka geliştirme ilkeleri doğrultusunda işletiliyor
  • Mevcut model sınırlamaları nedeniyle şu kısıtlar açıkça belirtiliyor
    • Üretilen dünya gerçeklikten farklı olabilir veya istemle ya da fizik kurallarıyla tutarsızlık gösterebilir
    • Karakter kontrolünde gecikme veya düşük tepki hızı yaşanabilir
    • 60 saniyelik üretim süresi sınırı bulunuyor
  • 2025 Ağustos'ta duyurulan istem tabanlı olay değişimi özelliği henüz dahil edilmiş değil
  • Gelecekteki güncellemeler ve iyileştirmeler DeepMind'ın resmî sayfasından takip edilebilecek

Gelecek Planları ve Erişimin Genişletilmesi

  • Project Genie, güvenilir test kullanıcılarıyla yapılan ortak araştırmalar temelinde geliştirildi
  • Bu yayın, kullanıcıların dünya modellerini pratikte nasıl kullandığını anlamaya yönelik bir adım niteliğinde
  • Şu anda yalnızca ABD'deki Google AI Ultra abonelerine sunuluyor ve ileride daha fazla bölgeye genişletilmesi planlanıyor
  • Google, uzun vadede dünya üretim teknolojisini daha fazla kullanıcıya açmayı planlıyor

1 yorum

 
GN⁺ 2026-01-30
Hacker News yorumları
  • Son zamanlarda sürekli Andy Clark’ın The Experience Machine kitabını düşünüyorum
    Bu, insan beyninin dünyayı doğrudan algılamadığı; bunun yerine içeride ürettiği bir simülasyonu duyularla düzelterek gerçekliği deneyimlediği teorisi
    Yani biz yüksek çözünürlüklü bir üretici modelin içinde yaşıyoruz ve duyular bu modelin hata sinyalini ayarlama görevini görüyor
    Genie 3’ün gizil uzayda bir sonraki kareyi tahmin etmesi gibi, insan beyni de ‘Active Inference’ yoluyla beklenti ile gerçek deneyim arasındaki farkı en aza indirmeye çalışıyor
    Sonuçta gerçeklik hissi, dış dünyanın doğrudan kaydı değil; durmaksızın düzeltilen etkileşimli bir simülasyon olarak görülebilir

    • Nörolojik açıdan bu zaten oldukça yerleşmiş bir kavram
      Örneğin rüyalar, duyusal girdinin kesildiği durumda iç modelin serbestçe çalıştığı bir örnek olarak görülebilir
    • İlgili videolar olarak kurzgesagt’ın Why Your Brain Blinds You For 2 Hours Every Day videosunu ve onun kaynak derlemesini öneririm
    • Anil Seth’in Your Brain Hallucinates Your Conscious Reality konuşması da aynı bağlamda
      Bu tür konular çok uzun zamandır felsefe ve din içinde de ele alınıyor; insan bilincinin kendi yansımalarıyla gerçekliği kurması ilgi çekici
    • Akıllı telefon fotoğraflarındaki sonradan işleme de benzer bir benzetme olarak görülebilir
      Bir noktadan sonra bunun fotoğraf değil de hesaplanmış izlenimci bir eser olup olmadığı sorusu akla geliyor
    • Donald Hoffman’ın 『The Case Against Reality』 kitabı da birlikte okunmaya değer
  • Pek çok kişi Genie’yi yalnızca oyun ya da film ürünü sanıyor gibi görünüyor
    Oysa asıl amaç, sonraki nesil AI ve robotlar için bir ‘hayal gücü motoru’, yani eylemlerin sonuçlarını simüle ederek karar vermeye yardımcı olan bir dünya modeli kurmak

    • Ben de katılıyorum. LLM’lerin dünya modeli olmadığı söylenirdi; şimdi sanki bir sonraki aşamaya geçiyoruz
      Gerçek dünya videolarını belirli bir kare hızında kodlayıp modelin hayal gücünü gerçek veriye sabitleyen, olası eylem senaryolarını dallandırıp değerlendiren ve sonra en iyi tahmini motorlara gönderen bir yapı hayal ediyorum
      Zamanlamayı ayarlamak kolay olmayacaktır ama büyük resim artık görünüyor
    • Ben biraz farklı düşünüyorum. Gerçek hayal gücü isteniyorsa ille de video çözümleme gerekmediğini düşünüyorum
      Genie, insanların anlayabildiği ve debug edebildiği bir arayüz olarak video üretiyor
      Yani amacı, araştırmacılar için bir AI deney oyunu olmak bakımından farklı
    • Ama bu tür bir yapı fazlasıyla maliyetli. Robotik için tamamen farklı bir mimari gerekecek gibi duruyor
    • Instagram da ilk başta arkadaşlarla fotoğraf paylaşma uygulamasıydı ama şimdi bağımlılık yaratan bir platform oldu
      Genie VR ile birleşirse benzer bir distopik dönüm noktası gelebilir
    • Bu tür çevre haritalama ve AI’ın alternatif sonuçlar üretmesi sonuçta holodeck fikri
      Ama ben yine de gerçek dünyanın riskini ve canlılığını tercih ediyorum
  • Genie’nin yayınlanmasına gerçekten sevindim
    İlk kullanıcıların ilginç videoları var:
    şehir keşfi, helikopter simülasyonu, uzay istasyonu ve Dunkin Donuts, laptop simülasyonu, su samuru pilot

    • Ben de erken test kullanıcılarından biriydim
      Ayda yürümek, 221B Baker Street’te Holmes ve Watson’la karşılaşmak ya da Taipei gece pazarında dev bir bubble tea olarak dolaşmak gibi farklı dünyalar oluşturdum
      Bir tanıtım videosu da var
      Henüz deneysel bir prototip ama bana geleceğe dair bir ipucu gibi geliyor
    • Teknik olarak etkileyici ama sürükleyiciliği yetersiz
      Unreal 5 varlıklarını birkaç kelimeyle üretebilmek harika ama pratikte bu şekilde oynamak istemem
      Üstelik saniye başına hesaplama maliyeti ödemeyi de istemem
    • Dinozor çağını yeniden kuran bir sürüm çıkarsa gerçekten görmek isterim
    • Project Genie hakkında başkalarının ne düşündüğünü merak ediyorum
  • Genie’nin asıl atılımı, arkana dönebiliyor olman
    Diğer laboratuvarların simülatörleri görüş alanı dışındaki tutarlılığı koruyamıyordu, ama Genie bunu çözmüş görünüyor

    • Fei-Fei Li’nin laboratuvarının gerçek 3D dünyalar ürettiğini duydum
      Ancak bu yaklaşımın animasyon ifadesi açısından bazı sınırlamaları olabilir
    • ML araştırmacılarının açık önbellek yapısına ihtiyaç olduğunu ancak şimdi fark etmiş olması şaşırtıcı
    • O zaman bir hafta sonra aynı yere dönülürse sahnenin korunup korunmayacağını merak ediyorum
  • Project Genie ekibiyle yapılmış bir röportaj videosu var
    YouTube bağlantısı
    Genie, gerçek zamanlı olarak sonsuz çeşitlilikte fotogerçekçi dünyalar üretip keşfetmeye ve onlarla etkileşime girmeye imkân veren bir araştırma prototipi
    Pasif video üretiminden etkileşimli medyaya geçişi, dünya tutarlılığı ve belleği koruma gibi teknik zorlukları ve AI ajanları için bir eğitim alanı olarak rolünü ele alıyor

  • Bu tür teknolojileri gördükçe aksine gerçek dünyada zaman geçirmek istiyorum
    Ekranı kapatıp sevdiğim şeyleri yeniden yapmak istiyorum

    • Ben de aynı hissi yaşıyorum. Videoda klavyeye basan birini gördüğüm anda içime bir burukluk çöküyor
      Gerçek çekimlerden oluşturulmuş sanal bir dünya bile tuhaf bir hüzün veriyor
    • AI’ı seviyorum ama umarım bu tür teknolojiler gerçek insan deneyiminin değerini daha da belirginleştirir
    • Hayatım boyunca teknoloji sektöründe çalıştım ama artık her şeyi kapatıp kurtulmak istiyorum
    • İronik şekilde bu ilerlemeler beni simülasyon hipotezine daha çok inandırıyor
      Belki de gerçeklik zaten bir simülasyondur
    • Gökyüzü mavi, güneş güzel ama üşeniyorum; acaba sadece bir yürüyüş simülasyonu mu açsam diye düşünüyorum
  • Daha önce HN’de paylaşılmış, park videosuyla dünya modeli eğiten kişisel bir proje aklıma geldi
    Bir de etkileşimli demosu vardı; Genie sanki o fikri bir adım ileri taşımış gibi
    Blogların ve bağımsız demoların alıntılanmıyor olması üzücü

    • Evet, kavram benzer ama ölçeğin uç noktası çok farklı
      Park modeli 5 milyon parametreyle, 15 dakikalık videodan eğitilmiş ve iPhone’da bile çalışıyor
      Buna karşılık Genie 3, yüz milyonlarca saat videoyla eğitilmiş, milyarlarca parametreli devasa bir model
      Orta ölçekli modeller de ortaya çıkıyor; bu yüzden 1-2 yıl içinde oyun GPU’sunda yerel çalıştırma mümkün olabilir
      Örnekler: LingBot-World, Waypoint 1
  • Bütün bunlar bana 『The Thirteenth Floor』 filminin temasını hatırlatıyor
    Fragman bağlantısı

  • Keşke biri şu GIF ile bir dünya oluştursa

  • Bunu uzun zamandır merak ediyordum. Neden Meta(FB) dünya modellerine bu kadar az yükleniyor?
    Bu tam olarak metaverse vizyonunun çekirdeği, ama buna rağmen Yann LeCun’u gönderdiler

    • LeCun, sonuç eksikliği ve inatçı araştırma yönü nedeniyle içeride çatlaklara yol açtı
      LLM yarışına girmedi ve yalnızca doğrulanmamış teorilere odaklandı
      Sonuç olarak Meta, AI’daki öncü gruptan geriye düştü; LeCun da itibarını koruyarak ayrılmış oldu
    • JEPA ile Genie arasındaki farkı şöyle benzetiyorum
      JEPA bir romancı gibi “köpek postacıya doğru koşuyor” diye özetler
      Genie ise bir ressam gibi hikâyenin var olabilmesi için bir sonraki sahneyi doğrudan çizmek zorunda
      Yani Genie kare düzeyinde üretim, JEPA ise kavram düzeyinde tahmin yapıyor
    • Buna tamamen katılıyorum. Dünya modelleri tam da Reality Labs yatırımının kurtarıcı kartı
      Bunu ürüne dönüştüremezlerse projenin tamamını kapatmaları gerekir
    • Başarısız örnekler açıklanmıyor. Meta’nın gerçekte nereye yatırım yaptığı belirsiz
    • Temelde insanlar VR başlığı takmayı sevmiyor
      İçerik ne kadar iyi olursa olsun hâlâ niş bir pazar olarak kalıyor