Google DeepMind, Genie 3 dünya modelini tanıttı

(deepmind.google)

14 puan yazan GN⁺ 2025-08-06 | 1 yorum | WhatsApp'ta paylaş

Yalnızca metin promptlarıyla gerçek zamanlı etkileşimli 3D ortamlar üreten ilk genel amaçlı dünya modeli
24fps, 720p çözünürlük ve birkaç dakika boyunca tutarlılığı koruma sunuyor; önceki Genie 2'ye kıyasla etkileşim, gerçekçilik ve süreklilik büyük ölçüde iyileştirildi
Fiziksel olaylar, ekosistemler, animasyonlar, tarihsel ve coğrafi arka planlar dahil çok çeşitli konularda sanal dünyaları doğal ve zengin biçimde üretebiliyor
Promptable world events özelliği sayesinde kullanıcılar hava durumu değişimi, nesne ekleme gibi dinamik olayları metinle gerçek zamanlı kontrol edebiliyor
Ajan araştırmaları için tasarlandı; SIMA ajanı gibi sistemlerle bağlantı kurarak uzun vadeli hedeflere ulaşma veya karmaşık davranış dizilerini test etmeyi mümkün kılıyor

Genie 3: dünya simülasyonunda yeni bir atılım

Dünya modellerinin gelişim arka planı

DeepMind, AI ajan eğitimi, açık uçlu öğrenme ve robotik gibi alanlarda simülasyon ortamı araştırmalarına öncülük ediyor
Dünya modeli, ortam değişimlerini ve ajan davranışlarının sonuçlarını öngörebilen ve yeniden üretebilen bir yapay zeka sistemi olup AGI'ye giden yolda önemli bir ara aşama olarak görülüyor
Genie 1 ve 2'nin ardından Genie 3, gerçek zamanlı etkileşim ile görsel ve fiziksel tutarlılığı aynı anda sunan ilk dünya modeli olarak öne çıkıyor

Genie 3'ün başlıca özellikleri

Doğa ve fiziksel olay modelleme
- Su, ışık ve çeşitli çevresel etkileşimler gibi gerçek dünyadaki doğal olayları yalnızca promptlarla doğal biçimde oluşturabiliyor
Karmaşık ekosistemler ve animasyonlar
- Hayvan davranışları, bitki büyümesi gibi ekosistem dinamiklerini ve hayal gücüne dayalı animasyon dünyalarını üretebiliyor
Reklam
Tarihsel ve coğrafi arka planların oluşturulması
- Coğrafi ve dönemsel sınırları aşan çeşitli mekanları sanal ortamlar olarak gerçek zamanlı biçimde kurabiliyor
Gerçek zamanlı etkileşim ve kontrol
- Kullanıcı girdisine göre 24fps ve 720p'de anlık dünya değişimlerini görselleştiriyor
- Daha önce ziyaret edilen konum ve durumları hatırlayarak birkaç dakika boyunca fiziksel ve görsel tutarlılığı koruyor
Promptable World Events
- Metin promptlarıyla hava durumu değişimi, nesne veya karakter ekleme gibi çevresel değişim olaylarını gerçek zamanlı tetikleyebiliyor
- Keşif kontrolünün ötesinde "ya şöyle olsaydı" senaryoları veya gündelik olmayan durumlar üretme gibi geniş kullanım alanları sunuyor
Ajan araştırmaları ve deneyler
- SIMA gibi 3D ortamlara özel yapay zeka ajanları, Genie 3 içindeki dünyalarda karmaşık hedeflerin peşinden giderek uzun sekanslı görevleri yerine getirme yeteneklerini doğrulayabiliyor
- Ajanın hedefleri Genie 3 ile paylaşılmıyor; sonuçlar yalnızca davranış dizileri ve dünya simülasyonu üzerinden üretiliyor

Teknik zorluklar ve başarılar

Kare bazında otoregresif üretim sürecinde kullanıcı girdileri ile geçmiş sekansların tamamının gerçek zamanlı yansıtılması gerektiğinden oldukça zorlayıcı bir teknik yapı gerekiyor
NeRF, Gaussian Splatting gibi mevcut yaklaşımlardan farklı olarak Genie 3, açık bir 3D temsil olmadan tamamen üretim temelli çalışıyor ve bu sayede çok daha dinamik ve zengin ortamlar oluşturuyor

Sınırlamalar ve görevler

Davranış aralığı sınırlı: Prompt tabanlı ortam değişiklikleri çeşitli olsa da doğrudan gerçekleştirilebilen eylemler hâlâ sınırlı
Çoklu ajan etkileşimi: Birden fazla ajan arasındaki etkileşimlerin doğru biçimde simüle edilmesi hâlâ araştırma konusu
Gerçek dünya konumlarını yeniden üretme sınırı: Gerçek coğrafi alanlar için kusursuz doğruluk sunmuyor
Metin render etme sınırı: Yalnızca açıkça girildiğinde net metin gösterimi mümkün
Etkileşim süresi sınırı: Şu anda yalnızca birkaç dakikalık sürekli etkileşimi destekliyor

Sorumluluk ve yayın kapsamı

Genie 3'ün açık uçlu ve gerçek zamanlı üretim özellikleri yeni güvenlik ve etik sorunlarını beraberinde getirdiğinden Responsible Development & Innovation Team ile yakın iş birliği yürütülüyor
İlk aşamada yalnızca sınırlı sayıdaki araştırmacı ve içerik üreticisine araştırma önizlemesi olarak sunulacak; geri bildirimlerle kapsamın kademeli olarak genişletilmesi ve risklere karşı önlemler geliştirilmesi planlanıyor

Gelecek ve kullanım beklentileri

Genie 3, eğitim, öğretim, yapay zeka ajan eğitimi ve performans doğrulama gibi birçok alanda yeni olanaklar sunuyor
AGI (genel yapay zeka) araştırmalarında kilit bir rol oynaması bekleniyor ve insanlığa faydalı olacak şekilde güvenli biçimde geliştirilmeye devam edilecek

1 yorum

GN⁺ 2025-08-06

Hacker News yorumu

Bu alanda çalışan ya da uzmanlığı olan biri varsa, Genie 3'ün hangi teknikler, mimari, sistem tasarımı ve hesaplama gereksinimleriyle gerçekleştirilmiş olabileceğini tahmin edip anlatabilir mi diye merak ediyorum. Şu an kamuya açık bilgi az olduğu için, özellikle bu alandaki uzmanların bunun nasıl uygulanmış olabileceğini nasıl öngördüğünü ya da çıkarsadığını duymak isterim
Birkaç dakikalık tutarlılığı gerçek zamanlı 720p'de sağlayabilmesi, hiç beklemediğim bir seviyede. Genie 3'ün tutarlılığının model ölçeklendirmesinden doğan bir emergent capability olduğu söyleniyor. Yani mimariyi özellikle iyileştirmekten ziyade, modeli büyütürken tesadüfen ortaya çıkmış bir yetenek gibi görünüyor. Sınırlamaları bizzat deneyen biri özetlemiş(X bağlantısı):
- Fizik simülasyonu hâlâ zor ve psikolojide kullanılan sezgisel fizik deneylerinde (blok dizme vb.) başarısız örnekler açıkça mevcut
- Sosyal etkileşimler ya da birden fazla ajanın iç içe geçtiği durumlar zor; 1'e 1 düello tarzı oyunlar iyi çalışmıyor
- Karmaşık talimatlar ya da oyun mantığı (anahtar toplayıp kapı açmak gibi) da iyi işlemiyor
- Action space de sınırlı
- Gerçek bir oyun motoruna daha çok var ama yine de geleceğin bir kesitini doğrudan görme fırsatı veriyor Bu sınırlamalara rağmen, world model'lerin ileride robotik ve gerçek dünyadaki yapay zekada beklenenden daha önemli bir rol oynayacağı hissini veriyor. Geleceğin robotları belki de rüyalarında öğrenen makineler olacak
- Multiplayer'ın yalnızca lojistik ve teknik açıdan değil, oynanış açısından da nasıl mümkün olacağını gerçekten merak ediyorum
- Oyunlar açıkça başlıca kullanım alanı gibi duruyor ama temelde bunun Google'ın depo robotlarını eğitmek için synthetic data generation amacıyla geliştirildiği anlaşılıyor. İlgili haberler için The Guardian makalesi ve Gemini Robot çıkışından 4 ay önceki HN gönderisi referans alınabilir
- Teknolojik ilerlemenin bu kadar hızlı olacağını beklemiyordum. Birkaç ay önce world model çıktılarının AAA oyun geliştirmenin bir sonraki aşaması olduğunu yazmıştım(blog yazısı); o zaman bile bunun için birkaç yıl daha olduğunu düşünüyordum. Rockstar'ın GTA6 geliştirmesi sırasında world model'lere kapılacağına dair şaka yapmıştım ama artık bu o kadar da tuhaf gelmiyor. GameNGen'den beri olan gelişmelere bakınca, bunun GTA6'nın çıkışından önce tersine dönebileceğini düşünmeye başladım
- Bu seviyedeyse, görsel açıdan reality gap'i kapatabildiği için robotikte çok iyi bir araç olabilir. Tabii fizik simülasyonu hâlâ ayrı bir mesele
- Bitter lesson bir kez daha kendini gösterdi
Gerçekten cesaret verici bir gelişme; sanırım Demis'in geçen ay işaret ettiği şey buydu(ilgili tweet). Yayınlanan kliplere bakarak birkaç teknik ayrıntı tahmin edecek olursam:
1. Dokuların her 4 karede bir "sıçradığı" görülüyor; bu muhtemelen zaman ekseninde 4 kat downscale edilmiş bir VAE olduğu anlamına geliyor ve en az 4 karelik etkileşim gecikmesi olduğunu düşündürüyor (VAE kontrol conditioning'i desteklemiyorsa). Gerçek zamanlı videoyu görmedim ama bir sahnede ekran kaydıyla klavye b-roll görüntüsü karıştırılarak gösteriliyor
2. Hızlı hareketlerde 16x16 spatial blocking görülüyor; bu da VAE'nin uzamsal eksende de 16x16 downscale kullandığını düşündürüyor. İlk maddeyle birleştirince saniyede 21.600 token, dakikada yaklaşık 1,3 milyon token işleniyor
3. Her klibin ilk karesi, sonraki karelere göre daha net ve video oyunu gibi daha az görünüyor; sanki t2i (text-to-image) + i2w (image-to-world) birlikte kullanılmış. t2i'nin genel veriyle, i2w'nin ise etiketli kontrollerle oyun verisi üzerinde fine-tune edilmiş bir sistem olduğu tahmin edilebilir. Zaman ilerledikçe kontrast ve doygunluk artma eğiliminde ama bu, diğer autoregressive video modellerine kıyasla daha hafif (örnek video)
- Gecikmeyle ilgili olarak, bu gerçek zamanlı gameplay videosunda tuşa basılmasıyla nesnenin hareketi arasında yaklaşık 1,1 saniye (30fps'de yaklaşık 33 kare) olduğu hesaplanmış. Genie 3 research preview kullanan birinin yorumunda, "bir miktar kontrol gecikmesi var ama bunun sebebi modelin kendisinden çok hizmeti sunan altyapı" dendiği aktarılıyor; dolayısıyla gecikmenin büyük kısmı istemci/sunucu streaming yapısından kaynaklanıyor olabilir
Nasıl çalıştığı konusunda daha fazla şey açıklamalarını isterdim. Keşke araştırmacılar için tek bir makale bile olsaydı. Benim tahminim, mevcut video üretim modellerine benzer ama girdiyi movement direction, viewangle gibi sinyallerle conditioning eden bir yapı olduğu yönünde. Bunun göreli değil mutlak girişlerle çalıştığını ve içinde bir miktar state simulation olabileceğini düşünüyorum (ama demoda nesne çarpışma fiziği görünmesi buna ters düşüyor; ya da bu, 2D'de up axis'in üretilmesi olabilir). Açıkça oyun motoru tabanlı veriyle eğitilmiş gibi görünüyor; screen-space reflection artifact'leri belli oluyor. Muhtemelen photogrammetry/splat tabanlı veri de eklenmiş ve gerçek dışı unsurların çözünürlüğü özellikle daha düşük görünüyor. Demoda dikkat çeken bazı tutarsızlıklar da var:
- Wingsuit sahnesinin görüntü kalitesi daha düşük görünüyor (muhtemelen yüksek çözünürlüklü bir görüntüyle başlatılıyor?)
- Bahçe demosunda her variation için geometri farklı görünüyor. İkinci hortum yalnızca bir sürümde ortaya çıkıyor; sanki her ilk bakışta yeni geometri anlık olarak oluşturuluyor
- Okul demosunda pencerenin dışında yarım bir araba dikkat çekiyor ve tekrar eden desenler görülüyor (transformer'ın parametresi azsa sonsuz döngü desenleri sık oluşur; bu da ölçekleme potansiyeli olduğuna işaret edebilir. Kararlılık için greedy sampling kullanılıyor gibi)
- Müze sahnesinde amethyst kutusundaki tuhaf yansımalar var; mammoth'un arka kısmı yalnızca sağdaki kutunun kenarında yansımasız görünüp kutunun içinden görünürken bir anda beliriyor. Tusk yansıması da aniden ortaya çıkıyor; bunun Fresnel etkisiyle ilgisi yok
Gerçekten etkileyici ama ayrıntı seviyesi çok yetersiz. Diğer yorumlarda olduğu gibi, bizzat denemeden bir anlamı olmadığını düşünmüyorum; ama daha birkaç yıl öncesine kadar böyle bir duyurunun mutlaka bir makaleyle geldiğini hatırlayınca yaşanan değişim şaşırtıcı. Şu anda makalenin bir parçasıymış gibi yapım ekibi, demo ve bibtex citation var ama ortada gerçek bir araştırma paylaşımı yok. Bir tanıdığımla konuşurken asıl kaygı verici olanın, AI'ın bugün neler yapabildiğinden çok, araştırma ve akademi modundan neredeyse bir anda "değer çıkarımı" mantığına geçilmiş olması olduğunu düşündüm. Politika ve ekonomi alanında bunu dolaylı da olsa temel almak ciddi riskler taşıyor. Ticarileşmeye karşı değilim ama bir yandan araştırma makalesi gibi sunulan ürün duyuruları, öte yandan son dönemde akademik araştırma desteğinin azaltılması konusunda matematikçilerin uyarıları gelince, bu uzun vadede güven duygusunu zayıflatıyor
Tahmine dayalı olarak “bir sonraki pikseli” üretmenin, sahneyi mevcut yöntemlerdeki gibi deterministik biçimde kurup render etmekten daha iyi olabileceğini hayal etmek benim için hâlâ zor. Örneğin AI ile texture, model ve motion sequence üretip, ardından ekran kartının bunları birleştirerek sahneyi render etmesini sağlarsanız kullanıcı wire model'i, texture'ları, kamera konumunu vb. istediği gibi değiştirebilir
- Belirli bir görsel kalite eşiğinin üstünde, “bir sonraki pikseli” tahmin etmek mevcut render yönteminden daha ucuz hâle gelebilir. Model, bir yüzeye sonsuza kadar zoom yapıp içinde ne olması gerektiğini de tarif edebilir (tahmin edebilir). Geleneksel render yaklaşımında karşılaşılan bazı teknik zorluklar böylece azalır
Devrimsel hissettiriyor. Geleceğini tahmin ediyordum ama bunu doğrudan görmek yine de yeni bir deneyim. Sınırları var ama bu bir başlangıç. Şimdiye kadar oyun motorlarında asıl mesele, mühendis ya da geliştiricinin geometrileri (üçgenler vb.) piksellere tam oturacak şekilde konumlandırmasıydı; şimdi ise her karede bilgisayar doğrudan bir “resim” çiziyormuş gibi ve üçgen işlemleri olmadan görüntü üretiyor
Text rendering. Net ve okunabilir metinler çoğunlukla ancak girişte verilen world açıklamasının içinde yer aldığında üretilebiliyor Bu bana görsel AI'ın bir zamanlar metin üretemediği dönemleri hatırlatıyor. O sorun da kısa sürede çözülmüştü; bu da muhtemelen zaman meselesi
- Ve el çizimlerinin kalitesi de bir dönem 10 kat daha kötüydü. Artık eller, metin ve görüntüler çok daha iyi olduğuna göre, kusur bulmak için yeniden “Waldo nerede” oyunu oynayacağız gibi duruyor. Bir gün AI watermark'ın pikselin üçte biri seviyesinde gizlendiği sonsuz zoom videolar da görebiliriz diye düşünüyorum. Benim için augmented video alanı daha ilginç. Stormtrooper vlog tarzı videolar gibi, Runway ve benzerleri bununla uğraşıyor ama fiyatlar çok yüksek
- Metin sorununun tamamen çözüldüğünü söylemek için hâlâ erken; belirgin şekilde iyileşti ama gpt-image-1 bile metin üretiminde ara sıra başarısız oluyor
- Prompt ile üretilen yazı tahtası içeriği, tire (-) kullanımı açısından birbiriyle uyuşmuyor
Gerçeklik hissimin birden fazla kez sarsıldığı ilk sunumdu. Gerçekten aklımı başımdan alan bir deneyimdi
Üretken AI'ın ilerleyişi bana giderek daha karamsar geliyor. Yaratıcılığın giderek daha hızlı elimizden alındığını hissediyorum. Teknoloji burada bir araç olarak kalıp insan üretimini desteklese sorun değil ama şu an sanki tam tersine, tamamen yerini almayı hedefliyor. Elbette "gidip kendin müzik ya da resim yapabilirsin" denebilir ama tarihsel olarak sanat eserleri yalnızca kişinin kendisi için değil, başkalarıyla paylaşılacak bir toplumsal bağlam içinde de ortaya çıktı. O zaman geriye bize ne kalıyor? Henüz otomatikleşmemiş basit işler ve onlar da otomatikleştiğinde insanın elinde ne kalacağını bilmiyorum. Sonunda beynimize kişiselleştirilmiş uyaranlar verilip sadece dopamin yükseltilen ve beynin çürüdüğü bir geleceğe mi gidiyoruz (TikTok türü şeylerle bunun bir kısmı zaten yaşanıyor)? Her şey otomatikleşirse ekonomik yapının nasıl ayakta kalacağı da belirsiz. Belki de bu, Fermi paradox'un bir yorumu olabilir. Teknolojinin artık anlaşılamadığı, basit teknik erişimin kaybolduğu ve kaynakların geri dönülmez biçimde tükendiği bir dünya. Böyle bir ortamda yaşamın anlamı nasıl bulunur, gerçekten merak ediyorum
- Sanat eserlerinin izleyiciyle paylaşılmadan, yalnızca kendileri için üretilmediği iddiasına karşı sayısız ünlü yazar, ressam ve sanatçı örnek gösterilebilir. Kafka bunun en bilinen örneklerinden biri; önemli eserler bazen sanatçının ölümünden sonra ve hatta kendi isteğine aykırı biçimde keşfedildi. Bu, geri kalan argümanları geçersiz kılmaz ama sanat, insanın kendisi için yaptığı bir şey olarak her zaman vardı ve olmaya da devam edecek
- "Bu çağda yaşamaktan mutlu olan insanların savlarını kabul edemiyorum" sözüne karşılık olarak, mutluluk bir histir; mantıksal bir eylem değil. Umut ve hayal gücünden doğan bir duygudur. İyimserlik için mantık gerekmez. Ayrıca yaşamın anlamını arama meselesi, LLM'ler çıktığı için ilk kez sorulan bir soru değil; binlerce yıldır tartışılıyor. Örneğin [Bhagavad Gita]'da da ana karakter, "Sonuçlar da anlamsızsa neden eylemeliyim?" diye tanrıya sorar ama ortada net bir yanıt değil, daha çok düşünsel bir sorgulama kalır. Bu soru, yapay zekadan çok önce de insanın önündeydi
- Bugün hayatta kalmak için yürümemize ya da ağır yük kaldırmamıza gerek kalmadığında, egzersiz yapmazsak giderek zayıflamamız gibi. Gelecekte çoğu insanın geçinmek için düşünmeye, üretmeye ya da keşfetmeye ihtiyaç duymadığı bir dünyada, muhtemelen giderek daha aptal hâle geleceğiz. Küçük bir azınlık zihnini keskin tutacaktır ama onlar da sonuçta makinelerden daha zeki olamayacak. Nasıl en iyi sporcu bir makineyi yenemiyorsa burada da durum aynı olacak
- Zaten bugün yaşadığımız dünyada da, benden çok daha iyi çalan insanların yaptığı müzikler YouTube ve Spotify'da yığılı durumda. O yüzden bu değişimi de onun devamı olarak görüyorum
- Söylediklerine katılmıyorum. Ben hayatım boyunca yüzlerce parça yaptım ama hiç kimseyle paylaşmadım; müzisyen arkadaşlarımın hepsi için de aynı şey geçerli. Yaratma eylemi, bir izleyicinin olup olmamasından bağımsız bir alandır. Hatta çoğu zaman bunun tam tersine yakındır. Ayrıca müzik üretiminin tarihi de yeni teknolojilerle giriş engelinin giderek düştüğü bir tarih; geçmişte pahalı ekipmanlar yüzünden pek çok kişi bu alana giremiyordu

Google DeepMind, Genie 3 dünya modelini tanıttı

Genie 3: dünya simülasyonunda yeni bir atılım

Dünya modellerinin gelişim arka planı

Genie 3'ün başlıca özellikleri

Doğa ve fiziksel olay modelleme

Karmaşık ekosistemler ve animasyonlar

Tarihsel ve coğrafi arka planların oluşturulması

Gerçek zamanlı etkileşim ve kontrol

Promptable World Events

Ajan araştırmaları ve deneyler

Teknik zorluklar ve başarılar

Sınırlamalar ve görevler

Sorumluluk ve yayın kapsamı

Gelecek ve kullanım beklentileri

İlgili okumalar

1 yorum

Hacker News yorumu