Google DeepMind, Genie 3 dünya modelini tanıttı
(deepmind.google)- Yalnızca metin promptlarıyla gerçek zamanlı etkileşimli 3D ortamlar üreten ilk genel amaçlı dünya modeli
- 24fps, 720p çözünürlük ve birkaç dakika boyunca tutarlılığı koruma sunuyor; önceki Genie 2'ye kıyasla etkileşim, gerçekçilik ve süreklilik büyük ölçüde iyileştirildi
- Fiziksel olaylar, ekosistemler, animasyonlar, tarihsel ve coğrafi arka planlar dahil çok çeşitli konularda sanal dünyaları doğal ve zengin biçimde üretebiliyor
- Promptable world events özelliği sayesinde kullanıcılar hava durumu değişimi, nesne ekleme gibi dinamik olayları metinle gerçek zamanlı kontrol edebiliyor
- Ajan araştırmaları için tasarlandı; SIMA ajanı gibi sistemlerle bağlantı kurarak uzun vadeli hedeflere ulaşma veya karmaşık davranış dizilerini test etmeyi mümkün kılıyor
Genie 3: dünya simülasyonunda yeni bir atılım
Dünya modellerinin gelişim arka planı
- DeepMind, AI ajan eğitimi, açık uçlu öğrenme ve robotik gibi alanlarda simülasyon ortamı araştırmalarına öncülük ediyor
- Dünya modeli, ortam değişimlerini ve ajan davranışlarının sonuçlarını öngörebilen ve yeniden üretebilen bir yapay zeka sistemi olup AGI'ye giden yolda önemli bir ara aşama olarak görülüyor
- Genie 1 ve 2'nin ardından Genie 3, gerçek zamanlı etkileşim ile görsel ve fiziksel tutarlılığı aynı anda sunan ilk dünya modeli olarak öne çıkıyor
Genie 3'ün başlıca özellikleri
-
Doğa ve fiziksel olay modelleme
- Su, ışık ve çeşitli çevresel etkileşimler gibi gerçek dünyadaki doğal olayları yalnızca promptlarla doğal biçimde oluşturabiliyor
-
Karmaşık ekosistemler ve animasyonlar
- Hayvan davranışları, bitki büyümesi gibi ekosistem dinamiklerini ve hayal gücüne dayalı animasyon dünyalarını üretebiliyor
-
Tarihsel ve coğrafi arka planların oluşturulması
- Coğrafi ve dönemsel sınırları aşan çeşitli mekanları sanal ortamlar olarak gerçek zamanlı biçimde kurabiliyor
-
Gerçek zamanlı etkileşim ve kontrol
- Kullanıcı girdisine göre 24fps ve 720p'de anlık dünya değişimlerini görselleştiriyor
- Daha önce ziyaret edilen konum ve durumları hatırlayarak birkaç dakika boyunca fiziksel ve görsel tutarlılığı koruyor
-
Promptable World Events
- Metin promptlarıyla hava durumu değişimi, nesne veya karakter ekleme gibi çevresel değişim olaylarını gerçek zamanlı tetikleyebiliyor
- Keşif kontrolünün ötesinde "ya şöyle olsaydı" senaryoları veya gündelik olmayan durumlar üretme gibi geniş kullanım alanları sunuyor
-
Ajan araştırmaları ve deneyler
- SIMA gibi 3D ortamlara özel yapay zeka ajanları, Genie 3 içindeki dünyalarda karmaşık hedeflerin peşinden giderek uzun sekanslı görevleri yerine getirme yeteneklerini doğrulayabiliyor
- Ajanın hedefleri Genie 3 ile paylaşılmıyor; sonuçlar yalnızca davranış dizileri ve dünya simülasyonu üzerinden üretiliyor
Teknik zorluklar ve başarılar
- Kare bazında otoregresif üretim sürecinde kullanıcı girdileri ile geçmiş sekansların tamamının gerçek zamanlı yansıtılması gerektiğinden oldukça zorlayıcı bir teknik yapı gerekiyor
- NeRF, Gaussian Splatting gibi mevcut yaklaşımlardan farklı olarak Genie 3, açık bir 3D temsil olmadan tamamen üretim temelli çalışıyor ve bu sayede çok daha dinamik ve zengin ortamlar oluşturuyor
Sınırlamalar ve görevler
- Davranış aralığı sınırlı: Prompt tabanlı ortam değişiklikleri çeşitli olsa da doğrudan gerçekleştirilebilen eylemler hâlâ sınırlı
- Çoklu ajan etkileşimi: Birden fazla ajan arasındaki etkileşimlerin doğru biçimde simüle edilmesi hâlâ araştırma konusu
- Gerçek dünya konumlarını yeniden üretme sınırı: Gerçek coğrafi alanlar için kusursuz doğruluk sunmuyor
- Metin render etme sınırı: Yalnızca açıkça girildiğinde net metin gösterimi mümkün
- Etkileşim süresi sınırı: Şu anda yalnızca birkaç dakikalık sürekli etkileşimi destekliyor
Sorumluluk ve yayın kapsamı
- Genie 3'ün açık uçlu ve gerçek zamanlı üretim özellikleri yeni güvenlik ve etik sorunlarını beraberinde getirdiğinden Responsible Development & Innovation Team ile yakın iş birliği yürütülüyor
- İlk aşamada yalnızca sınırlı sayıdaki araştırmacı ve içerik üreticisine araştırma önizlemesi olarak sunulacak; geri bildirimlerle kapsamın kademeli olarak genişletilmesi ve risklere karşı önlemler geliştirilmesi planlanıyor
Gelecek ve kullanım beklentileri
- Genie 3, eğitim, öğretim, yapay zeka ajan eğitimi ve performans doğrulama gibi birçok alanda yeni olanaklar sunuyor
- AGI (genel yapay zeka) araştırmalarında kilit bir rol oynaması bekleniyor ve insanlığa faydalı olacak şekilde güvenli biçimde geliştirilmeye devam edilecek
1 yorum
Hacker News yorumu
Bu alanda çalışan ya da uzmanlığı olan biri varsa, Genie 3'ün hangi teknikler, mimari, sistem tasarımı ve hesaplama gereksinimleriyle gerçekleştirilmiş olabileceğini tahmin edip anlatabilir mi diye merak ediyorum. Şu an kamuya açık bilgi az olduğu için, özellikle bu alandaki uzmanların bunun nasıl uygulanmış olabileceğini nasıl öngördüğünü ya da çıkarsadığını duymak isterim
Birkaç dakikalık tutarlılığı gerçek zamanlı 720p'de sağlayabilmesi, hiç beklemediğim bir seviyede. Genie 3'ün tutarlılığının model ölçeklendirmesinden doğan bir emergent capability olduğu söyleniyor. Yani mimariyi özellikle iyileştirmekten ziyade, modeli büyütürken tesadüfen ortaya çıkmış bir yetenek gibi görünüyor. Sınırlamaları bizzat deneyen biri özetlemiş(X bağlantısı):
Fizik simülasyonu hâlâ zor ve psikolojide kullanılan sezgisel fizik deneylerinde (blok dizme vb.) başarısız örnekler açıkça mevcut
Sosyal etkileşimler ya da birden fazla ajanın iç içe geçtiği durumlar zor; 1'e 1 düello tarzı oyunlar iyi çalışmıyor
Karmaşık talimatlar ya da oyun mantığı (anahtar toplayıp kapı açmak gibi) da iyi işlemiyor
Action space de sınırlı
Gerçek bir oyun motoruna daha çok var ama yine de geleceğin bir kesitini doğrudan görme fırsatı veriyor Bu sınırlamalara rağmen, world model'lerin ileride robotik ve gerçek dünyadaki yapay zekada beklenenden daha önemli bir rol oynayacağı hissini veriyor. Geleceğin robotları belki de rüyalarında öğrenen makineler olacak
Multiplayer'ın yalnızca lojistik ve teknik açıdan değil, oynanış açısından da nasıl mümkün olacağını gerçekten merak ediyorum
Oyunlar açıkça başlıca kullanım alanı gibi duruyor ama temelde bunun Google'ın depo robotlarını eğitmek için synthetic data generation amacıyla geliştirildiği anlaşılıyor. İlgili haberler için The Guardian makalesi ve Gemini Robot çıkışından 4 ay önceki HN gönderisi referans alınabilir
Teknolojik ilerlemenin bu kadar hızlı olacağını beklemiyordum. Birkaç ay önce world model çıktılarının AAA oyun geliştirmenin bir sonraki aşaması olduğunu yazmıştım(blog yazısı); o zaman bile bunun için birkaç yıl daha olduğunu düşünüyordum. Rockstar'ın GTA6 geliştirmesi sırasında world model'lere kapılacağına dair şaka yapmıştım ama artık bu o kadar da tuhaf gelmiyor. GameNGen'den beri olan gelişmelere bakınca, bunun GTA6'nın çıkışından önce tersine dönebileceğini düşünmeye başladım
Bu seviyedeyse, görsel açıdan reality gap'i kapatabildiği için robotikte çok iyi bir araç olabilir. Tabii fizik simülasyonu hâlâ ayrı bir mesele
Bitter lesson bir kez daha kendini gösterdi
Gerçekten cesaret verici bir gelişme; sanırım Demis'in geçen ay işaret ettiği şey buydu(ilgili tweet). Yayınlanan kliplere bakarak birkaç teknik ayrıntı tahmin edecek olursam:
Nasıl çalıştığı konusunda daha fazla şey açıklamalarını isterdim. Keşke araştırmacılar için tek bir makale bile olsaydı. Benim tahminim, mevcut video üretim modellerine benzer ama girdiyi movement direction, viewangle gibi sinyallerle conditioning eden bir yapı olduğu yönünde. Bunun göreli değil mutlak girişlerle çalıştığını ve içinde bir miktar state simulation olabileceğini düşünüyorum (ama demoda nesne çarpışma fiziği görünmesi buna ters düşüyor; ya da bu, 2D'de up axis'in üretilmesi olabilir). Açıkça oyun motoru tabanlı veriyle eğitilmiş gibi görünüyor; screen-space reflection artifact'leri belli oluyor. Muhtemelen photogrammetry/splat tabanlı veri de eklenmiş ve gerçek dışı unsurların çözünürlüğü özellikle daha düşük görünüyor. Demoda dikkat çeken bazı tutarsızlıklar da var:
Gerçekten etkileyici ama ayrıntı seviyesi çok yetersiz. Diğer yorumlarda olduğu gibi, bizzat denemeden bir anlamı olmadığını düşünmüyorum; ama daha birkaç yıl öncesine kadar böyle bir duyurunun mutlaka bir makaleyle geldiğini hatırlayınca yaşanan değişim şaşırtıcı. Şu anda makalenin bir parçasıymış gibi yapım ekibi, demo ve bibtex citation var ama ortada gerçek bir araştırma paylaşımı yok. Bir tanıdığımla konuşurken asıl kaygı verici olanın, AI'ın bugün neler yapabildiğinden çok, araştırma ve akademi modundan neredeyse bir anda "değer çıkarımı" mantığına geçilmiş olması olduğunu düşündüm. Politika ve ekonomi alanında bunu dolaylı da olsa temel almak ciddi riskler taşıyor. Ticarileşmeye karşı değilim ama bir yandan araştırma makalesi gibi sunulan ürün duyuruları, öte yandan son dönemde akademik araştırma desteğinin azaltılması konusunda matematikçilerin uyarıları gelince, bu uzun vadede güven duygusunu zayıflatıyor
Tahmine dayalı olarak “bir sonraki pikseli” üretmenin, sahneyi mevcut yöntemlerdeki gibi deterministik biçimde kurup render etmekten daha iyi olabileceğini hayal etmek benim için hâlâ zor. Örneğin AI ile texture, model ve motion sequence üretip, ardından ekran kartının bunları birleştirerek sahneyi render etmesini sağlarsanız kullanıcı wire model'i, texture'ları, kamera konumunu vb. istediği gibi değiştirebilir
Devrimsel hissettiriyor. Geleceğini tahmin ediyordum ama bunu doğrudan görmek yine de yeni bir deneyim. Sınırları var ama bu bir başlangıç. Şimdiye kadar oyun motorlarında asıl mesele, mühendis ya da geliştiricinin geometrileri (üçgenler vb.) piksellere tam oturacak şekilde konumlandırmasıydı; şimdi ise her karede bilgisayar doğrudan bir “resim” çiziyormuş gibi ve üçgen işlemleri olmadan görüntü üretiyor
Ve el çizimlerinin kalitesi de bir dönem 10 kat daha kötüydü. Artık eller, metin ve görüntüler çok daha iyi olduğuna göre, kusur bulmak için yeniden “Waldo nerede” oyunu oynayacağız gibi duruyor. Bir gün AI watermark'ın pikselin üçte biri seviyesinde gizlendiği sonsuz zoom videolar da görebiliriz diye düşünüyorum. Benim için augmented video alanı daha ilginç. Stormtrooper vlog tarzı videolar gibi, Runway ve benzerleri bununla uğraşıyor ama fiyatlar çok yüksek
Metin sorununun tamamen çözüldüğünü söylemek için hâlâ erken; belirgin şekilde iyileşti ama gpt-image-1 bile metin üretiminde ara sıra başarısız oluyor
Prompt ile üretilen yazı tahtası içeriği, tire (-) kullanımı açısından birbiriyle uyuşmuyor
Gerçeklik hissimin birden fazla kez sarsıldığı ilk sunumdu. Gerçekten aklımı başımdan alan bir deneyimdi
Üretken AI'ın ilerleyişi bana giderek daha karamsar geliyor. Yaratıcılığın giderek daha hızlı elimizden alındığını hissediyorum. Teknoloji burada bir araç olarak kalıp insan üretimini desteklese sorun değil ama şu an sanki tam tersine, tamamen yerini almayı hedefliyor. Elbette "gidip kendin müzik ya da resim yapabilirsin" denebilir ama tarihsel olarak sanat eserleri yalnızca kişinin kendisi için değil, başkalarıyla paylaşılacak bir toplumsal bağlam içinde de ortaya çıktı. O zaman geriye bize ne kalıyor? Henüz otomatikleşmemiş basit işler ve onlar da otomatikleştiğinde insanın elinde ne kalacağını bilmiyorum. Sonunda beynimize kişiselleştirilmiş uyaranlar verilip sadece dopamin yükseltilen ve beynin çürüdüğü bir geleceğe mi gidiyoruz (TikTok türü şeylerle bunun bir kısmı zaten yaşanıyor)? Her şey otomatikleşirse ekonomik yapının nasıl ayakta kalacağı da belirsiz. Belki de bu, Fermi paradox'un bir yorumu olabilir. Teknolojinin artık anlaşılamadığı, basit teknik erişimin kaybolduğu ve kaynakların geri dönülmez biçimde tükendiği bir dünya. Böyle bir ortamda yaşamın anlamı nasıl bulunur, gerçekten merak ediyorum
Sanat eserlerinin izleyiciyle paylaşılmadan, yalnızca kendileri için üretilmediği iddiasına karşı sayısız ünlü yazar, ressam ve sanatçı örnek gösterilebilir. Kafka bunun en bilinen örneklerinden biri; önemli eserler bazen sanatçının ölümünden sonra ve hatta kendi isteğine aykırı biçimde keşfedildi. Bu, geri kalan argümanları geçersiz kılmaz ama sanat, insanın kendisi için yaptığı bir şey olarak her zaman vardı ve olmaya da devam edecek
"Bu çağda yaşamaktan mutlu olan insanların savlarını kabul edemiyorum" sözüne karşılık olarak, mutluluk bir histir; mantıksal bir eylem değil. Umut ve hayal gücünden doğan bir duygudur. İyimserlik için mantık gerekmez. Ayrıca yaşamın anlamını arama meselesi, LLM'ler çıktığı için ilk kez sorulan bir soru değil; binlerce yıldır tartışılıyor. Örneğin [Bhagavad Gita]'da da ana karakter, "Sonuçlar da anlamsızsa neden eylemeliyim?" diye tanrıya sorar ama ortada net bir yanıt değil, daha çok düşünsel bir sorgulama kalır. Bu soru, yapay zekadan çok önce de insanın önündeydi
Bugün hayatta kalmak için yürümemize ya da ağır yük kaldırmamıza gerek kalmadığında, egzersiz yapmazsak giderek zayıflamamız gibi. Gelecekte çoğu insanın geçinmek için düşünmeye, üretmeye ya da keşfetmeye ihtiyaç duymadığı bir dünyada, muhtemelen giderek daha aptal hâle geleceğiz. Küçük bir azınlık zihnini keskin tutacaktır ama onlar da sonuçta makinelerden daha zeki olamayacak. Nasıl en iyi sporcu bir makineyi yenemiyorsa burada da durum aynı olacak
Zaten bugün yaşadığımız dünyada da, benden çok daha iyi çalan insanların yaptığı müzikler YouTube ve Spotify'da yığılı durumda. O yüzden bu değişimi de onun devamı olarak görüyorum
Söylediklerine katılmıyorum. Ben hayatım boyunca yüzlerce parça yaptım ama hiç kimseyle paylaşmadım; müzisyen arkadaşlarımın hepsi için de aynı şey geçerli. Yaratma eylemi, bir izleyicinin olup olmamasından bağımsız bir alandır. Hatta çoğu zaman bunun tam tersine yakındır. Ayrıca müzik üretiminin tarihi de yeni teknolojilerle giriş engelinin giderek düştüğü bir tarih; geçmişte pahalı ekipmanlar yüzünden pek çok kişi bu alana giremiyordu