- Meta'nın WorldGen sistemi, tek bir metin istemiyle keşfedilebilir 3D dünyaları otomatik olarak üreten uçtan uca üretken yapay zeka sistemi
- Prosedürel akıl yürütme, difüzyon tabanlı 3D üretim ve nesne algılamalı sahne ayrıştırmayı birleştirerek geometrik olarak tutarlı ve görsel açıdan zengin ortamlar oluşturuyor
- Üretim süreci planlama (Planning), yeniden oluşturma (Reconstruction), ayrıştırma (Decomposition) ve iyileştirme (Refinement) olmak üzere 4 aşamadan oluşuyor
- Ortaya çıkan içerikler Unity, Unreal gibi standart oyun motorlarıyla uyumlu ve ek bir dönüştürme süreci olmadan kullanılabiliyor
- Karmaşık ve maliyetli 3D içerik üretimini herkes için mümkün hale getirme ve verimlileştirme potansiyeline sahip
WorldGen'e genel bakış
- WorldGen, “cartoon medieval village” veya “sci-fi base station on Mars” gibi metin girdileriyle yalnızca birkaç dakika içinde etkileşimli 3D dünyalar üretiyor
- Üretilen dünyalar stil ve tema tutarlılığını koruyor ve karakterlerin serbestçe hareket edebileceği şekilde birbirine bağlı bir yapıda oluşturuluyor
- Üretken yapay zeka teknolojilerindeki gelişmeler sayesinde, tek bir metin ya da görsel istemden tam bir 3D ortam inşa edilebiliyor
Teknik yapı ve üretim aşamaları
- WorldGen, prosedürel blok taslağı üretimi, Navmesh çıkarımı ve referans görsel üretimini içeren planlama aşamasıyla başlıyor
- Ardından görselden 3D'ye dönüşüm, Navmesh tabanlı sahne üretimi ve temel doku üretimi gerçekleştiren yeniden oluşturma aşaması geliyor
- AutoPartGen kullanılarak yapılan sahne ayrıştırma ve veri kürasyonu ile ayrıntılı öğeler ayrılıyor
- Son olarak görsel iyileştirme, mesh iyileştirme ve tekstürleme modeli üzerinden iyileştirme aşaması yürütülüyor
Mevcut yöntemlerden farkı
- Mevcut sistemler tek bir bakış açısı (viewpoint) merkezli üretim yaptığından, merkez dışındaki bölgelerde kalite hızla düşüyor
- WorldGen, 50×50 metre ölçeğinde tamamen tekstürlenmiş sahneler üretiyor ve stil ile geometrik tutarlılığı koruyor
- Gelecekte daha büyük dünya ölçeklerini hedefleyen araştırmalar sürüyor
Uyumluluk ve kullanım potansiyeli
- Şu anda araştırma aşamasında olduğundan geliştiricilere açık değil, ancak üretilen içerikler Unity, Unreal gibi ortamlarda doğrudan kullanılabiliyor
- Ek bir rendering pipeline dönüşümüne ihtiyaç duyulmuyor
Sınırlamalar ve gelecek yönü
- Mevcut modelde mekansal boyut ve üretim gecikmesi (latency) açısından iyileştirme alanı bulunuyor
- Gelecek sürümler daha büyük alan üretimi ve daha yüksek hız hedefliyor
Sektörel önemi
- 3D içerik üretimindeki karmaşıklığı ve maliyet yükünü azaltarak, uzman olmayan kişilerin de sanal dünyalar kurabilmesine imkan tanıyor
- Bu yaklaşım, Meta'nın Connect etkinliğinde sunduğu “tek satır kod yazmadan herkesin sanal dünya oluşturabildiği bir gelecek” vizyonuyla örtüşüyor
Teşekkür listesi
- Proje, Reality Labs 3D GenAI ekibi tarafından yürütüldü
- Başlıca katkı sağlayanlar: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn vb. († işareti proje liderini gösterir)
1 yorum
Hacker News yorumu
Eğlenceli bir demo ama binaların içine girilemiyor, bina boyutlarıyla köy yerleşimi neredeyse hep aynı ve çok sayıda görsel tutarsızlık var
Sonuçta benzer kutuları bir ızgara üstüne dizip aralarında dolaşmaktan ibaret gibi görünüyor
Gelişimin kademeli olduğunu biliyorum ama diğer dünya üretimi demolarına kıyasla fazla küçük bir adım gibi duruyor
Tüm binalar ızgara üzerinde eşit aralıklarla yerleştirilmiş ve sanki yükseklik sınırı da var
Gerçekçi açık dünya oyunlarında (GTA, Cyberpunk vb.) bilinçli olarak çıkmaz sokaklar ya da kilitli kapılar gibi tasarlanmış sıkışıklıklar bulunur
Her yol ilginç bir yere çıkarsa keşfin keyfi tersine azalır
Açık varlıklar kullanan bir yaklaşım ise oyun üretimi için daha uygun olabilir
Meta bu alandaki temel makalelerin çoğunu yayımladı ve Hyperscape de var; bu yüzden bunu farklı yönde deneysel bir deneme olarak görmek mümkün
Sıradan kullanıcıların da böyle bir worldgen motorunu doğrudan deneyebileceği günün ne zaman geleceğini merak ediyorum
Google, Meta ve Tencent neden sürekli gösterim yapıp gerçek bir yayın çıkarmıyor diye düşündürüyor
Bu, mevcut GenAI tekniklerinin birleştirildiği bir mühendislik hattı gibi görünüyor
Ortaya çıkan sonuç da SOTA seviyesinde değil; ilerlemeden çok çıkmaz bir yaklaşım gibi duruyor
Asıl yenilik, texture içeren mesh'leri doğrudan uçtan uca eğitilmiş bir modelle üretmek olurdu; bunun yapılamamış olması, temel teknolojinin hâlâ eksik olduğu anlamına gelebilir
Yine de ileride model eğitimi için veri setlerini bootstrap etmekte işe yarayabilir
Bu, bir “world model”den çok 3DAssetGen'e daha yakın
Gerçek bir dünya üretmiyor, yalnızca varlıkları bir araya getiriyor
Elle yapılmış dünyalar çok daha iyi ve hatta RPG Maker ile yapılmış oyunlardan bile daha az çekici
Yine de ilk deneme olması açısından anlamlı ve yapay zekanın metaverse dünyası üretiminin eşiğini düşürebileceğini umuyorum
GTA gibi tek bir küçük ada yapmak için bile muazzam zaman ve maliyet gerektiğini düşününce daha da öyle
Doğrusu 5 dolarlık bir asset store'dan bina modeli satın almak daha iyi olurdu
Bunun gibi bir şey yapmak için milyarlarca dolar harcayıp veri merkezi kurmaya ve çevreyi tahrip etmeye gerçekten gerek var mı emin değilim
Bugünlerde 3D sanatçıların ücretsiz varlık dağıtmaya ne kadar istekli olduğunu da merak ediyorum
İlk videonun havası bana Warcraft 3 ya da DotA'yı hatırlattı
Tek bir basit haritanın çevrimiçi oyunları ve e-sporu tamamen değiştirdiği bir dönem vardı
Şimdi çok daha yüksek kaliteli on-demand dünyalar üretilebiliyor ama o zamanki basit harita nedense daha büyük hissettiriyor
Sonuçta istediğimiz şey sadece daha iyi bir SimCity, bu yüzden neden bu kadar çok dünya üretim modeliyle veri merkezine ihtiyaç duyulduğunu anlamıyorum
Muazzam elektrik ve su harcayarak sahte köyler üretmek ironik geliyor
Ben de Red Dead gibi oyunlara kapılırım diye özellikle konsol satın almıyorum
Bu teknolojinin gerçekte kime fayda sağladığı şüpheli
Bağlantıya tıklayınca 404 hatası aldım; aratınca mayıs ayında aynı isimli bir Worldgen projesi zaten varmış
O tarafın çok daha gerçekçi 3D sahneler oluşturduğu izlenimi veriyor
Kamerayı biraz oynatınca hemen bozuluyor
Makalenin kendisi epey iyiydi
Tek tek mesh işleme yöntemleri hakkında ilginç ayrıntılar var
Makale bağlantısı
“İnteraktif” kelimesini birkaç kez görünce kapı açma ya da eşya alma gibi gerçek etkileşimler beklemiştim,
ama aslında kastedilen şeyin birinci şahıs bakış açısından etrafa bakabilmek olduğu ortaya çıktı
O tanıma bakılırsa tüm 3D modeller zaten interaktif sayılabilir
2D diffusion tabanlı panorama üretimi → point cloud dönüşümü → 3D lifting → 2D inpainting → 3D Gaussian splatting optimizasyonu
Yani görüntüleri bu şekilde birleştirip 3D'ye dönüştürmüşler
Kavramsal olarak world model denmesi zor bir yaklaşım, bu yüzden terminolojideki belirsizlik üzücü