- Genie 2, insanların veya AI ajanlarının klavye ve fare kullanarak etkileşime girebildiği çeşitli 3D ortamlar üreten bir temel dünya modelidir.
- Oyunlar, AI araştırmalarında önemli bir rol oynar ve Genie 2, ajanların sonsuz bir müfredat içindeki yeni dünyalarda eğitilip değerlendirilebilmesini sağlar.
- Özellikler
- Hızlı prototipleme: Genie 2, farklı etkileşimli deneyimlerin hızlıca prototiplenmesini sağlayarak araştırmacıların yeni ortamları denemesine olanak tanır.
- Ajan yerleştirme: Genie 2 kullanılarak AI ajanları için zengin ve çeşitli ortamlar hızla oluşturulabilir.
- Model mimarisi: Büyük ölçekli video veri kümeleriyle eğitilen Genie 2, çeşitli nesne etkileşimlerini, karmaşık karakter animasyonlarını, fiziği ve daha fazlasını modelleyebilir.
- Sorumlu geliştirme: Genie 2, çeşitli 3D ortamlar üretme ve ajan araştırmalarını hızlandırma açısından temel dünya modellerinin potansiyelini gösterir.
- Ortaya çıkan yetenekler
- Genie 2, çeşitli 3D dünyalar üretebilir ve nesne etkileşimlerini, karmaşık karakter animasyonlarını, fiziği ve daha fazlasını modelleyebilir.
- Kullanıcılar dünyayı metinle tanımlayabilir, bu fikrin görselleştirilmiş sürümünü seçebilir ve yeni oluşturulan dünyayla etkileşime geçebilir.
- Davranış kontrolü: Genie 2, klavye girdisine göre karakteri doğru şekilde tanımlar ve hareket ettirir.
- Dallanmış deneyim üretimi: Aynı başlangıç karesinden farklı yollar üreterek ajan eğitimi için dallanmış deneyimleri simüle edebilir.
- Uzun süreli bellek: Genie 2, dünyanın görüş alanı dışındaki kısımlarını hatırlayabilir ve yeniden görünür olduğunda bunları doğru şekilde render edebilir.
- Çeşitli ortamlar: Genie 2, birinci şahıs, izometrik projeksiyon ve üçüncü şahıs sürüş videoları gibi farklı bakış açıları üretebilir.
- 3D yapı: Karmaşık 3D görsel sahneler oluşturabilir.
- Nesne etkileşimleri: Balon patlatma, kapı açma, patlayıcı fırlatma gibi çeşitli nesne etkileşimlerini modelleyebilir.
- Karakter animasyonu: Farklı etkinlikler yapan karakterleri canlandırabilir.
- NPC: Diğer ajanlarla karmaşık etkileşimleri modelleyebilir.
- Fizik: Su efektleri, duman efektleri, yerçekimi, aydınlatma ve benzerlerini modelleyebilir.
- Gerçek görüntülerden oynanış: Gerçek görüntülerden verilen prompt’larla çimenlikte akan suyu veya rüzgârda sallanan otları modelleyebilir.
- Çeşitli etkileşimli deneyimlerin hızlı prototiplenmesi
- Genie 2, yeni ortamların hızlıca denenmesini ve embodied AI ajanlarının eğitilip test edilmesini destekler.
- Örnek: Imagen 3 ile üretilen görüntüler kullanılarak kâğıt uçak, ejderha, şahin ve paraşüt kontrol edilen çeşitli ortam simülasyonları
- Genie 2’nin dağılım dışı genelleme yeteneği sayesinde konsept sanatı ve çizimler tam etkileşimli ortamlara dönüştürülebilir.
- Hızlı prototipleme, yaratıcı sürecin başlamasını sağlar ve ortam tasarımını hızlandırır.
- Genie 2 ile değerlendirme ortamları oluşturma
- Genie 2, AI ajanları için zengin ve çeşitli ortamları hızla üretebilir.
- Eğitim sırasında görülmemiş yeni değerlendirme görevleri oluşturarak ajanları test eder.
- DeepMind’ın oyun geliştiricileriyle iş birliği içinde geliştirdiği SIMA ajanı, doğal dil talimatlarına dayanarak 3D oyun dünyalarında görevler yerine getirir.
- Genie 2, tek bir görüntü prompt’u ile 3D ortam üretir; SIMA ajanı ise klavye ve fare girdileri üzerinden etkileşime girer.
- Henüz erken aşama bir araştırma olsa da Genie 2’nin, eğitim ortamlarına çeşitlilik ve genellik kazandırarak embodied ajanların güvenli eğitimi sorununu çözmeye katkı sunması bekleniyor.
- AI ajanlarının genelleştirilmiş eğitimi yoluyla AGI’nin gelişimi için bir temel oluşturur.
- Difüzyon dünya modeli
- Genie 2, büyük ölçekli video veri kümeleri üzerinde eğitilmiş bir latent diffusion modeldir.
- Kareler, autoencoder üzerinden latent uzaya dönüştürüldükten sonra transformer tabanlı dinamik modele aktarılır.
- Eğitim sırasında, dil modellerinde kullanılanlara benzer bir causal mask uygulanır.
- Otokoregresif çıkarım
- Çıkarım sırasında Genie 2, geçmiş latent kareleri ve eylem verilerini kare bazında otokoregresif şekilde örnekler.
- Davranış kontrol edilebilirliğini artırmak için Classifier-Free Guidance tekniğini kullanır.
- Genie 2, davranış kontrol edilebilirliğini korurken yüksek çözünürlüklü 3D ortamları verimli biçimde üretir.
- Difüzyon modeli ile otokoregresif yaklaşımı birleştirerek sürükleyici sanal ortamlar için yeni nesil teknoloji sunar.
- Sorumlu teknoloji geliştirme
- Genie 2, çeşitli 3D ortamlar üretme ve ajan araştırmalarını hızlandırma açısından temel dünya modellerinin potansiyelini gösterir.
1 yorum
Hacker News görüşleri
Bu modelin boyutu merak ediliyor ve teknik ayrıntıların yetersiz olması hayal kırıklığı yaratıyor. Google'ın yaklaşımının hâlâ kapalı olduğu belirtiliyor. Ancak fotoğraflar ve metin açıklamalarına dayanarak dünyayı keşfetme olasılığı şaşırtıcı.
Video ve dünya üretimine yönelik baskının sürmesinin ilginç olduğu belirtiliyor. Sonsuz hikâye üreten oyunlara ilgi ifade ediliyor ve gelecekte etkileşimli hikâye anlatımının altın çağı bekleniyor.
Bu teknolojinin oyun geliştirme için faydalı olmayabileceği belirtiliyor. Oyunlarda etkileşim önemlidir ve tasarımcıların derin bir kontrol sahibi olması gerekir. Dünya üretimi kısmının en faydalı bölüm olduğu düşünülüyor.
Bu teknolojinin AGI ve robotikte büyük ilerlemeler sağlayacağı vurgulanıyor. İnsan beyninin çalışma biçimine benzer işlevleri makinelere eklemenin başlangıç noktası olarak görülüyor.
Araştırmanın asıl hedefinin, insanın 3D dünyayı anlama yetisini aşan modeller geliştirmek olduğu açıklanıyor. Bunun robotik ve otonom araçların gelişimine katkı sağlayacağı belirtiliyor.
Genie2'nin konsept sanatın ayrıntılarını göz ardı etmesinin hayal kırıklığı yarattığı ifade ediliyor. Orijinal, güzel uzaylı canlıların yok sayılması eleştiriliyor.
Üretken yapay zekanın esneklik sağladığı ancak çok fazla hesaplama gerektirdiği açıklanıyor. Geleneksel programlama ile üretken yapay zekanın rolleri hakkında merak dile getiriliyor.
Bu teknolojinin gerçek değeri sorgulanıyor. Yüksek hesaplama maliyeti ve düzensiz davranışların sorun olduğu belirtiliyor.
MS Edge'de kaydırmanın çalışmadığı için Firefox kullanıldığı ve videonun görsel kalitesinin iyi olmadığı belirtiliyor. Yapay zeka araştırmacılarının neden hâlihazırda iyi çalışan sistemleri değiştirmeye çalıştığı sorgulanıyor.