5 puan yazan GN⁺ 2024-12-05 | 1 yorum | WhatsApp'ta paylaş
  • Genie 2, insanların veya AI ajanlarının klavye ve fare kullanarak etkileşime girebildiği çeşitli 3D ortamlar üreten bir temel dünya modelidir.
  • Oyunlar, AI araştırmalarında önemli bir rol oynar ve Genie 2, ajanların sonsuz bir müfredat içindeki yeni dünyalarda eğitilip değerlendirilebilmesini sağlar.
  • Özellikler
    • Hızlı prototipleme: Genie 2, farklı etkileşimli deneyimlerin hızlıca prototiplenmesini sağlayarak araştırmacıların yeni ortamları denemesine olanak tanır.
    • Ajan yerleştirme: Genie 2 kullanılarak AI ajanları için zengin ve çeşitli ortamlar hızla oluşturulabilir.
    • Model mimarisi: Büyük ölçekli video veri kümeleriyle eğitilen Genie 2, çeşitli nesne etkileşimlerini, karmaşık karakter animasyonlarını, fiziği ve daha fazlasını modelleyebilir.
    • Sorumlu geliştirme: Genie 2, çeşitli 3D ortamlar üretme ve ajan araştırmalarını hızlandırma açısından temel dünya modellerinin potansiyelini gösterir.
  • Ortaya çıkan yetenekler
    • Genie 2, çeşitli 3D dünyalar üretebilir ve nesne etkileşimlerini, karmaşık karakter animasyonlarını, fiziği ve daha fazlasını modelleyebilir.
    • Kullanıcılar dünyayı metinle tanımlayabilir, bu fikrin görselleştirilmiş sürümünü seçebilir ve yeni oluşturulan dünyayla etkileşime geçebilir.
    • Davranış kontrolü: Genie 2, klavye girdisine göre karakteri doğru şekilde tanımlar ve hareket ettirir.
    • Dallanmış deneyim üretimi: Aynı başlangıç karesinden farklı yollar üreterek ajan eğitimi için dallanmış deneyimleri simüle edebilir.
    • Uzun süreli bellek: Genie 2, dünyanın görüş alanı dışındaki kısımlarını hatırlayabilir ve yeniden görünür olduğunda bunları doğru şekilde render edebilir.
    • Çeşitli ortamlar: Genie 2, birinci şahıs, izometrik projeksiyon ve üçüncü şahıs sürüş videoları gibi farklı bakış açıları üretebilir.
    • 3D yapı: Karmaşık 3D görsel sahneler oluşturabilir.
    • Nesne etkileşimleri: Balon patlatma, kapı açma, patlayıcı fırlatma gibi çeşitli nesne etkileşimlerini modelleyebilir.
    • Karakter animasyonu: Farklı etkinlikler yapan karakterleri canlandırabilir.
    • NPC: Diğer ajanlarla karmaşık etkileşimleri modelleyebilir.
    • Fizik: Su efektleri, duman efektleri, yerçekimi, aydınlatma ve benzerlerini modelleyebilir.
    • Gerçek görüntülerden oynanış: Gerçek görüntülerden verilen prompt’larla çimenlikte akan suyu veya rüzgârda sallanan otları modelleyebilir.
  • Çeşitli etkileşimli deneyimlerin hızlı prototiplenmesi
    • Genie 2, yeni ortamların hızlıca denenmesini ve embodied AI ajanlarının eğitilip test edilmesini destekler.
      • Örnek: Imagen 3 ile üretilen görüntüler kullanılarak kâğıt uçak, ejderha, şahin ve paraşüt kontrol edilen çeşitli ortam simülasyonları
    • Genie 2’nin dağılım dışı genelleme yeteneği sayesinde konsept sanatı ve çizimler tam etkileşimli ortamlara dönüştürülebilir.
      • Hızlı prototipleme, yaratıcı sürecin başlamasını sağlar ve ortam tasarımını hızlandırır.
  • Genie 2 ile değerlendirme ortamları oluşturma
    • Genie 2, AI ajanları için zengin ve çeşitli ortamları hızla üretebilir.
      • Eğitim sırasında görülmemiş yeni değerlendirme görevleri oluşturarak ajanları test eder.
    • DeepMind’ın oyun geliştiricileriyle iş birliği içinde geliştirdiği SIMA ajanı, doğal dil talimatlarına dayanarak 3D oyun dünyalarında görevler yerine getirir.
      • Genie 2, tek bir görüntü prompt’u ile 3D ortam üretir; SIMA ajanı ise klavye ve fare girdileri üzerinden etkileşime girer.
    • Henüz erken aşama bir araştırma olsa da Genie 2’nin, eğitim ortamlarına çeşitlilik ve genellik kazandırarak embodied ajanların güvenli eğitimi sorununu çözmeye katkı sunması bekleniyor.
    • AI ajanlarının genelleştirilmiş eğitimi yoluyla AGI’nin gelişimi için bir temel oluşturur.
  • Difüzyon dünya modeli
    • Genie 2, büyük ölçekli video veri kümeleri üzerinde eğitilmiş bir latent diffusion modeldir.
    • Kareler, autoencoder üzerinden latent uzaya dönüştürüldükten sonra transformer tabanlı dinamik modele aktarılır.
    • Eğitim sırasında, dil modellerinde kullanılanlara benzer bir causal mask uygulanır.
    • Otokoregresif çıkarım
      • Çıkarım sırasında Genie 2, geçmiş latent kareleri ve eylem verilerini kare bazında otokoregresif şekilde örnekler.
      • Davranış kontrol edilebilirliğini artırmak için Classifier-Free Guidance tekniğini kullanır.
    • Genie 2, davranış kontrol edilebilirliğini korurken yüksek çözünürlüklü 3D ortamları verimli biçimde üretir.
    • Difüzyon modeli ile otokoregresif yaklaşımı birleştirerek sürükleyici sanal ortamlar için yeni nesil teknoloji sunar.
  • Sorumlu teknoloji geliştirme
    • Genie 2, çeşitli 3D ortamlar üretme ve ajan araştırmalarını hızlandırma açısından temel dünya modellerinin potansiyelini gösterir.

1 yorum

 
GN⁺ 2024-12-05
Hacker News görüşleri
  • Bu modelin boyutu merak ediliyor ve teknik ayrıntıların yetersiz olması hayal kırıklığı yaratıyor. Google'ın yaklaşımının hâlâ kapalı olduğu belirtiliyor. Ancak fotoğraflar ve metin açıklamalarına dayanarak dünyayı keşfetme olasılığı şaşırtıcı.

  • Video ve dünya üretimine yönelik baskının sürmesinin ilginç olduğu belirtiliyor. Sonsuz hikâye üreten oyunlara ilgi ifade ediliyor ve gelecekte etkileşimli hikâye anlatımının altın çağı bekleniyor.

  • Bu teknolojinin oyun geliştirme için faydalı olmayabileceği belirtiliyor. Oyunlarda etkileşim önemlidir ve tasarımcıların derin bir kontrol sahibi olması gerekir. Dünya üretimi kısmının en faydalı bölüm olduğu düşünülüyor.

  • Bu teknolojinin AGI ve robotikte büyük ilerlemeler sağlayacağı vurgulanıyor. İnsan beyninin çalışma biçimine benzer işlevleri makinelere eklemenin başlangıç noktası olarak görülüyor.

  • Araştırmanın asıl hedefinin, insanın 3D dünyayı anlama yetisini aşan modeller geliştirmek olduğu açıklanıyor. Bunun robotik ve otonom araçların gelişimine katkı sağlayacağı belirtiliyor.

  • Genie2'nin konsept sanatın ayrıntılarını göz ardı etmesinin hayal kırıklığı yarattığı ifade ediliyor. Orijinal, güzel uzaylı canlıların yok sayılması eleştiriliyor.

  • Üretken yapay zekanın esneklik sağladığı ancak çok fazla hesaplama gerektirdiği açıklanıyor. Geleneksel programlama ile üretken yapay zekanın rolleri hakkında merak dile getiriliyor.

  • Bu teknolojinin gerçek değeri sorgulanıyor. Yüksek hesaplama maliyeti ve düzensiz davranışların sorun olduğu belirtiliyor.

  • MS Edge'de kaydırmanın çalışmadığı için Firefox kullanıldığı ve videonun görsel kalitesinin iyi olmadığı belirtiliyor. Yapay zeka araştırmacılarının neden hâlihazırda iyi çalışan sistemleri değiştirmeye çalıştığı sorgulanıyor.