1 puan yazan GN⁺ 2024-08-29 | 1 yorum | WhatsApp'ta paylaş

Diffusion Models Are Real-Time Game Engines

  • GameNGen: Sinirsel bir modelle çalışan ilk oyun motoru; karmaşık ortamlarla gerçek zamanlı etkileşimi yüksek kalitede sunuyor
  • DOOM simülasyonu: Klasik oyun DOOM, tek bir TPU üzerinde saniyede 20 kareden fazla hızla etkileşimli olarak simüle edilebiliyor
  • PSNR: Bir sonraki kare tahmininde 29.4 PSNR elde edildi; bu, kayıplı JPEG sıkıştırmasına benzer
  • İnsan değerlendiriciler: İnsan değerlendiriciler, oyun klipleriyle simülasyon kliplerini ayırt etmede rastgele tahminden yalnızca biraz daha iyi performans gösteriyor

Tam oynanış videosu

Ajan oynatımıyla veri toplama

  • Otomatik RL ajanı: Büyük ölçekli insan oyun verisi toplamak mümkün olmadığından, ilk aşamada oyunu oynaması için otomatik bir RL ajanı eğitiliyor; bu eğitim bölümlerindeki eylem ve gözlemler kaydedilip üretici modelin eğitim verisi olarak kullanılıyor

Üretici difüzyon modeli eğitimi

  • Stable Diffusion v1.4: Önceki eylem ve gözlem (kare) dizilerini koşul olarak alan küçük bir difüzyon modeli yeniden kullanılıyor
  • Gaussian gürültü ekleme: Eğitim sırasında kodlanmış karelere Gaussian gürültü eklenerek bağlam kareleri bozuluyor; böylece ağın önceki karelerden örneklenen bilgiyi düzeltebilmesi sağlanıyor. Bu, uzun süre boyunca görsel kararlılığı korumak açısından kritik

Gizil çözücünün ince ayarı

  • Stable Diffusion v1.4'ün önceden eğitilmiş autoencoder'ı: 8x8 piksellik yamaları 4 gizil kanala sıkıştırıyor; bu da oyun kareleri tahmin edilirken belirgin artefaktlara yol açıyor. Özellikle küçük ayrıntıları ve alttaki HUD çubuğunu etkiliyor
  • Çözücü eğitimi: Görüntü kalitesini artırmak için, hedef kare pikselleri üzerinde MSE kaybı hesaplanarak gizil autoencoder'ın yalnızca çözücüsü eğitiliyor

GN⁺ özeti

  • GameNGen, sinirsel modeller kullanarak karmaşık oyun ortamlarıyla gerçek zamanlı etkileşim kurabilen ilk oyun motoru
  • DOOM simülasyonu üzerinden yüksek kaliteli kare tahmini sunuyor ve insan değerlendiricilerin gerçek oyun ile simülasyonu ayırt etmekte zorlanacağı kadar gelişmiş
  • Stable Diffusion v1.4 gibi mevcut modelleri yeniden kullanarak verimliliği artırıyor; Gaussian gürültü ekleme gibi tekniklerle görsel kararlılığı koruyor
  • Gizil çözücünün ince ayarı ile görüntü kalitesi iyileştirilerek oyun karelerindeki ayrıntılar korunuyor

1 yorum

 
GN⁺ 2024-08-29
Hacker News görüşü
  • Google’ın SD 1.4 kullanan difüzyon modeli, beklenenden daha fazla nedensellik, sonuç ve sıralama içeriyor

    • Sonsuz eğitim verisi elde etmek için bir ajan Doom oynatılıyor
    • Kaynak karelere Gauss gürültüsü ekleniyor ve ajan, ardışık kareleri "düzeltmesi" için ödüllendiriliyor
    • Modele hata düzeltmeyi ve kararlılığı korumayı öğretmek önemli
    • Bu modelin "fotogerçekçi" veya ray tracing tarzında ince ayar alıp alamayacağını merak ediyorum
  • Bu makale, gerçek zamanlı kullanıcı girdisini alıp çıktıyı buna göre ayarlayan bir sistemi açıklamıyor

    • Ajanın Doom oynadığı büyük bir veri kümesiyle eğitilmiş
    • Kullanıcı girdisi simülasyona gerçek zamanlı olarak yansıtılmıyor
    • Makalede gerçek zamanlı kullanıcı oyun deneyimine dair açıklama yer almıyor
  • Bu modelin 20fps’de render yapabilmesi şaşırtıcı

    • Difüzyon modelleri ile RNN’in kesişimi gibi görünüyor
    • Modelin çok oynadığı bir oyunu rüyasında görmesine benziyor
    • İnsanlar da bir sonraki anı tahmin eden makineler olabilir
  • Doom’u her şeyde çalıştırma çabası sürüyor

    • Bu model, donanım gereksinimi en yüksek Doom
    • Donanım özelliklerinin iki ucunda da Doom var
  • Bunun anlamsız olduğunu söyleyen yorumları okumak eğlenceli

    • Her şeyin kâr için yapılması gerekmiyor
    • Bir şeyi öğrenme deneyimi, meydan okuma ve merak için yapmak da önemli
    • Keyif alınarak geçirilen zaman asla boşa gitmez
  • Doom sistem gereksinimleri ile Stable Diffusion v1 karşılaştırması

    • Doom: 4MB RAM, 12MB disk alanı
    • Stable Diffusion v1: 860M UNet ve CLIP ViT-L/14, checkpoint boyutu 4.27GB, TPU-v5e üzerinde çalışıyor
    • Model, oyunu yüzlerce kez ezberleyebilecek kapasiteye sahip olsa da hâlâ optimizasyon için çok alan var
    • Bir oyunu yeterince otomatikleştirirseniz, onu kopyalayabilirsiniz
  • Oyun motorunun görevi dünyayı render etmektir

    • "Bu kapı için mavi anahtar gerekiyor" mesajı kullanıcıya mavi anahtar vermez
    • Oyun motoru yeni oyunlar oluşturabilir ve mevcut oyunların kurallarını gerçek zamanlı olarak değiştirebilir
    • Difüzyon modeli bir oyun motoru değildir
  • Metin koşullandırması verilmemiş olsa da, yalnızca metin prompt’larıyla yeni bir oyun oluşturmak mümkün olabilir

    • RL kullanılarak Doom’un nasıl göründüğü ve nasıl çalıştığı öğreniliyor
    • Sonsuz duruma sahip açık dünya oyunlarını simüle etmek zor olacaktır