Diffusion Models Are Real-Time Game Engines
- GameNGen: Sinirsel bir modelle çalışan ilk oyun motoru; karmaşık ortamlarla gerçek zamanlı etkileşimi yüksek kalitede sunuyor
- DOOM simülasyonu: Klasik oyun DOOM, tek bir TPU üzerinde saniyede 20 kareden fazla hızla etkileşimli olarak simüle edilebiliyor
- PSNR: Bir sonraki kare tahmininde 29.4 PSNR elde edildi; bu, kayıplı JPEG sıkıştırmasına benzer
- İnsan değerlendiriciler: İnsan değerlendiriciler, oyun klipleriyle simülasyon kliplerini ayırt etmede rastgele tahminden yalnızca biraz daha iyi performans gösteriyor
Tam oynanış videosu
Ajan oynatımıyla veri toplama
- Otomatik RL ajanı: Büyük ölçekli insan oyun verisi toplamak mümkün olmadığından, ilk aşamada oyunu oynaması için otomatik bir RL ajanı eğitiliyor; bu eğitim bölümlerindeki eylem ve gözlemler kaydedilip üretici modelin eğitim verisi olarak kullanılıyor
Üretici difüzyon modeli eğitimi
- Stable Diffusion v1.4: Önceki eylem ve gözlem (kare) dizilerini koşul olarak alan küçük bir difüzyon modeli yeniden kullanılıyor
- Gaussian gürültü ekleme: Eğitim sırasında kodlanmış karelere Gaussian gürültü eklenerek bağlam kareleri bozuluyor; böylece ağın önceki karelerden örneklenen bilgiyi düzeltebilmesi sağlanıyor. Bu, uzun süre boyunca görsel kararlılığı korumak açısından kritik
Gizil çözücünün ince ayarı
- Stable Diffusion v1.4'ün önceden eğitilmiş autoencoder'ı: 8x8 piksellik yamaları 4 gizil kanala sıkıştırıyor; bu da oyun kareleri tahmin edilirken belirgin artefaktlara yol açıyor. Özellikle küçük ayrıntıları ve alttaki HUD çubuğunu etkiliyor
- Çözücü eğitimi: Görüntü kalitesini artırmak için, hedef kare pikselleri üzerinde MSE kaybı hesaplanarak gizil autoencoder'ın yalnızca çözücüsü eğitiliyor
GN⁺ özeti
- GameNGen, sinirsel modeller kullanarak karmaşık oyun ortamlarıyla gerçek zamanlı etkileşim kurabilen ilk oyun motoru
- DOOM simülasyonu üzerinden yüksek kaliteli kare tahmini sunuyor ve insan değerlendiricilerin gerçek oyun ile simülasyonu ayırt etmekte zorlanacağı kadar gelişmiş
- Stable Diffusion v1.4 gibi mevcut modelleri yeniden kullanarak verimliliği artırıyor; Gaussian gürültü ekleme gibi tekniklerle görsel kararlılığı koruyor
- Gizil çözücünün ince ayarı ile görüntü kalitesi iyileştirilerek oyun karelerindeki ayrıntılar korunuyor
1 yorum
Hacker News görüşü
Google’ın SD 1.4 kullanan difüzyon modeli, beklenenden daha fazla nedensellik, sonuç ve sıralama içeriyor
Bu makale, gerçek zamanlı kullanıcı girdisini alıp çıktıyı buna göre ayarlayan bir sistemi açıklamıyor
Bu modelin 20fps’de render yapabilmesi şaşırtıcı
Doom’u her şeyde çalıştırma çabası sürüyor
Bunun anlamsız olduğunu söyleyen yorumları okumak eğlenceli
Doom sistem gereksinimleri ile Stable Diffusion v1 karşılaştırması
Oyun motorunun görevi dünyayı render etmektir
Metin koşullandırması verilmemiş olsa da, yalnızca metin prompt’larıyla yeni bir oyun oluşturmak mümkün olabilir