DIAMOND 💎 genel bakış
- DIAMOND, bir diffusion dünya modelinde eğitilen bir pekiştirmeli öğrenme ajanıdır.
- Bu model, Atari gibi oyun ortamlarında görsel ayrıntıları önemli ölçüde dikkate alır.
- DIAMOND, CounterStrike: Global Offensive (CSGO) gibi 3D ortamları da simüle edebilir.
Araştırma arka planı ve motivasyon
- Dünya modelleri, pekiştirmeli öğrenme ajanlarını güvenli ve verimli şekilde eğitmek için umut verici bir yaklaşımdır.
- Mevcut dünya modelleri çoğunlukla ortam dinamiklerini modellemek için ayrık gizil değişken dizileri kullanır.
- Ancak bu tür sıkıştırma, pekiştirmeli öğrenme için önemli olan görsel ayrıntıları göz ardı edebilir.
- Diffusion modelleri, görüntü üretiminde öne çıkan başlıca yaklaşım haline gelmiştir.
- DIAMOND, bu paradigma değişiminden ilham alınarak geliştirildi.
DIAMOND'un performansı ve sonuçları
- DIAMOND, Atari 100k benchmark'ında ortalama 1.46 insan normalize skoru elde etti.
- Bu, dünya modeli içinde eğitilmiş ajanlar arasında en iyi performanstır.
- DIAMOND'un kodu GitHub'da açık olarak yayımlanmıştır.
DIAMOND nasıl çalışır
- Diffusion modeli, oyunun bir sonraki karesini tahmin edecek şekilde eğitilir.
- Ajanın eylemlerini ve önceki kareleri dikkate alarak ortam tepkisini simüle eder.
- Otoregresif üretim, ajanın oyunu öğrenmesine yardımcı olur.
- Hızlı bir dünya modeli için denoising adımı sayısının azaltılması gerekir.
- DDPM tabanlı modeller düşük denoising adımlarında kararsızken, EDM tabanlı modeller stabildir.
Görsel ayrıntıların önemi
- DIAMOND, önemli görsel ayrıntıları daha iyi modeller.
- Ayrık token tabanlı IRIS'e kıyasla daha iyi görsel ayrıntı yakalar.
- Atari 100k'da insandan %46 daha iyi performans gösterir.
GN⁺ özeti
- DIAMOND, pekiştirmeli öğrenmede görsel ayrıntıların önemini vurgular.
- Diffusion modelleri kullanılarak daha iyi görsel ayrıntılar yakalanabilir.
- Atari ve CSGO gibi oyunlarda performans artışı gösterir.
- İlgili alanlardaki araştırmacılar için ilgi çekici ve faydalı bir kaynak olabilir.
- Benzer özelliklere sahip projeler arasında DreamerV2 ve PlaNet bulunur.
1 yorum
Hacker News görüşleri
Bir kullanıcı, bağlantı verilen videonun kendi rüyalarına çok benzediğini söyleyip rüyasında yüksek zıplamayı denediğinde buna benzer bir deneyim yaşadığını anlatıyor
300M parametreli modelin GTX4090 ile 12 gün boyunca 5M kare üzerinde eğitildiğini açıklıyor
2015'te büyük bir teknoloji şirketinin buna benzer bir çalışma yaptığını belirtiyor
Büyük ölçekli LLM'ler gibi endüstriyel ölçekte çalışmaların oldukça etkileyici olacağını söylüyor
Bunun, oyun motorlarında gerçekçi fizik yaklaşıkları üretmek için kullanılabileceğini açıklıyor
Bunu gerçekten deneyen birine, bunun bir oyun haritası mı oluşturduğu yoksa garip, halüsinatif bir deneyim mi olduğu sorusunu yöneltiyor
Stable Diffusion'ın temel kavramını anladığını söylüyor ve bunu 3D varlık düzeyinde deneyen araştırmalar olup olmadığını merak ediyor
NN görüntüleri ve videolarındaki "cehennem gürültüsü"nü fark etmeyen insanlara şaşırıyor
Schmidhuber'in grubunun 2018'de yaptığı bir çalışmadan bahsedip bağlantı paylaşıyor
Modeli güncel GTA ile ilgili gerçek görüntülerle eğitip eski bir oyunun görsellerini yükseltmenin ilginç olacağını söylüyor
Bunu dil modeliyle birleştirmenin bir yolu olup olmadığını merak ediyor ve dilin dünya modeline dayanması gerektiğini savunuyor
Dil modellerinin verimsiz olduğunu düşünüyor ve yapı mühendisliği araçlarıyla eğitilmiş bir "oyun" hayal ediyor
Bu ağın dünyayı anlayan, faydalı eylemleri öngören veya sorulara yanıt verebilen bir parçanın parçası olabileceğini açıklıyor
Güçlü geri besleme döngülerine sahip bu modelin, başlangıç noktası olarak yeni görüntüler veya haritalar kullanıldığında nasıl tepki vereceğini merak ediyor