1 puan yazan GN⁺ 2024-07-06 | 1 yorum | WhatsApp'ta paylaş

Diffusion Forcing

Diffusion Forcing'e giriş

  • "Diffusion Forcing", adını "teacher forcing" ve "diffusion models" kavramlarından alır
  • Diffusion Forcing, sonraki token tahmin modelleri ile tam dizi difüzyon modellerinin temel güçlü yanlarının ikisinden de yararlanabilir
  • Tek bir eğitimle farklı örnekleme zamanlarında esnek biçimde çalışabilir

Diffusion Forcing nasıl çalışır?

  • Dizi difüzyonunu eğitir, ancak her token'a farklı bir gürültü seviyesi uygular
  • Difüzyondaki gürültü, farklı seviyelerde maskeleme olarak görülebilir
  • Örnekleme sırasında dizi genelinde farklı gürültü seviyeleri kullanarak esnek çalışma sağlanabilir

Video tahmini

  • Diffusion Forcing kullanan video tahmini, istikrarlı ve tutarlı sonuçlar sunar
  • DMLab ve Minecraft veri kümelerinde Diffusion Forcing, mevcut yöntemlerden daha iyi performans gösterir

Sliding window olmadan sonsuz rollout istikrarı

  • Diffusion Forcing, eğitildiği maksimum dizi uzunluğundan çok daha uzun videoları rollout edebilir
  • Sliding window olmadan RNN rollout'u yapılabilir
  • DMLab ve Minecraft veri kümelerinde 2000 kareden fazla rollout mümkündür

Diffusion Planning

  • Diffusion Forcing, test zamanında guidance kullanılarak bir planlayıcı olarak değerlendirilebilir
  • Her token'ı [a_t, o_{t+1}] olarak tanımlayarak nedensel ilişkiyi açıkça modeller
  • Yeni gözlemler yapıldıktan sonra smoothing ile güncellenebilir

Uzun vadeli taklit öğrenimi

  • Gerçek dünyadaki birçok görev Markov özelliği taşımaz ve uzun süreli bellek gerektirir
  • Bir robot kolunun iki meyve yuvasını yer değiştirdiği görevde başarılı sonuçlar gösterir
  • Diffusion Forcing, test zamanında görülmemiş dikkat dağıtıcı unsurlara karşı dayanıklı çalışabilir

GN⁺ görüşü

  • Diffusion Forcing, sonraki token tahmin modelleri ile tam dizi difüzyon modellerinin avantajlarını birleştirerek esnek örnekleme sağlar
  • Video tahmini ve rollout senaryolarında mevcut yöntemlerden daha iyi performans göstermesi, pratik uygulama potansiyelini artırır
  • Uzun vadeli taklit öğrenimindeki başarısı, Diffusion Forcing'in güçlü geri besleme kontrol yeteneğini gösterir
  • Diffusion Forcing'in istikrar sağlayıcı etkisi, farklı dizi uzunluklarında kullanım olasılığını artırır
  • Yeni bir teknoloji benimsenirken model karmaşıklığı ve hesaplama maliyeti dikkate alınmalıdır

1 yorum

 
GN⁺ 2024-07-06
Hacker News görüşü
  • Sekans maskeleme fikrini ve diffusion modellerini birleştiren yeni bir yaklaşım öneriliyor

    • Her pikselin 'belirsizlik' düzeyi izlenerek diffusion modelinin 'gürültü' seviyesi olarak kullanılıyor
    • Görüntünün belirli bölümleri önce kesinleştirilebildiği için labirent çözme gibi alanlarda kullanılabiliyor
    • Robot kolunu kontrol etmek için de kullanılmış
    • Başlık fikri olduğundan küçük gösteriyor; bu aslında 'kesirli maskeleme' yapmanın bir yolu
    • Kod tabanı hakkında çok fazla merak var; labirent izleme görevi ve video genişletme görevinin nasıl kurulduğu, robot kolunun nasıl bağlandığı gibi
    • Mimari yapının kendisi daha fazla araştırma ve açıklama gerektiriyor
  • Yeni bir ön eğitim olmadan mevcut metin üretimi yapan LLM'leri diffusion teknikleriyle birleştiren araştırma ya da araçlar bilen olup olmadığını merak ediyorum

    • Tree of Thoughts ve MCTS gibi benzer yaklaşımlar var, ancak token düzeyinde üretime daha yakın bir şey arıyorum
    • Küçük GPT / Phi 3 / Gwen modelleriyle çalışıp çalışamayacağını merak ediyorum
  • Russ diffusion üzerine çalışıyor; robotik için oldukça uygulanabilir görünüyor

  • Bu alanda çalışan biri olarak, araştırmanın sunumu fazlasıyla anlaşılması güç olmuş

    • Çözmeye çalıştıkları problemin ne olduğunu, yeni bir üretici model mi önerdiklerini merak ediyorum
  • Eğitim süresiyle ilgili kaçırdığım bir şey olup olmadığını merak ediyorum; token başına gürültü eklemenin eğitimi ciddi biçimde yavaşlatıp yavaşlatmadığını merak ediyorum

    • Harika bir makale
  • Araştırma çok etkileyici ama neden 'Diffusion Forcing' dendiğini merak ediyorum