Diffusion Forcing
Diffusion Forcing'e giriş
- "Diffusion Forcing", adını "teacher forcing" ve "diffusion models" kavramlarından alır
- Diffusion Forcing, sonraki token tahmin modelleri ile tam dizi difüzyon modellerinin temel güçlü yanlarının ikisinden de yararlanabilir
- Tek bir eğitimle farklı örnekleme zamanlarında esnek biçimde çalışabilir
Diffusion Forcing nasıl çalışır?
- Dizi difüzyonunu eğitir, ancak her token'a farklı bir gürültü seviyesi uygular
- Difüzyondaki gürültü, farklı seviyelerde maskeleme olarak görülebilir
- Örnekleme sırasında dizi genelinde farklı gürültü seviyeleri kullanarak esnek çalışma sağlanabilir
Video tahmini
- Diffusion Forcing kullanan video tahmini, istikrarlı ve tutarlı sonuçlar sunar
- DMLab ve Minecraft veri kümelerinde Diffusion Forcing, mevcut yöntemlerden daha iyi performans gösterir
Sliding window olmadan sonsuz rollout istikrarı
- Diffusion Forcing, eğitildiği maksimum dizi uzunluğundan çok daha uzun videoları rollout edebilir
- Sliding window olmadan RNN rollout'u yapılabilir
- DMLab ve Minecraft veri kümelerinde 2000 kareden fazla rollout mümkündür
Diffusion Planning
- Diffusion Forcing, test zamanında guidance kullanılarak bir planlayıcı olarak değerlendirilebilir
- Her token'ı [a_t, o_{t+1}] olarak tanımlayarak nedensel ilişkiyi açıkça modeller
- Yeni gözlemler yapıldıktan sonra smoothing ile güncellenebilir
Uzun vadeli taklit öğrenimi
- Gerçek dünyadaki birçok görev Markov özelliği taşımaz ve uzun süreli bellek gerektirir
- Bir robot kolunun iki meyve yuvasını yer değiştirdiği görevde başarılı sonuçlar gösterir
- Diffusion Forcing, test zamanında görülmemiş dikkat dağıtıcı unsurlara karşı dayanıklı çalışabilir
GN⁺ görüşü
- Diffusion Forcing, sonraki token tahmin modelleri ile tam dizi difüzyon modellerinin avantajlarını birleştirerek esnek örnekleme sağlar
- Video tahmini ve rollout senaryolarında mevcut yöntemlerden daha iyi performans göstermesi, pratik uygulama potansiyelini artırır
- Uzun vadeli taklit öğrenimindeki başarısı, Diffusion Forcing'in güçlü geri besleme kontrol yeteneğini gösterir
- Diffusion Forcing'in istikrar sağlayıcı etkisi, farklı dizi uzunluklarında kullanım olasılığını artırır
- Yeni bir teknoloji benimsenirken model karmaşıklığı ve hesaplama maliyeti dikkate alınmalıdır
1 yorum
Hacker News görüşü
Sekans maskeleme fikrini ve diffusion modellerini birleştiren yeni bir yaklaşım öneriliyor
Yeni bir ön eğitim olmadan mevcut metin üretimi yapan LLM'leri diffusion teknikleriyle birleştiren araştırma ya da araçlar bilen olup olmadığını merak ediyorum
Russ diffusion üzerine çalışıyor; robotik için oldukça uygulanabilir görünüyor
Bu alanda çalışan biri olarak, araştırmanın sunumu fazlasıyla anlaşılması güç olmuş
Eğitim süresiyle ilgili kaçırdığım bir şey olup olmadığını merak ediyorum; token başına gürültü eklemenin eğitimi ciddi biçimde yavaşlatıp yavaşlatmadığını merak ediyorum
Araştırma çok etkileyici ama neden 'Diffusion Forcing' dendiğini merak ediyorum