- Difüzyon modelleri, verinin kademeli olarak gürültüye dönüştüğü süreci tanımlar ve bunu tersine çevirerek gürültüden veri üreten bir üretici model mimarisidir
- Modelin çekirdeği, zamana göre değişen bir hız alanını (velocity field) öğrenerek basit bir dağılımı veri dağılımına dönüştüren sürekli bir üretim yolu kurmaktır
- Üç ana bakış açısı olarak varyasyonel (variational), skor tabanlı (score-based) ve akış tabanlı (flow-based) yaklaşımlar vardır; bunların her biri sırasıyla gürültü giderme, olasılık gradyanı öğrenimi ve sürekli dönüşüm üzerinden açıklanır
- Bu temel üzerinde kontrol edilebilir üretim, verimli örnekleme, zaman noktaları arasında doğrudan eşleme (flow-map) gibi genişletme çalışmaları ele alınır
- Difüzyon modellerinin matematiksel prensiplerini ve farklı formülasyonlarını bütünlüklü biçimde anlamayı sağlayan temel bir kuramsal eser olma önemi vurgulanır
Difüzyon modellerinin temel kavramı
- Difüzyon modeli, veriyi kademeli olarak gürültüyle bozan ileri süreçten (forward process) ve bunu tersine çevirip gürültüden veri üreten geri süreçten (reverse process) oluşur
- İleri süreç, veri dağılımını basit bir gürültü dağılımına bağlayan sürekli ara dağılımlar kümesini tanımlar
- Geri süreç ise aynı ara dağılımları yeniden kurarak gürültüyü veriye dönüştürür
- Modelin amacı, bu geri süreci öğrenerek gürültüden veriye dönüşüm yolunu yeniden üretmektir
Üç matematiksel bakış açısı
- Varyasyonel bakış açısı (Variational View)
- Varyasyonel otoenkoderden (VAE) ilham alır ve gürültüyü adım adım kaldıran küçük geri kazanım hedeflerini (denoising objective) öğrenir
- Her adımın geri kazanımı birikerek toplamda gürültüyü veriye dönüştürür
- Skor tabanlı bakış açısı (Score-Based View)
- Enerji tabanlı modellere (Energy-Based Model) dayanır ve veri dağılımının gradyanını (gradient) öğrenir
- Örnekleri daha yüksek olasılıklı bölgelere taşıyan yönü hesaplar
- Akış tabanlı bakış açısı (Flow-Based View)
- Normalizing Flow'a benzer şekilde, üretim sürecini hız alanı (velocity field) boyunca gürültüden veriye ilerleyen sürekli bir yol olarak yorumlar
Ortak yapı ve matematiksel temel
- Üç bakış açısının ortak noktası, hepsinin zamana bağlı hız alanını (time-dependent velocity field) öğrenmesidir
- Bu hız alanı, basit bir ön dağılımı (prior) veri dağılımına taşıma görevini üstlenir
- Örnekleme, diferansiyel denklemi (differential equation) çözerek gürültüyü veriye dönüştürme süreci olarak ifade edilir
- Bu matematiksel çerçeve üzerinde verimli örnekleme için sayısal analiz teknikleri, kontrol edilebilir üretim (guidance) ve istenen zaman noktaları arasında doğrudan eşleme (flow-map) gibi konular ele alınır
Hedef okur kitlesi ve amaç
- Hedef okur kitlesi, derin öğrenme ve üretici modelleme konusunda temel bilgiye sahip araştırmacılar, lisansüstü öğrenciler ve uygulayıcılardır
- Amaç, difüzyon modellerinin kuramsal temelleri ile farklı formülasyonlar arasındaki ilişkiyi açık biçimde kavratmaktır
- Böylece mevcut modelleri güvenle uygulamak ve yeni araştırma yönlerini keşfetmek için bir temel sunulur
Önsöz ve yapı özeti
- Difüzyon modelleri, makine öğrenmesi, bilgisayarlı görü ve doğal dil işleme gibi birçok alanda merkezi bir üretici paradigma haline gelmiştir
- Bu eser, geniş araştırma literatürünü kuramsal prensipler, öğrenme hedefleri, örnekleyici tasarımı ve matematiksel fikirler açısından sistematik hale getirir
- Ana yapı
- Part A & B: difüzyon modellerinin temelleri ile üç bakış açısının kökenleri ve ilişkileri
- Sonraki bölümlerde verimli örnekleme, kontrol edilebilir üretim ve bağımsız üretici modellere genişleme ele alınır
- Her bölüm seçmeli olarak okunabilir; temel kavramlara aşina olan okurlar VAE, EBM, Normalizing Flow ile ilgili giriş kısımlarını atlayabilir
Teşekkür
- Seoul City University ve KIAS'tan Prof. Dohyun Kwon, 7. bölümün bir kısmını gözden geçirerek matematiksel doğruluk ve anlatımın iyileştirilmesine katkı sağlamıştır
- Geri bildirimi ve tartışmaları, son taslağın niteliğinin artmasına yardımcı olmuştur
1 yorum
Hacker News yorumu
Videodan öğrenmeyi tercih ediyorsanız, Stefano Ermon’un CS236 Deep Generative Models dersini öneririm
Tüm dersler YouTube oynatma listesinde izlenebiliyor ve ders materyalleri resmi sitede derlenmiş durumda
Bunun, birkaç gün önce paylaştığım yazının mükerrer gönderisi olup olmadığını merak ediyorum
Önceki gönderi bağlantısı
HN SSS’ye göre, bir yıldan uzun süre ilgi görmemiş yazılar sınırlı şekilde yeniden paylaşılabiliyor
Ayrıca moderasyonla ilgili sorular yorum yerine hn@ycombinator.com adresine gönderilmeli
Belgede "Fokker-Planck" diye arattım, tam 97 kez geçiyor
Bu kadarı okunmaya değer olduğunu düşündürüyor
Acaba transformer için de bu kapsam ve derinlikte bir kaynak var mı diye merak ediyorum
Matematik çok fazla, açıkçası biraz gözüm korktu
Bunu okurken, günümüzdeki AI’ın aslında zeki olmaktan çok brute force’a daha yakın olduğu hissine kapıldım
Belki insan beyni de tüm yaşamı boyunca brute-force çalışan bir makinedir
Ama yapay zeka, sonuçta yapay aroma gibi, ruhsuz bir çıktı gibi geliyor
İstatistiğin gücü, derin yapı ve seçime dayanır
İnsanlar yaşamları boyunca brute-force yapmaz, ama evrim bu yapıyı milyarlarca yıl boyunca inşa etti
ve bunun üzerine yüz milyonlarca yıl boyunca bir meta öğrenme algoritması sıkıştırdı
470 sayfa mı?! Bu kadar fazla olunca bir anlık beyin yanması yaşadım 😆