4 puan yazan GN⁺ 2025-11-11 | 1 yorum | WhatsApp'ta paylaş
  • Difüzyon modelleri, verinin kademeli olarak gürültüye dönüştüğü süreci tanımlar ve bunu tersine çevirerek gürültüden veri üreten bir üretici model mimarisidir
  • Modelin çekirdeği, zamana göre değişen bir hız alanını (velocity field) öğrenerek basit bir dağılımı veri dağılımına dönüştüren sürekli bir üretim yolu kurmaktır
  • Üç ana bakış açısı olarak varyasyonel (variational), skor tabanlı (score-based) ve akış tabanlı (flow-based) yaklaşımlar vardır; bunların her biri sırasıyla gürültü giderme, olasılık gradyanı öğrenimi ve sürekli dönüşüm üzerinden açıklanır
  • Bu temel üzerinde kontrol edilebilir üretim, verimli örnekleme, zaman noktaları arasında doğrudan eşleme (flow-map) gibi genişletme çalışmaları ele alınır
  • Difüzyon modellerinin matematiksel prensiplerini ve farklı formülasyonlarını bütünlüklü biçimde anlamayı sağlayan temel bir kuramsal eser olma önemi vurgulanır

Difüzyon modellerinin temel kavramı

  • Difüzyon modeli, veriyi kademeli olarak gürültüyle bozan ileri süreçten (forward process) ve bunu tersine çevirip gürültüden veri üreten geri süreçten (reverse process) oluşur
    • İleri süreç, veri dağılımını basit bir gürültü dağılımına bağlayan sürekli ara dağılımlar kümesini tanımlar
    • Geri süreç ise aynı ara dağılımları yeniden kurarak gürültüyü veriye dönüştürür
  • Modelin amacı, bu geri süreci öğrenerek gürültüden veriye dönüşüm yolunu yeniden üretmektir

Üç matematiksel bakış açısı

  • Varyasyonel bakış açısı (Variational View)
    • Varyasyonel otoenkoderden (VAE) ilham alır ve gürültüyü adım adım kaldıran küçük geri kazanım hedeflerini (denoising objective) öğrenir
    • Her adımın geri kazanımı birikerek toplamda gürültüyü veriye dönüştürür
  • Skor tabanlı bakış açısı (Score-Based View)
    • Enerji tabanlı modellere (Energy-Based Model) dayanır ve veri dağılımının gradyanını (gradient) öğrenir
    • Örnekleri daha yüksek olasılıklı bölgelere taşıyan yönü hesaplar
  • Akış tabanlı bakış açısı (Flow-Based View)
    • Normalizing Flow'a benzer şekilde, üretim sürecini hız alanı (velocity field) boyunca gürültüden veriye ilerleyen sürekli bir yol olarak yorumlar

Ortak yapı ve matematiksel temel

  • Üç bakış açısının ortak noktası, hepsinin zamana bağlı hız alanını (time-dependent velocity field) öğrenmesidir
    • Bu hız alanı, basit bir ön dağılımı (prior) veri dağılımına taşıma görevini üstlenir
    • Örnekleme, diferansiyel denklemi (differential equation) çözerek gürültüyü veriye dönüştürme süreci olarak ifade edilir
  • Bu matematiksel çerçeve üzerinde verimli örnekleme için sayısal analiz teknikleri, kontrol edilebilir üretim (guidance) ve istenen zaman noktaları arasında doğrudan eşleme (flow-map) gibi konular ele alınır

Hedef okur kitlesi ve amaç

  • Hedef okur kitlesi, derin öğrenme ve üretici modelleme konusunda temel bilgiye sahip araştırmacılar, lisansüstü öğrenciler ve uygulayıcılardır
  • Amaç, difüzyon modellerinin kuramsal temelleri ile farklı formülasyonlar arasındaki ilişkiyi açık biçimde kavratmaktır
  • Böylece mevcut modelleri güvenle uygulamak ve yeni araştırma yönlerini keşfetmek için bir temel sunulur

Önsöz ve yapı özeti

  • Difüzyon modelleri, makine öğrenmesi, bilgisayarlı görü ve doğal dil işleme gibi birçok alanda merkezi bir üretici paradigma haline gelmiştir
  • Bu eser, geniş araştırma literatürünü kuramsal prensipler, öğrenme hedefleri, örnekleyici tasarımı ve matematiksel fikirler açısından sistematik hale getirir
  • Ana yapı
    • Part A & B: difüzyon modellerinin temelleri ile üç bakış açısının kökenleri ve ilişkileri
    • Sonraki bölümlerde verimli örnekleme, kontrol edilebilir üretim ve bağımsız üretici modellere genişleme ele alınır
  • Her bölüm seçmeli olarak okunabilir; temel kavramlara aşina olan okurlar VAE, EBM, Normalizing Flow ile ilgili giriş kısımlarını atlayabilir

Teşekkür

  • Seoul City University ve KIAS'tan Prof. Dohyun Kwon, 7. bölümün bir kısmını gözden geçirerek matematiksel doğruluk ve anlatımın iyileştirilmesine katkı sağlamıştır
  • Geri bildirimi ve tartışmaları, son taslağın niteliğinin artmasına yardımcı olmuştur

1 yorum

 
GN⁺ 2025-11-11
Hacker News yorumu
  • Videodan öğrenmeyi tercih ediyorsanız, Stefano Ermon’un CS236 Deep Generative Models dersini öneririm
    Tüm dersler YouTube oynatma listesinde izlenebiliyor ve ders materyalleri resmi sitede derlenmiş durumda

    • Stanford’un bu CS236 dersini artık açmıyor olması üzücü. İki yıldır verilmiyor
  • Bunun, birkaç gün önce paylaştığım yazının mükerrer gönderisi olup olmadığını merak ediyorum
    Önceki gönderi bağlantısı

    • Evet, mükerrer ama bazı durumlarda buna izin veriliyor
      HN SSS’ye göre, bir yıldan uzun süre ilgi görmemiş yazılar sınırlı şekilde yeniden paylaşılabiliyor
      Ayrıca moderasyonla ilgili sorular yorum yerine hn@ycombinator.com adresine gönderilmeli
  • Belgede "Fokker-Planck" diye arattım, tam 97 kez geçiyor
    Bu kadarı okunmaya değer olduğunu düşündürüyor

    • Ama bende yalnızca 26 sonuç çıkıyor. Ölçüt ne acaba? güldüm :D
  • Acaba transformer için de bu kapsam ve derinlikte bir kaynak var mı diye merak ediyorum

  • Matematik çok fazla, açıkçası biraz gözüm korktu

    • “scared” değil de “scated” mi demek istedin diye şaka yapıyor
  • Bunu okurken, günümüzdeki AI’ın aslında zeki olmaktan çok brute force’a daha yakın olduğu hissine kapıldım
    Belki insan beyni de tüm yaşamı boyunca brute-force çalışan bir makinedir
    Ama yapay zeka, sonuçta yapay aroma gibi, ruhsuz bir çıktı gibi geliyor

    • Fizikçi olabilir misin diye düşündüm. RG flow’yu tersine çalıştırma sürecinde de kendine özgü bir güzellik olduğunu düşünüyorum
      İstatistiğin gücü, derin yapı ve seçime dayanır
    • “Her zaman” demek fazla kesin. Bir gün daha iyi olabilir
    • Zekanın, bu brute-force algoritmalarının öğrendiği çeşit/manifold (manifold) olduğunu düşünüyorum
      İnsanlar yaşamları boyunca brute-force yapmaz, ama evrim bu yapıyı milyarlarca yıl boyunca inşa etti
      ve bunun üzerine yüz milyonlarca yıl boyunca bir meta öğrenme algoritması sıkıştırdı
  • 470 sayfa mı?! Bu kadar fazla olunca bir anlık beyin yanması yaşadım 😆