4 puan yazan GN⁺ 2024-05-27 | 1 yorum | WhatsApp'ta paylaş

Üretici modelleme

  • Üretici modellemenin temel problemi, bilinmeyen dağılım x∼p(x)'den gelen bir örnek kümesi verildiğinde, bu dağılımdan yeni örnekler üretmektir.

1.1 Gürültü giderici difüzyon modeli

  • Veri noktalarını deterministik olarak normal dağılıma eşlemek yerine, rastgele gürültü karıştırarak noktaları olasılıksal olarak eşleyen bir yöntem kullanılır.
  • Bu yöntem ilk başta garip görünebilir, ancak temiz veri noktalarına birden çok adım boyunca az miktarda gürültü ekleyerek onları saf gürültü gibi görünür hale getirir.
  • Her adımda gürültü karıştırılmış veri noktasına bakıldığında, veri noktasının bir önceki adımda yaklaşık olarak nerede olduğu anlaşılabilir.
  • Bu süreç ters yönde öğrenildiğinde p(x) dağılımından örnek üretilebilir.
  • Bu, fiziksel difüzyon sürecine benzer.

DDP modeli

  • DDP modeli, Denoising Diffusion Probabilistic Models ifadesinin kısaltmasıdır.
  • Yeni gelişmeler bu makalenin dili ve matematiği temel alınarak ilerlemektedir.

2.1 Gürültü ekleme ve kaldırma

  • Girdi görüntüsü x0'ı birim normal dağılımdaki bir noktaya eşlemek için t=1,2,…,T zaman adımları boyunca gürültünün kademeli olarak eklendiği ileri difüzyon süreci kullanılır.
  • Her zaman adımı, önceki görüntüye az miktarda rastgele gürültü karıştırarak yeni bir görüntü üretir.
  • Bu süreç yinelemeli bir yapıdadır; her adım yalnızca bir önceki zaman adımına bağlıdır ve eklenen gürültü, önceki gürültü örneklerinden bağımsızdır.
  • Ters süreç öğrenilerek, gürültü karıştırılmış xt görüntüsünden bir önceki adımın daha az gürültülü sürümü xt-1 dağılımı tahmin edilir.

2.2 Gürültü giderme eğitimi

  • q(xt−1∣xt) çok az miktarda gürültü için yaklaşık olarak Gaussian'dır.
  • Bu, istatistiksel fizikte uzun zamandır bilinen bir sonuçtur.
  • Bu sayede ters dağılım öğrenilebilir.
  • KL diverjansı kullanılarak tüm eğitim örnekleri x0 için q(xt−1∣xt,x0) ile pθ(xt−1∣xt) arasındaki fark en aza indirilir.
  • Nihai kayıp fonksiyonu, gürültü tahmin problemine indirgenir.

2.3 Örnekleme

  • Gürültü tahmin modeli ϵθ(xt,t) eğitildikten sonra, bununla x0 görüntüsü örneklenebilir.
  • Saf gürültü görüntüsü xT∼N(0,I) örneklenir ve T'den 1'e kadar olan zaman adımları için gürültü tahmin edilip, tahmin edilen gürültü kullanılarak gürültüsü giderilmiş görüntü örneklenir.

2.4 Özet ve örnek

  • Görüntü veri kümesinin temel dağılımı öğrenilir ve ileri gürültü ekleme süreci tanımlanarak görüntü x0, saf gürültü xT'ye kademeli olarak dönüştürülür.
  • Ters süreç öğrenilerek xt'den xt-1 dağılımı tahmin edilir.
  • KL diverjansı kullanılarak öğrenilen dağılımın, veri kümesinin bilinen dağılımına mümkün olduğunca yakın olması sağlanır.
  • Son olarak problem, gürültü tahmin problemine indirgenir.

Gelişmeler

3.1 Hızlı üretim

  • İlk difüzyon modellerinin başlıca dezavantajı üretim hızıydı.
  • Daha sonra üretim hızını artırmak için birçok teknik geliştirildi; bunların bazıları önceden eğitilmiş modellere doğrudan uygulanabilirken, bazıları yeni bir modelin eğitilmesini gerektirir.

Skor eşleme ve hızlı örnekleyiciler

  • Difüzyon modellerinin diferansiyel denklemlerle dikkat çekici bağlantıları vardır ve bu sayede birçok hızlı örnekleyici geliştirilmiştir.
  • Gürültü yönünü tahmin etmek, ileri sürecin log-olabilirliğinin gradyanıyla aynıdır.
  • Bu, skor tabanlı modellerin temelini oluşturur; bu modeller gürültü karıştırılmış veri kümesinin skorunu öğrenir ve skor alanını takip ederek yeni örnekler üretir.

GN⁺ görüşü

  1. Difüzyon modellerini anlama: Difüzyon modelleri yalnızca görüntü üretiminde değil; animasyon, video üretimi, 3D modelleme, protein yapısı tahmini ve robot rota planlama gibi çeşitli alanlarda da uygulanabilir.
  2. Eğitim sürecinin karmaşıklığı: Difüzyon modellerinin eğitim süreci karmaşıktır, ancak bu sayede son derece ayrıntılı görüntüler üretilebilir.
  3. Hızlı üretim teknikleri: Hızlı üretim teknikleri, difüzyon modellerinin pratik kullanımını büyük ölçüde iyileştirir.
  4. Skor tabanlı modeller: Skor tabanlı modeller, difüzyon modellerine benzer şekilde çalışır ve örnekleme hızını artırmaya katkı sağlar.
  5. Teknolojiyi benimserken dikkat edilmesi gerekenler: Difüzyon modellerini kullanıma alırken eğitim süresi, hesaplama kaynakları ve model karmaşıklığı gibi unsurlar dikkate alınmalıdır.

1 yorum

 
GN⁺ 2024-05-27

Hacker News görüşleri

  • Difüzyon modellerinin, score matching teorisinden daha önce ortaya çıktığını öğrenmiş oldum. OpenAI'nin 250 milyon görselle eğitim yaparken teorik açıklama eksikliğine rağmen buna girişmesi iddialı bir denemeydi.
  • Eğitim döngüsü yanlış gibi görünüyor. x0 ve eps, xt'nin gösteriminde kullanılmadığı için rastgele gürültüyü tahmin ediyormuş gibi duruyor.
  • Difüzyon transformer'ları için en iyi Apache veya MIT lisanslı Python kütüphanesini arıyorum.
  • Paylaştığın için teşekkürler. Difüzyon modellerinin nasıl çalıştığına dair içgörü kazandım. Rastgelelik güçlüdür. Şimdi uygun olmayan bir dilde kod yazmayı deneme zamanı.
  • Yorumları okuyanlar için özetlenecek çok şey yok. Bu gönderi, Stable Diffusion'ın bir özeti.
  • 2022'de resim çizmeyi öğrenirken Stable Diffusion gibi yapay zeka sanat modellerinin ortaya çıkışı beni şaşırtmıştı. Bilgisayar benden daha iyi bir sanatçı olmuştu. Yapay zeka yaratıcı işlere daha fazla müdahil oldukça hepsini ortadan kaldırmak istiyorum.