2 puan yazan GN⁺ 2025-10-11 | 1 yorum | WhatsApp'ta paylaş
  • Discrete Distribution Networks (DDN), yeni ilke ve özelliklere sahip yenilikçi bir üretici modeldir
  • DDN, böl-ve-budama optimizasyon algoritması sayesinde özgün deneysel sonuçlar ve 1D ayrık temsil yeteneği sunar
  • Hiyerarşik yapıya dayanarak sürekli dağılımları da yaklaştırır ve Zero-Shot koşullu üretim gibi ilgi çekici özellikler gösterir
  • DDN, görüntü üretimi, stil dönüşümü gibi çeşitli gerçek görevlerde uygulanabilirlik potansiyeli gösterir
  • Ölçeklenebilirlik, verimlilik ve doğal uyum kabiliyeti gibi açılardan mevcut üretici modellerden ayrışır

DDN: Discrete Distribution Networks genel bakış

Neden önemli?

DDN (Discrete Distribution Networks), mevcut üretici modellerden tamamen farklı yeni bir yaklaşım olup basit ilkeler, özgün bir hiyerarşik yapı ve Zero-Shot koşullu üretim gibi özelliklere sahiptir. GAN ve Diffusion’dan farklı bir yöntem izlediği için hem araştırma hem de gerçek uygulamalar açısından birçok yeni olasılık açar.


Ana noktaların özeti

  • DDN, verinin dağılımını hiyerarşik ayrık dağılım yapısıyla yaklaştıran yeni bir üretici modeldir
  • Böl-ve-budama (Split-and-Prune) optimizasyon tekniği önerilir ve mevcut üretici modellerde zor olan Zero-Shot Conditional Generation ile 1D ayrık gizil temsil gibi ayırt edici özellikler deneysel olarak gösterilir
  • DDN, her katmanda aynı anda birden fazla örnek üretir ve bunlar arasından hedefe en yakın olanı seçerek bir sonraki katmanın koşulu olarak kullanır
  • Katman sayısı arttıkça çıktının ifade uzayı üstel olarak genişler ve sonuçta hedefe benzer örnekler üretilir
  • Çeşitli deneyler (CIFAR-10, FFHQ, stil dönüşümü, süper çözünürlük vb.) mevcut yöntemlere kıyasla sadelik, genelleme performansı ve pratik uygulanabilirlik açısından güçlü yönlerini ortaya koyar

DDN’in yoğunluk tahmini deneyleri

  • 2D olasılık yoğunluğu yaklaştırma sürecinin gösterimi
    • Sol: DDN’in o anda üretebildiği tüm örnekler
    • Sağ: hedef olasılık yoğunluğu haritası
    • Farklı hedef dağılım durumları (blur_circles, QR_code, spiral vb.) sırayla uygulanarak sürekli optimizasyon yapılır
    • Optimizer: Gradient Descent ve Split-and-Prune birlikte kullanılır
    • Böl-ve-budama uygulandığında KL divergence, gerçek örneklerden bile daha düşük olur

Makalenin temel katkıları

  • Daha basit ve verimli yeni bir üretici model — DDN önerilmesi
  • Split-and-Prune optimizasyon algoritması ve pratik tekniklerin uygulanması
  • Gradyanssız Zero-Shot koşullu üretim ve özgün 1D ayrık temsil gibi özelliklerin doğrulanması
  • ICLR değerlendirmelerinde, “mevcut üretici modellerden oldukça farklı olduğu ve araştırma yönünü genişlettiği” yorumu yapılması
  • DDN’in ilkesi: Her katmanda çok sayıda ayrık örnek üretmek, hedefe en yakın sonucu seçmek ve bunu hiyerarşik olarak daha da rafine etmek

Yapı ve çalışma biçimi

Hiyerarşik ayrık dağılım yapısı

  • Her katman, önceki katmanda seçilen örneği girdi olarak alıp birden fazla örnek üretir
  • Bunlar arasından mevcut eğitim örneğine (doğru cevap) en yakın sonuç bir sonraki katmana aktarılır
  • Bu süreç tekrarlandıkça sonuç giderek rafine olur ve hedef dağılıma yaklaşır
  • Katman sayısı arttıkça üretilen çıktıların ifade uzayı üstel olarak büyür
  • Ağın kendisi aynı anda birden fazla örnek üreterek dağılımı doğrudan ifade edebilir

Görüntü yeniden yapılandırma ve gizil temsil

  • Her katmanın çıktısı farklı görüntüler üretir; yalnızca nihai amaca en yakın sonuç bir sonraki katmana aktarılır
  • Örnekleyicinin rolü: hedefe en çok benzeyen görüntüyü seçmek
  • Üretim görevlerinde rastgele örnekleme ile çeşitlilik en üst düzeye çıkarılır
  • DDN’in gizil değişkenleri ağaç yapısı olarak yorumlanabilir ve her örnek ağacın ucundaki bir yaprak düğüme eşlenir

Deney sonuçlarından örnekler

  • Farklı 2D dağılımların (spiral, QR_code vb.) yaklaştırılması
  • Split-and-Prune ile KL divergence’ın en aza indirilmesi, dead node ve density shift sorunlarının hafifletilmesi
  • CIFAR-10, FFHQ vb. veri kümelerinde GAN ve Diffusion tabanlı modellere kıyasla özgün üretim biçimi ve verimlilik gösterilmesi

Zero-Shot koşullu üretim desteği

  • DDN, gradyan olmadan Zero-Shot koşullu üretim yapabilir
  • Örnek: CLIP black-box kullanılarak metinden görüntü üretimi
  • Stil dönüşümü, süper çözünürlük gibi piksel dışı çeşitli koşullar da etkili biçimde işlenebilir

Eğitim ve iki model paradigması

  • Eğitim sırasında her Discrete Distribution Layer (DDL) içinde örnek seçiminin ardından Adam + Split-and-Prune ile optimizasyon yapılır
  • Single Shot Generator: Her katman bağımsız ağırlıklara sahiptir
  • Recurrence Iteration: Tüm katmanlar ağırlıkları paylaşır

Çeşitli uygulama örnekleri

Rastgele yüz görüntüsü üretimi

  • Eğitilmiş DDN tabanlı yüz görüntüsü üretim sonuçları, çıktılardaki çeşitlilik ve kaliteyi gösterir

Koşullu görüntü renklendirme / kenardan renge dönüşüm

  • Belirli bir görüntü temel alınarak stile mümkün olduğunca yakın düşünülür ve koşul da karşılanır
  • Üretilen görüntü çözünürlüğü 256x256’dir

Hiyerarşik üretimin görselleştirilmesi (MNIST vb.)

  • Her üretim aşamasındaki ara ve nihai sonuçların görselleştirilmesi
  • Büyük görüntüler taslak, küçük görüntüler ise rafine edilmiş nihai sonuçlardır

Gelecek araştırma yönleri ve uygulama potansiyeli

  • Hiperparametre ayarı, keşifsel deneyler ve kuramsal analizlerle DDN performansının daha da iyileştirilmesi mümkündür
  • ImageNet düzeyinde karmaşıklığa sahip problemlere ölçeklenerek gerçek hizmetlerde kullanılabilecek modeller kurulabilir
  • Süper çözünürlük, görüntü renklendirme, derinlik tahmini, poz tahmini, robotik gibi farklı görevlere uygulanabilir
    • Diffusion tabanlı modellere kıyasla tek bir forward-pass ile çoklu örnek çıktısı üretir
    • Belirsizlik tahmini gibi kullanım alanlarında verimlilik ve kısıt uygulaması açısından elverişlidir
    • End-to-end türevlenebilirlik sayesinde mevcut ayrımcı/ödül öğrenimi ile birleştirildiğinde verimli olabilir
  • Üretici olmayan görevlerde de (gözetimsiz kümeleme, veri sıkıştırma vb.) kullanılabilir
  • DDN’in tasarım fikirlerini mevcut üretici modellere (ör. Diffusion) uygulayan takip araştırmaları önerilir (Diffusion ile 1D ayrık gizil uzayın birleştirilmesi gibi)
  • Dil modellemede tokenizer olmadan ikili dizgeleri doğrudan modellemek gibi yeni yönler sunar

Sık sorulan sorular

S1: GPU bellek gereksinimi artıyor mu?

  • Mevcut GAN Generator’a kıyasla biraz artar, ancak büyük bir fark yoktur
  • Eğitim sırasında yalnızca seçilen örneklerin gradyanları saklanır, geri kalanlar hemen atıldığı için bellek açısından alan korunur
  • Üretim aşamasında rastgele yalnızca bir örnek üretildiğinden tüm örneklerin birlikte üretilmesine gerek kalmaz ve ek kaynak kullanımı çok düşük olur

S2: Mode collapse sorunu var mı?

  • Yok. Her zaman yalnızca hedefe en çok benzeyen sonuca loss uygulanır, bu da çeşitliliği korur
  • Deneysel olarak test kümesini yeniden yapılandırma performansı da yüksektir
  • Ancak DDN’in kendi karmaşıklığıyla başa çıkılması zor olan yüksek boyutlu verilerde bulanık örnekler oluşabilir

1 yorum

 
GN⁺ 2025-10-11
Hacker News yorumu
  • Yazarların ICLR incelemelerini faydalı bulup memnuniyetlerini ifade etmesi sevindirici; bu örnek, ICLR'nin tüm makale incelemelerini herkese açık hale getirme politikasının nasıl başarılı şekilde işlediğini gösteriyor.
    İncelemeciler, makaleyi anonim olarak nasıl yorumladıklarını yazarlar için bir tür "değerlendirme raporu" olarak sunuyor ve geleneksel akademinin dışındaki kişiler de makalenin kabul/ret kararının arkasındaki tartışmaları görebiliyor.
    Bu makalenin inceleme bağlantısı burada.
    Reddedilen makalelerin tam listesine buradan ulaşılabilir.

    • ICLR'den her ret aldığımda, en azından makalenin temel fikrini anlamayan hangi incelemecinin olduğunu işaret edebiliyordum.
  • Makalenin Fig.18'inde Taiji-DDN'in antik Çin felsefesindeki Taiji'ye benzediğinden söz ediliyor.
    Bu kısım bana biraz zorlama geldi.
    Dallanma yapısı zaten sık görülen bir kavram olduğu için, bunu özellikle böyle kültürel bir ifadeyle ilişkilendiren yorum biraz tuhaf geldi.

    • Bana kalırsa bu sadece özgün isimlendirmeyi eğlenceli şekilde açıklama girişimi gibi görünüyor.
      Bence bunda batıl ya da garip bir şey yok.
  • Tek yazarlı bir makalenin ICLR'de yer aldığını görmek, özellikle de gerçekten yenilikçi bir yöntem sunduğunda, daha da etkileyici geliyor.

  • Yapı bana oldukça ilginç geliyor.
    Hata ayıklaması kolay gibi bir avantajı var, ancak sampler kullanması ve Mixture-of-Experts(MoE) tarzı bir router içermemesi nedeniyle her katmanda K-1 kez yapılan hesaplama fiilen boşa gidiyor.
    Bana göre en yakın benzetme, MoE ile x0-target latent diffusion modelinin birleşimi; temel yenilik ise router değil, yönlendirici sampler ile split-and-prune optimizer.
    Bu sayede eğitimin kolaylaştığını düşünüyorum.

    • Örnekleme olasılığı girişten bağımsız olarak 1/K olduğundan, çıkarım sırasında her katmanda K ara hesabın hepsini yapmak gerekmiyor; hangisinin kullanılacağı önceden belirlenip sadece o hesaplama yapılabiliyor.
      Bu konu makalenin alt kısmındaki 'Common Questions About DDN' bölümünde Q1'de açıklanıyor.

    • Sanırım makaleyi yanlış anlamışsınız.
      Burada "experts" yok; çıktı sadece dağılımdan rastgele örneklemeyi yaklaşık olarak üretme işlevi görüyor.
      latent diffusion yok, GAN'e benzer convolution kullanılıyor.
      Çıkarım sırasında örnek indeksinin önceden seçilmesi sayesinde gereksiz hesaplama yapılmadığı özellikle vurgulanıyor.

  • Gerçekten harika bir konsept.
    Makale özetinin altındaki örneklere bakınca, modelin oldukça isabetli sonuçlar verdiği noktalar şaşırtıcı.
    Örneğin 2. satır 3. sütundaki saç çizgisi, 2. satır 7/8/9/11. sütunlardaki gömlek rengi, 4/6. satırların tamamındaki ruj, 6. satır 4. sütundaki yüz ve saçın konumu/şekli gibi.
    Özellikle 6. satır 4. sütunun sol altındaki kırmızı bölümde, modelin orada kırmızı bir şey olduğunu fark edip doğru yere kırmızı bir leke koymuş olması çok ilginç.
    Bu veri kümesi yanlılığıyla ilgili olabilir (örneğin ruj) ya da benim seçici gözlemimdir; ama kırmızı omuz askısı için bunun veri sızıntısı mı, aşırı uyum mu, yoksa sadece tesadüf mü olduğunu merak ediyorum.

  • Ben de benzer bir yapıyı (yöntem farklı olsa da) bir kez kurmuştum; çapraz attention ile öğrenilmiş sorguların hiyerarşisini oluşturup, attention matrisine L1 uygulayarak seyreklik kazandırmıştım.
    Ayrık hiyerarşik temsiller gerçekten çok ilgi çekici.
    Her katmanda etkinleşen örüntü, her girdi için bir "parse tree" gibi çalışıyor ve görüntüyü kısa bir tamsayı dizisine verimli biçimde sıkıştırıyor.

  • Tam bilmediğim için soruyorum: Ağ sadece 1x1 convolution'lardan oluşuyorsa, pikseller arasında hiç bilgi alışverişi olmuyor demek değil mi?
    Öyleyse her piksel tamamen bağımsız olur; bu da sonuçların tutarsız olmasına yol açmaz mı diye merak ediyorum.

    • Buradaki durum bu değil ama, pratikte pikselleri birbirinden bağımsız üreten mimariler gerçekten var.
      Rastgele bir pikseli ya da görüntü öğesini, geri kalanını üretmeden oluşturabiliyorlar; bunlar içkindir.
      Örnek olarak NeRF, 'single-pixel GAN' ve MAE verilebilir; makale bağlantıları olarak bu makale, bu makale, bu makale var.
      Bunun mümkün olmasının nedeni, modelin tüm olası verileri bir anlamda "hatırlıyor" gibi düşünülebilmesi; bağımsız üretim de bu "hafıza"nın belirli bir bölümünü çağırmak gibi işliyor.
      Gizil uzay değişmeyen, Platoncu bir nesne olduğu için, her noktayı fiziksel olarak ayrı ayrı üretmek garip değil.
      Nasıl keyfi noktalar y=mx+b gibi bir fonksiyonla üretilebiliyorsa, görüntü üretimi de yalnızca karmaşık bir fonksiyona girdi vermek gibi düşünülebilir.
      Bu kavram sadece görüntülerle sınırlı değil; doğal dil de bir ölçüde bağımsız üretilebilir ve bu kod ile benim önerim burada daha da genişletilebilir.

    • DDN'de 1x1 convolution yalnızca Discrete Distribution Layer(DDL)'ın çıktı katmanında kullanılıyor.
      DDL'ler arasındaki sinir ağı blokları ana hesaplama ve parametre kaynağını oluşturuyor; burada standart 3x3 convolution kullanılıyor.

  • İlginç.
    Birkaç gün önce symbolic transform matrisleri kullanarak derin grafik reaksiyon sistemlerini paralelleştiren bir diffusion çalışması yapıyordum; görünen o ki birçok kişi bu genel yöne gidiyor.
    Önümüzdeki 1-2 yıl içinde diffusion tabanlı modellerin kod üretimine liderlik edeceğini düşünüyorum.

  • Gerçekten çok hoş; geçmişte temsil öğrenmesine epey zaman ayırmıştım ve MNIST sayı ızgarası bana eski günleri hatırlattı.
    Bunun gerçekten ilginç ve yeni bir yaklaşım olduğunu düşünüyorum; ölçeklenip görüntü dışı alanlara uygulandığında nasıl performans göstereceğini merak ediyorum.
    Sonraki çalışmaları nereden takip edebileceğimi de merak ediyorum.

    • İlginiz için teşekkürler.
      Gelecekteki araştırma sonuçlarını hem GitHub hem de Twitter(X) üzerinden paylaşmayı planlıyorum.
  • Gerçekten iyi bir çalışma gibi görünüyor; okuma listeme ekledim.
    Bunu Hacker News'te paylaştığınız için teşekkürler.