ICLR’ye kabul edilen yeni bir üretici model geliştirdik

(discrete-distribution-networks.github.io)

2 puan yazan GN⁺ 2025-10-11 | 1 yorum | WhatsApp'ta paylaş

Discrete Distribution Networks (DDN), yeni ilke ve özelliklere sahip yenilikçi bir üretici modeldir
DDN, böl-ve-budama optimizasyon algoritması sayesinde özgün deneysel sonuçlar ve 1D ayrık temsil yeteneği sunar
Hiyerarşik yapıya dayanarak sürekli dağılımları da yaklaştırır ve Zero-Shot koşullu üretim gibi ilgi çekici özellikler gösterir
DDN, görüntü üretimi, stil dönüşümü gibi çeşitli gerçek görevlerde uygulanabilirlik potansiyeli gösterir
Ölçeklenebilirlik, verimlilik ve doğal uyum kabiliyeti gibi açılardan mevcut üretici modellerden ayrışır

DDN: Discrete Distribution Networks genel bakış

Neden önemli?

DDN (Discrete Distribution Networks), mevcut üretici modellerden tamamen farklı yeni bir yaklaşım olup basit ilkeler, özgün bir hiyerarşik yapı ve Zero-Shot koşullu üretim gibi özelliklere sahiptir. GAN ve Diffusion’dan farklı bir yöntem izlediği için hem araştırma hem de gerçek uygulamalar açısından birçok yeni olasılık açar.

Ana noktaların özeti

DDN, verinin dağılımını hiyerarşik ayrık dağılım yapısıyla yaklaştıran yeni bir üretici modeldir
Böl-ve-budama (Split-and-Prune) optimizasyon tekniği önerilir ve mevcut üretici modellerde zor olan Zero-Shot Conditional Generation ile 1D ayrık gizil temsil gibi ayırt edici özellikler deneysel olarak gösterilir
DDN, her katmanda aynı anda birden fazla örnek üretir ve bunlar arasından hedefe en yakın olanı seçerek bir sonraki katmanın koşulu olarak kullanır
Katman sayısı arttıkça çıktının ifade uzayı üstel olarak genişler ve sonuçta hedefe benzer örnekler üretilir
Çeşitli deneyler (CIFAR-10, FFHQ, stil dönüşümü, süper çözünürlük vb.) mevcut yöntemlere kıyasla sadelik, genelleme performansı ve pratik uygulanabilirlik açısından güçlü yönlerini ortaya koyar

DDN’in yoğunluk tahmini deneyleri

2D olasılık yoğunluğu yaklaştırma sürecinin gösterimi
- Sol: DDN’in o anda üretebildiği tüm örnekler
- Sağ: hedef olasılık yoğunluğu haritası
- Farklı hedef dağılım durumları (blur_circles, QR_code, spiral vb.) sırayla uygulanarak sürekli optimizasyon yapılır
- Optimizer: Gradient Descent ve Split-and-Prune birlikte kullanılır
- Böl-ve-budama uygulandığında KL divergence, gerçek örneklerden bile daha düşük olur

Makalenin temel katkıları

Daha basit ve verimli yeni bir üretici model — DDN önerilmesi
Split-and-Prune optimizasyon algoritması ve pratik tekniklerin uygulanması
Gradyanssız Zero-Shot koşullu üretim ve özgün 1D ayrık temsil gibi özelliklerin doğrulanması
ICLR değerlendirmelerinde, “mevcut üretici modellerden oldukça farklı olduğu ve araştırma yönünü genişlettiği” yorumu yapılması
DDN’in ilkesi: Her katmanda çok sayıda ayrık örnek üretmek, hedefe en yakın sonucu seçmek ve bunu hiyerarşik olarak daha da rafine etmek

Yapı ve çalışma biçimi

Hiyerarşik ayrık dağılım yapısı

Her katman, önceki katmanda seçilen örneği girdi olarak alıp birden fazla örnek üretir
Bunlar arasından mevcut eğitim örneğine (doğru cevap) en yakın sonuç bir sonraki katmana aktarılır
Bu süreç tekrarlandıkça sonuç giderek rafine olur ve hedef dağılıma yaklaşır
Katman sayısı arttıkça üretilen çıktıların ifade uzayı üstel olarak büyür
Ağın kendisi aynı anda birden fazla örnek üreterek dağılımı doğrudan ifade edebilir

Görüntü yeniden yapılandırma ve gizil temsil

Her katmanın çıktısı farklı görüntüler üretir; yalnızca nihai amaca en yakın sonuç bir sonraki katmana aktarılır
Örnekleyicinin rolü: hedefe en çok benzeyen görüntüyü seçmek
Üretim görevlerinde rastgele örnekleme ile çeşitlilik en üst düzeye çıkarılır
DDN’in gizil değişkenleri ağaç yapısı olarak yorumlanabilir ve her örnek ağacın ucundaki bir yaprak düğüme eşlenir

Deney sonuçlarından örnekler

Farklı 2D dağılımların (spiral, QR_code vb.) yaklaştırılması
Split-and-Prune ile KL divergence’ın en aza indirilmesi, dead node ve density shift sorunlarının hafifletilmesi
CIFAR-10, FFHQ vb. veri kümelerinde GAN ve Diffusion tabanlı modellere kıyasla özgün üretim biçimi ve verimlilik gösterilmesi

Zero-Shot koşullu üretim desteği

DDN, gradyan olmadan Zero-Shot koşullu üretim yapabilir
Örnek: CLIP black-box kullanılarak metinden görüntü üretimi
Stil dönüşümü, süper çözünürlük gibi piksel dışı çeşitli koşullar da etkili biçimde işlenebilir

Eğitim ve iki model paradigması

Eğitim sırasında her Discrete Distribution Layer (DDL) içinde örnek seçiminin ardından Adam + Split-and-Prune ile optimizasyon yapılır
Single Shot Generator: Her katman bağımsız ağırlıklara sahiptir
Recurrence Iteration: Tüm katmanlar ağırlıkları paylaşır

Çeşitli uygulama örnekleri

Rastgele yüz görüntüsü üretimi

Eğitilmiş DDN tabanlı yüz görüntüsü üretim sonuçları, çıktılardaki çeşitlilik ve kaliteyi gösterir

Koşullu görüntü renklendirme / kenardan renge dönüşüm

Belirli bir görüntü temel alınarak stile mümkün olduğunca yakın düşünülür ve koşul da karşılanır
Üretilen görüntü çözünürlüğü 256x256’dir

Hiyerarşik üretimin görselleştirilmesi (MNIST vb.)

Her üretim aşamasındaki ara ve nihai sonuçların görselleştirilmesi
Büyük görüntüler taslak, küçük görüntüler ise rafine edilmiş nihai sonuçlardır

Gelecek araştırma yönleri ve uygulama potansiyeli

Hiperparametre ayarı, keşifsel deneyler ve kuramsal analizlerle DDN performansının daha da iyileştirilmesi mümkündür
ImageNet düzeyinde karmaşıklığa sahip problemlere ölçeklenerek gerçek hizmetlerde kullanılabilecek modeller kurulabilir
Süper çözünürlük, görüntü renklendirme, derinlik tahmini, poz tahmini, robotik gibi farklı görevlere uygulanabilir
- Diffusion tabanlı modellere kıyasla tek bir forward-pass ile çoklu örnek çıktısı üretir
- Belirsizlik tahmini gibi kullanım alanlarında verimlilik ve kısıt uygulaması açısından elverişlidir
- End-to-end türevlenebilirlik sayesinde mevcut ayrımcı/ödül öğrenimi ile birleştirildiğinde verimli olabilir
Üretici olmayan görevlerde de (gözetimsiz kümeleme, veri sıkıştırma vb.) kullanılabilir
DDN’in tasarım fikirlerini mevcut üretici modellere (ör. Diffusion) uygulayan takip araştırmaları önerilir (Diffusion ile 1D ayrık gizil uzayın birleştirilmesi gibi)
Dil modellemede tokenizer olmadan ikili dizgeleri doğrudan modellemek gibi yeni yönler sunar

Sık sorulan sorular

S1: GPU bellek gereksinimi artıyor mu?

Mevcut GAN Generator’a kıyasla biraz artar, ancak büyük bir fark yoktur
Eğitim sırasında yalnızca seçilen örneklerin gradyanları saklanır, geri kalanlar hemen atıldığı için bellek açısından alan korunur
Üretim aşamasında rastgele yalnızca bir örnek üretildiğinden tüm örneklerin birlikte üretilmesine gerek kalmaz ve ek kaynak kullanımı çok düşük olur

S2: Mode collapse sorunu var mı?

Yok. Her zaman yalnızca hedefe en çok benzeyen sonuca loss uygulanır, bu da çeşitliliği korur
Deneysel olarak test kümesini yeniden yapılandırma performansı da yüksektir
Ancak DDN’in kendi karmaşıklığıyla başa çıkılması zor olan yüksek boyutlu verilerde bulanık örnekler oluşabilir

1 yorum

GN⁺ 2025-10-11

Hacker News yorumu

Yazarların ICLR incelemelerini faydalı bulup memnuniyetlerini ifade etmesi sevindirici; bu örnek, ICLR'nin tüm makale incelemelerini herkese açık hale getirme politikasının nasıl başarılı şekilde işlediğini gösteriyor.
İncelemeciler, makaleyi anonim olarak nasıl yorumladıklarını yazarlar için bir tür "değerlendirme raporu" olarak sunuyor ve geleneksel akademinin dışındaki kişiler de makalenin kabul/ret kararının arkasındaki tartışmaları görebiliyor.
Bu makalenin inceleme bağlantısı burada.
Reddedilen makalelerin tam listesine buradan ulaşılabilir.
- ICLR'den her ret aldığımda, en azından makalenin temel fikrini anlamayan hangi incelemecinin olduğunu işaret edebiliyordum.
Makalenin Fig.18'inde Taiji-DDN'in antik Çin felsefesindeki Taiji'ye benzediğinden söz ediliyor.
Bu kısım bana biraz zorlama geldi.
Dallanma yapısı zaten sık görülen bir kavram olduğu için, bunu özellikle böyle kültürel bir ifadeyle ilişkilendiren yorum biraz tuhaf geldi.
- Bana kalırsa bu sadece özgün isimlendirmeyi eğlenceli şekilde açıklama girişimi gibi görünüyor.
  Bence bunda batıl ya da garip bir şey yok.
Tek yazarlı bir makalenin ICLR'de yer aldığını görmek, özellikle de gerçekten yenilikçi bir yöntem sunduğunda, daha da etkileyici geliyor.
Yapı bana oldukça ilginç geliyor.
Hata ayıklaması kolay gibi bir avantajı var, ancak sampler kullanması ve Mixture-of-Experts(MoE) tarzı bir router içermemesi nedeniyle her katmanda K-1 kez yapılan hesaplama fiilen boşa gidiyor.
Bana göre en yakın benzetme, MoE ile x0-target latent diffusion modelinin birleşimi; temel yenilik ise router değil, yönlendirici sampler ile split-and-prune optimizer.
Bu sayede eğitimin kolaylaştığını düşünüyorum.
- Örnekleme olasılığı girişten bağımsız olarak 1/K olduğundan, çıkarım sırasında her katmanda K ara hesabın hepsini yapmak gerekmiyor; hangisinin kullanılacağı önceden belirlenip sadece o hesaplama yapılabiliyor.
  Bu konu makalenin alt kısmındaki 'Common Questions About DDN' bölümünde Q1'de açıklanıyor.
- Sanırım makaleyi yanlış anlamışsınız.
  Burada "experts" yok; çıktı sadece dağılımdan rastgele örneklemeyi yaklaşık olarak üretme işlevi görüyor.
  latent diffusion yok, GAN'e benzer convolution kullanılıyor.
  Çıkarım sırasında örnek indeksinin önceden seçilmesi sayesinde gereksiz hesaplama yapılmadığı özellikle vurgulanıyor.
Gerçekten harika bir konsept.
Makale özetinin altındaki örneklere bakınca, modelin oldukça isabetli sonuçlar verdiği noktalar şaşırtıcı.
Örneğin 2. satır 3. sütundaki saç çizgisi, 2. satır 7/8/9/11. sütunlardaki gömlek rengi, 4/6. satırların tamamındaki ruj, 6. satır 4. sütundaki yüz ve saçın konumu/şekli gibi.
Özellikle 6. satır 4. sütunun sol altındaki kırmızı bölümde, modelin orada kırmızı bir şey olduğunu fark edip doğru yere kırmızı bir leke koymuş olması çok ilginç.
Bu veri kümesi yanlılığıyla ilgili olabilir (örneğin ruj) ya da benim seçici gözlemimdir; ama kırmızı omuz askısı için bunun veri sızıntısı mı, aşırı uyum mu, yoksa sadece tesadüf mü olduğunu merak ediyorum.
Ben de benzer bir yapıyı (yöntem farklı olsa da) bir kez kurmuştum; çapraz attention ile öğrenilmiş sorguların hiyerarşisini oluşturup, attention matrisine L1 uygulayarak seyreklik kazandırmıştım.
Ayrık hiyerarşik temsiller gerçekten çok ilgi çekici.
Her katmanda etkinleşen örüntü, her girdi için bir "parse tree" gibi çalışıyor ve görüntüyü kısa bir tamsayı dizisine verimli biçimde sıkıştırıyor.
Tam bilmediğim için soruyorum: Ağ sadece 1x1 convolution'lardan oluşuyorsa, pikseller arasında hiç bilgi alışverişi olmuyor demek değil mi?
Öyleyse her piksel tamamen bağımsız olur; bu da sonuçların tutarsız olmasına yol açmaz mı diye merak ediyorum.
- Buradaki durum bu değil ama, pratikte pikselleri birbirinden bağımsız üreten mimariler gerçekten var.
  Rastgele bir pikseli ya da görüntü öğesini, geri kalanını üretmeden oluşturabiliyorlar; bunlar içkindir.
  Örnek olarak NeRF, 'single-pixel GAN' ve MAE verilebilir; makale bağlantıları olarak bu makale, bu makale, bu makale var.
  Bunun mümkün olmasının nedeni, modelin tüm olası verileri bir anlamda "hatırlıyor" gibi düşünülebilmesi; bağımsız üretim de bu "hafıza"nın belirli bir bölümünü çağırmak gibi işliyor.
  Gizil uzay değişmeyen, Platoncu bir nesne olduğu için, her noktayı fiziksel olarak ayrı ayrı üretmek garip değil.
  Nasıl keyfi noktalar y=mx+b gibi bir fonksiyonla üretilebiliyorsa, görüntü üretimi de yalnızca karmaşık bir fonksiyona girdi vermek gibi düşünülebilir.
  Bu kavram sadece görüntülerle sınırlı değil; doğal dil de bir ölçüde bağımsız üretilebilir ve bu kod ile benim önerim burada daha da genişletilebilir.
- DDN'de 1x1 convolution yalnızca Discrete Distribution Layer(DDL)'ın çıktı katmanında kullanılıyor.
  DDL'ler arasındaki sinir ağı blokları ana hesaplama ve parametre kaynağını oluşturuyor; burada standart 3x3 convolution kullanılıyor.
İlginç.
Birkaç gün önce symbolic transform matrisleri kullanarak derin grafik reaksiyon sistemlerini paralelleştiren bir diffusion çalışması yapıyordum; görünen o ki birçok kişi bu genel yöne gidiyor.
Önümüzdeki 1-2 yıl içinde diffusion tabanlı modellerin kod üretimine liderlik edeceğini düşünüyorum.
Gerçekten çok hoş; geçmişte temsil öğrenmesine epey zaman ayırmıştım ve MNIST sayı ızgarası bana eski günleri hatırlattı.
Bunun gerçekten ilginç ve yeni bir yaklaşım olduğunu düşünüyorum; ölçeklenip görüntü dışı alanlara uygulandığında nasıl performans göstereceğini merak ediyorum.
Sonraki çalışmaları nereden takip edebileceğimi de merak ediyorum.
- İlginiz için teşekkürler.
  Gelecekteki araştırma sonuçlarını hem GitHub hem de Twitter(X) üzerinden paylaşmayı planlıyorum.
Gerçekten iyi bir çalışma gibi görünüyor; okuma listeme ekledim.
Bunu Hacker News'te paylaştığınız için teşekkürler.