1 puan yazan GN⁺ 2023-12-01 | 1 yorum | WhatsApp'ta paylaş

Çoklu görünüm görsel illüzyon üretimi: difüzyon modelleriyle bir araştırma

  • Michigan Üniversitesi'nden Daniel Geng, Inbum Park ve Andrew Owens, difüzyon modellerini kullanarak çoklu görünüm görsel illüzyonları üretmek için yeni bir yöntem sundu.
  • Bu yöntem, bir görüntü dönüştürüldüğünde farklı bir görünüm veya kimlikte algılanan görüntüler üretir; döndürme, çevirme, renk tersine çevirme, eğme, yapboz yeniden düzenleme ve rastgele permütasyon gibi çeşitli dönüşümleri destekler.
  • Araştırma, yöntemin geçerliliğini yalnızca teorik olarak değil, pratik örneklerle de gösteriyor.

Yöntem

  • Kullanılan yöntem kavramsal olarak basittir ve piyasada mevcut difüzyon modellerini kullanarak görüntünün farklı görünümleri veya dönüşümlerindeki gürültüyü tahmin eder.
  • Tahmin edilen gürültü, ters görünüm uygulanarak hizalanır ve ortalaması alınır; ardından bu ortalanmış gürültü tahmini kullanılarak difüzyon adımı ilerletilir.

Görünümler için koşullar

  • Her görünüm fonksiyonu yukarıdaki yöntemle uyumlu değildir; görünüm fonksiyonunun mutlaka tersinir olması gerekir.
  • Görünüm fonksiyonunun sinyal ile gürültü arasındaki ağırlığı koruması için lineer olması gerekir; bu, lineer dönüşümü temsil eden kare matris A ile sağlanabilir.
  • Difüzyon modeli, gürültünün standart normal dağılımdan bağımsız ve özdeş biçimde örneklendiğini varsaydığından, dönüştürülmüş gürültünün de bu istatistikleri izlemesi gerekir.
  • Lineer dönüşümler için bu, A matrisinin ortogonal olması koşuluna denktir.

Ortogonal dönüşümler

  • Ortogonal dönüşümlerin çoğu görsel açıdan anlamlı değildir; ancak permütasyon matrisleri ortogonal matrislerin bir alt kümesidir ve görüntü içindeki piksellerin yeniden düzenlenmesi olarak yorumlanabilir.
  • Bu araştırmada sunulan illüzyonların çoğu, döndürme, çevirme, eğme, "iç döndürme", yapboz yeniden düzenleme ve yama permütasyonu gibi belirli piksel yeniden düzenlemeleri olarak yorumlanabilir.
  • Renk tersine çevirme bir permütasyon değildir, ancak piksel değerlerinin negatiflenmesi olarak ortogonal bir dönüşümdür.

GN⁺ görüşü

  • Bu araştırma, görüntü dönüşümleri yoluyla çeşitli görsel illüzyonlar üretmek için yeni bir yöntem sunarak yapay zeka teknolojisi ile sanat arasındaki sınırların genişletilmesine katkı sağlıyor.
  • Özellikle görüntü piksellerini yeniden düzenleyerek çeşitli görsel etkiler üretme yöntemi yaratıcı görünüyor ve bunun yeni sanat eserleri üretmenin önünü açması bekleniyor.
  • Bu yazıyı ilgi çekici kılan nokta, mevcut difüzyon modellerini kullanarak görsel illüzyonlar oluşturmak için özgün bir yaklaşımı incelemesi; bu da başlangıç seviyesindeki yazılım mühendislerine bile yeni ilham verebilecek bir çalışma olmasını sağlıyor.

1 yorum

 
GN⁺ 2023-12-01
Hacker News görüşleri
  • Bir kullanıcı, geçen yılın başlarında benzer bir fikre sahip olduğunu ve dama tahtası yaklaşımını kullanarak deney yaptığını söylüyor. Örnek olarak, 9 ünlü ressamın tarzında çizilmiş kedi resimlerinden oluşturulmuş tek bir kedi görselini veriyor. Bu tekniğin, birkaç ay önce tartışma yaratan "spiral" ControlNet görseliyle ilgili olmadığını ve DeepFloyd-IF tabanlı üretildiğini belirtiyor.
  • Başka bir kullanıcı, erkek/kadın renk tersine çevrilmiş görselini etkileyici bulduğunu söylüyor; görseli zihninde döndürerek başka bakış açılarını görebildiğini, ancak renk tersine çevirmeyi zor bulduğunu ifade ediyor.
  • Bir diğer kullanıcı, erkek/kadın ters çevrilmiş görselini çok beğendiğini ve aynı tekniğin genişletilerek tek bir görselden ne kadar çok permütasyon üretilebileceğini merak ettiğini söylüyor. İki ortogonal dönüşüm art arda uygulanırsa sonucun hâlâ ortogonal dönüşüm olup olmayacağına dair matematiksel anlayışının yetersiz olduğunu ekliyor.
  • Bir kullanıcı, sunulan tüm örnekleri "eh işte" diye değerlendirirken penguen/zürafa görselinin muhtemelen en iyisi olduğunu belirtiyor. Yaşlı adam/elbiseli görselin ise ikisine de pek benzemediğini düşünüyor.
  • Sinir ağları kullanmanın bu iş için fazla kaçabileceğini ve optik illüzyonlara dair teorik anlayışın yerine geçmek için en iyi yol olmayabileceğini, ancak sonuçların tartışmasız olduğunu düşünen bir kullanıcı da var.
  • Bu görsellerden keyif alan ve bunun harika bir gönderi olduğunu söyleyen kullanıcılar da var.
  • Kırmızı/mavi ışık altında farklı görünen görseller üretmenin havalı olacağı fikrini ortaya atan bir kullanıcı da bulunuyor.
  • Ördek/tavşan görselinin bir kaydırmalı bulmacada kullanılıp iki geçerli çözüm sunmasının gerçekten çok hoş olacağını söyleyen bir kullanıcı da var.
  • Gerçekte satın alınabilecek buna benzer bir yapbozun var olup olmadığını merak eden bir kullanıcı da bulunuyor.