Üretici modeller ne biliyor? Gerçekten biliyor mu?

(intrinsic-lora.github.io)

1 puan yazan GN⁺ 2024-02-25 | 1 yorum | WhatsApp'ta paylaş

Gerçek sahneleri inandırıcı biçimde üreten GAN, autoregressive ve Diffusion modellerinin içinde derinlik, normal, albedo, gölgeleme gibi sahneye içkin özellikler örtük olarak yer alıyor olabilir
Önerilen yöntem, model mimarisine daha az bağlı olan LoRA ile mevcut görüntü üretim decoder’ını aynen kullanarak intrinsic representation’ı geri kazanıyor
VQGAN ve Stable Diffusion’da attention layer’lara, StyleGAN’da affine layer’lara hafif LoRA eklenerek ayrı bir task-specific decoding head olmadan intrinsic image elde ediliyor
Stable Diffusion’da rank 2 için tüm model ağırlıklarının yalnızca %0,04’ü eğitilebilir parametre olarak ekleniyor ve sadece 250 etiketli görüntüyle bile intrinsic image üretilebiliyor
Kontrol deneylerinde, üretici model kalitesi yükseldikçe geri kazanılan sahneye içkin özelliklerin doğruluğunun da artma eğilimi gösterdiği görüldü; ancak çıkarılabilirlik modele ve domaine göre değişiyor

Araştırma sorusu ve LoRA yaklaşımı

Üretici modeller gerçek sahneleri iyi taklit ediyorsa, iç temsillerinde de sahneye içkin özellikler (scene intrinsic) bulunabileceği sorusundan yola çıkılıyor
Araştırmanın doğrulamak istediği dört nokta var
- GAN, Autoregressive ve Diffusion modellerinin hangi intrinsic knowledge’ı kodladığı
- Mimari veya model türünden bağımsız olarak intrinsic representation’ı geri kazanacak genel bir framework oluşturulup oluşturulamayacağı
- Gerekli eğitim parametrelerinin ve etiketli verinin ne kadar az olabileceği
- Üretici model kalitesi ile geri kazanılan intrinsic doğruluğu arasında doğrudan bir bağlantı olup olmadığı
Yöntemin merkezinde Low-Rank Adaptation (LoRA) var
- VQGAN ve Stable Diffusion’da LoRA attention layer’lara uygulanıyor
- StyleGAN’da LoRA affine layer’lara uygulanıyor
- Ayrı bir task-specific decoding head veya layer eklemeden, görüntü üretiminde kullanılan aynı decoder head kullanılıyor
İlgili materyaller

Geri kazanım sonuçları ve modellere göre farklar

Küçük bir LoRA ile çeşitli üretici modellerde depth, normals, albedo, shading geri kazanılabiliyor
Stable Diffusion’da rank 2 LoRA için eğitilebilir parametreler, tüm model ağırlıklarının %0,04’üne kadar düşüyor
Yalnızca 250 etiketli görüntü olsa bile LoRA modülü üzerinden intrinsic image üretilebiliyor
Kontrol deneylerinde model kalitesi ile geri kazanılan intrinsic doğruluğu arasında pozitif korelasyon doğrulandı
Modele ve domaine göre intrinsic çıkarım sonuçları farklılaşıyor
- VQGAN / Autoregressive / FFHQ: normal ve depth orta kalite; albedo ve shading yüksek kalite
- StyleGAN-v2 / GAN / FFHQ: normal, albedo ve shading yüksek kalite; depth orta kalite
- StyleGAN-v2 / GAN / LSUN Bed: normal, depth, albedo ve shading’in tamamı yüksek kalite
- StyleGAN-XL / GAN / FFHQ: normal, albedo ve shading yüksek kalite; depth orta kalite
- StyleGAN-XL / GAN / ImageNet: normal, depth, albedo ve shading’in hiçbiri çıkarılamıyor
- Stable Diffusion-UNet / Diffusion / Open: normal, depth, albedo ve shading’in tamamı yüksek kalite
- Stable Diffusion / Diffusion / Open: normal, depth, albedo ve shading’in tamamı yüksek kalite
Stable Diffusion 2.1’i genişleten yöntemin intrinsic map’leri pseudo ground truth ile karşılaştırılıyor; karşılaştırma öğeleri surface normals, depth, albedo, shading

1 yorum

GN⁺ 2024-02-25

Hacker News yorumları

Sora’ya yönelik beklentinin bu kadar yüksek olmasının nedenlerinden biri, bazı videolara bakınca içeride fiziksel dünyanın bir simülasyonu çalışıyormuş ve video da o 3D sahnenin kamerayla çekilmiş hâliymiş gibi hissettirmesiydi.
Arka planda yalnızca farklı video parçalarını birbirine eklemekten çok daha fazlasının döndüğüne dair bir sezgi vardı; bu makale de bunun kanıtı gibi görünüyor.
Sabit görüntü üreteçlerinde bile modelin fiilen bir 3D sahneyi render edip fotoğraf çekmeyi öğrendiği ortaya çıkıyor. Bir 3D motor yapmak amaçlanmamış; yalnızca bir görüntü yığını lineer cebire atılıp optimize edilmişken ortaya bir dünya simülatörü çıkmış olması şaşırtıcı.
- İnsanlar 3D bir dünyada yaşar; eğitim verileri de aynı sahneyi farklı açılardan gören sürekli bir çift gözlü görsel akıştır. Buna karşılık Sora dünyayı televizyon izleyerek öğrenmiş sayılır; bu yüzden 3D sahnelerin örtük temsilini ve render etmeyi öğrenmek için belki daha çok video oyunu oynaması gerekebilir.
- İnsanların hâlâ gerçekte yapılan şeyin yalnızca video parçalarını yapıştırmak olduğunu düşünmesi şaşırtıcı.
- “Bir 3D motor yapmaya çalışmıyorduk; görüntüleri lineer cebire atıp optimize ettik, ortaya bir dünya simülatörü çıktı” sözü, kişileştirilmiş evrimin zihin hakkında söyleyebileceği bir şeye benziyor.
- Yapımcının seçtiği videolarda bile kedinin bir anda beşinci bacağının çıkıp hemen kaybolduğu bir sahne vardı; böyle bir olgunun bu iyimser anlatıyla nasıl bağdaştığını merak ediyorum.
- Sinir ağları lineer cebir değildir. Bugün çoğunun ReLU aktivasyonu kullandığını varsayarsak, sinir ağlarının özü yarı lineer bir yapıdır ve gücünü bu yarım yamalak lineerlikten alır.
İsim, Bojack Horseman’daki kurgusal yarışma programı Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!’tan geliyor.
https://bojackhorseman.fandom.com/wiki/Hollywoo_Stars_and_Ce...!
- O programı gerçekten çok sevdiğim için dizüstü bilgisayarıma çıkartmasını bile yapıştırdım. Bojack Horseman’ı izlemediyseniz, komik ama aynı zamanda samimi ve varoluşçu hissi güçlü bir yapım; zevkinize uyarsa kesinlikle izlemeye değer.
  Tamamlanmış bir animasyon paketi olarak Futurama’dan çok daha iyi olduğunu düşünüyorum. İçinde bağ kurulabilecek çok derinlik var ve sert vuruyor, ama yeterince hafif kalmayı başarıyor; izledikten sonra kendinizi iyi hissediyorsunuz.
  Artık filmtech tarafında çalıştığıma göre Hollywoo çıkartması daha da yakışır oldu.
- Sırf başlığı görünce bu yazıya oy verdim.
- Bu belirli yarışma programı başlığını oldukça sık alıntılıyorum; anlayan pek kişi olmadığı için sadece tuhaf biri gibi görünmem üzücü.
- Program içinde sürekli HSaCWDTKDTKTLFO diye anmaları da komik. Uzun kısaltmanın tamamını, kısa bir kısaltmaymış gibi tek tek okumaları, dizideki en sevdiğim tekrar eden şaka olabilir.
- Kendi insanlarımı bulmuş gibi hissediyorum. Bu diziyi herhâlde 6 kez izlemişimdir.
Unity High Definition Rendering Pipeline test projesinden G-buffer çıkarmaya çalıştığım zamanları hatırlattı: https://www.youtube.com/watch?v=Fwtc694qNUM
Yine de bu makalenin gerçekten bir şeyi kanıtlayıp kanıtlamadığından emin değilim. Burada devasa bir UNet LoRA modeli eğitiliyor; bunun mevcut modelden bir şeyi “çıkarmak” mı olduğu, yoksa gecikmeli render hattından çıkabilecek kanalları üreten yeni bir model oluşturmak mı olduğu belirsiz.
Normaller, albedo ve derinliği birleştiren deferred rendering, 3D sahne oluşturmanın pek çok tekniğinden yalnızca biridir; video oyunlarında bile 2000’lerin başındaki Xbox için Shrek oyununa kadar kullanılmamıştı (https://sites.google.com/site/richgel99/the-early-history-of...)
Asıl harika olan, görüntü üretim modelinden “kamera”nın dönme ve öteleme matrislerini çıkarabilen bir LoRA modeli olurdu. Bu hem çok daha güçlü bir kanıt olur hem de oldukça kullanışlı görünürdü.
- Ek materyallere bakınca, rastgele başlatılmış bir UNet ile LoRA eğitilen bir deney var. Bu durumda, önceden eğitilmiş Stable Diffusion UNet kullanıldığındaki gibi yüzey normallerini pek çıkaramıyor; bu da model içindeki mevcut özelliklerin performans için önemli olduğunu oldukça açık biçimde gösteriyor.
- Çok iyi bildiğimden değil ama “yeni eğitilen parametreler, üretim modelinin tüm parametrelerinin %0,6’sından az” kısmı bu soruya yanıt veriyor olabilir diye düşünüyorum.
  %0,6 küçük bir sayı gibi geliyor, ama doğru şeyi ölçüp ölçmediğimizi merak ediyorum. Modelin, çıkarmaya çalıştığımız şeyle birebir aynı temsili kodlamış olması şart değil; fakat model boyutu açısından ucuz ve kararlı biçimde normallere, albedoya ve derinliğe eşlenebilecek bir şeyi kodladıysa, bu tek başına bile çok anlamlı görünüyor.
  Hangi baz vektörlerini kullandığı önemli değil; benim temsillerime nasıl eşleneceğini bilmem yeterli.
Makaleyi gözden geçirdim ama birçok kısmı bana zor geldi. Görüntü üretimi yapan yapay zekaya aşina olmayan biri olarak, kilit cümle gibi görünen “I-LoRA modulates key feature maps to extract intrinsic scene properties such as normals, depth, albedo, and shading, using the models' existing decoders without additional layers, revealing their deep understanding of scene intrinsics” ifadesinin tam olarak ne anlama geldiğini merak ediyorum.
“Sahnenin içsel özelliklerini çıkarmak için kilit özellik haritalarını modüle etmek” ne demek, ek kod çözme katmanları olmadan bu tür sahne özelliği görüntülerini nasıl ürettiklerini anlamak istiyorum.
- Diyelim ki 1 milyar parametreli bir sinir ağınız var; buna şuraya buraya yaklaşık 5 milyon parametre ekleyip LoRA yöntemiyle yalnızca yeni parametreleri eğitmeye devam ediyor, temel ağa dokunmuyorsunuz. Böylece sahne özelliklerini tahmin eden modüle edilmiş bir ağ hâline geliyor.
  İlginç olan, çok az ek parametre kullanılması; bu da orijinal ağın zaten o noktaya epey yakın olduğu anlamına geliyor gibi görünüyor.
Toyota veya Adobe'nin bu isimde bir araştırmayı neden fonladığını bilmiyorum ama gerçekten hoşuma gidiyor. Bilime yeniden biraz oyunculuk dönse güzel olur
Daha somut olarak, “az sayıda etiketli görüntüyle optimize edilmiş, modelden bağımsız bir yaklaşımın Diffusion modelleri, GAN'ler, Autoregressive modeller gibi çeşitli üretici mimarilere uyum sağladığı” açıklamasına bakınca, bunun tamamen görsel-uzamsal bir araç olup olmadığını merak ediyorum
Örnekler tesadüfen görsel olmakla kalmıyor da, bunu metin modellerine genişletmenin bir yolu yok mu? Bu tür bir yorumlanabilirlik yaklaşımını ilk kez görüyorum ve çok etkileyici
- Dil modellerindeki olgusal bilgileri düzenleyen çalışmalar da var. https://rome.baulab.info/
- Toyota veya Adobe'nin bilgisayarlı görü araştırmalarını neden fonladığını gerçekten anlamıyor musun?
- İhtiyacımız olduğunu bilmediğimiz Bojack Horseman göndermesi
Epey şaşırtıcı. Bu modeller yalnızca çözülemez milyarlarca boyutlu hiperdüzlemlerde sihir yapmıyor; gerçekten de insanların yorumlayabileceği temsiller öğreniyorlar demek
- Eski bir 3D grafik mühendisi olarak, içinde albedo olması hem beklenebilir hem de gerçekten etkileyici
  Fizik tabanlı rendering'in temel bileşenleri konum, yüzey normali, gelen ışık ve en azından albedo ile yansıtıcılık/pürüzlülük gibi yüzey malzemesi özelliklerinden biridir. Konum, görüntünün XY'sinden ve derinlikten türetilebilir
  Yapay zekanın derinliği modellemesi oldukça beklenebilir; yüzey normalleri de derinliğin yerel bir evrişimi gibi görülebilir. Ama gelen ışıktan ayrıştırılmış albedoyu modellemesi harika. Yansıtıcılığın da bir yerlerde saklı olup olmadığını merak ediyorum
- Üretici modellerin oldukça karmaşık bir iç dünya modeline sahip olduğuna dair çok kanıt olmasına rağmen, hâlâ bunların sadece “stokastik papağanlar” olduğunu ve “hiçbir şeyi gerçekten anlamadığını” iddia eden insanların olması şaşırtıcı
Bu, VR ya da uzamsal bilişim için iyi haber. Model fiziksel dünyayı makalenin gösterdiği kadar anlıyorsa, tek bir sahneden iki projeksiyon üretmek çok zor bir talep gibi gelmiyor. Bundan sonrası gerçekten heyecan verici
Bu gerçek görüntülerden albedo ve aydınlatmayı tahmin edebiliyorsa, umarım biri yeniden aydınlatılabilir Gaussian splatting sahneleri yapar. Dinamik aydınlatma, fotoğraflardan oluşturulan 3D taramaların kullanım alanını büyük ölçüde genişletir; ama o alanda henüz “iyi” diyebileceğim sonuçlar görmedim
- Gerçek görüntüleri gerçekten kullanabiliyor muyuz? Mümkünse gerçek görüntülerden derinlik haritası çıkarmak en faydalı uygulama gibi görünüyor
Şüpheci davranmak istemem ama görüntü üretim şirketlerinin veri kümelerine normal map gibi şeyler koyup güçlendirme yapmadığını nasıl bilebiliriz, merak ediyorum
Bu makalenin doğrulanabilir açık kaynak modelleri ele aldığını anlıyorum; ama daha gelişmiş modellerin gizli sosu böyle bir şey olabilir mi?
- Bunun için normal map görüntülerini orijinal görüntülerle eşleştirip eğitmek gerekir. Bildiğim kadarıyla bu yaygın bir eğitim tekniği değil ve bu yetenek birden fazla açık modelde ortaya çıkıyor gibi görünüyor
Üretici modellerin algısal yeteneklerinin insanlardan daha iyi olup olmadığını, insanların kandığı optik illüzyonlarla test etmek ilginç olurdu. Örneğin Ponzo illüzyonu gibi durumlarda derinliği doğru değerlendirip değerlendirmediğini merak ediyorum

Üretici modeller ne biliyor? Gerçekten biliyor mu?

Araştırma sorusu ve LoRA yaklaşımı

Geri kazanım sonuçları ve modellere göre farklar

İlgili okumalar

1 yorum

Hacker News yorumları