1 puan yazan GN⁺ 2024-02-25 | 1 yorum | WhatsApp'ta paylaş

INTRINSIC LoRA (I-LoRA)'nın gizli yeteneklerini keşfetmek

  • INTRINSIC LoRA (I-LoRA), VQGAN, StyleGAN-XL, StyleGAN-v2 ve Stable Diffusion gibi üretici modellerin gizli yeteneklerini ortaya çıkarıyor.
  • Bu yöntem, ek katmanlar olmadan modelin mevcut decoder'ını kullanarak yüzeyin temel özellikleri olan normal, derinlik, albedo ve gölgelemeyi çıkarıyor.

Üretici modellerin örtük kavrayışı

  • Üretici modeller, son derece ayrıntılı ve gerçekçi görüntüler sentezleme yeteneğine sahip.
  • Bu modellerin yüzey normalleri, derinlik veya gölge gibi görüntünün içsel özelliklerini örtük olarak öğrendiği düşünülüyor.
  • Bu makale, üretici modellerin gerçekte yüksek kaliteli sahne içsel haritalarını kendi içinde ürettiğine dair güçlü kanıtlar sunuyor.

INTRINSIC LoRA (I-LoRA) tanıtımı

  • INTRINSIC LoRA (I-LoRA), herhangi bir üretici modeli sahne içsel tahmincisine dönüştüren genel amaçlı ve tak-çalıştır bir yaklaşım sunuyor.
  • Ek decoder'lar veya tüm ağın ince ayarı olmadan, özgün üretici ağdan doğrudan sahne içsel haritaları çıkarılabiliyor.
  • Bu yöntem, üretici modelin toplam parametrelerinin %0,6'sından daha azını oluşturan yeni parametrelerle temel özellik haritalarının düşük-rank uyarlamasını (LoRA) kullanıyor.
  • Az miktarda etiketli görüntüyle optimize ediliyor ve Diffusion modelleri, GAN'ler ve otoregresif modeller dahil çeşitli üretici mimarilere uygulanabiliyor.

Çeşitli üretici modellerde sahne içsel çıkarım yeteneğinin özeti

  • Üretici head'i değiştirmeden, çeşitli üretici modellerden yüksek kaliteli içsel özellikler çıkarılabildiği özetleniyor.
  • ✓: İçsel özellikler yüksek kalitede çıkarılabiliyor.
  • ~: İçsel özellikler orta kalitede çıkarılabiliyor.
  • ✗: İçsel özellikler çıkarılamıyor.

I-LoRA ile içsel harita üretimi karşılaştırması

  • Geliştirilmiş Stable Diffusion 2.1 kullanılarak, bu yöntemle üretilen içsel haritalar ile benzer ground truth arasındaki karşılaştırma görsel olarak gösteriliyor.

GN⁺ görüşü

  • INTRINSIC LoRA (I-LoRA), mevcut üretici modellerin örtük yeteneklerini yeni bir düzeye taşıyan yenilikçi bir yaklaşım.
  • Bu çalışma, üretici modellerin yalnızca görüntü üretmenin ötesine geçip gerçek sahnelerin içsel özelliklerini de anladığını göstererek, yapay zekanın görsel kavrayışına dair yeni içgörüler sunuyor.
  • Bu teknoloji; bilgisayarlı görü, grafikler, AR/VR ve daha birçok alanda uygulanma potansiyeline sahip olduğu için, bu alanlardaki araştırmacılar ve geliştiriciler açısından oldukça heyecan verici bir gelişme.

1 yorum

 
GN⁺ 2024-02-25
Hacker News yorumu
  • Sora’ya yönelik coşkulu tepkilerden biri, içinde fiziksel dünyanın bir simülasyonu varmış hissiydi. Bu da perde arkasında sadece farklı videoları birbirine eklemekten daha fazlasının yapıldığını gösteriyor.

    • Modeller 3D sahneleri render etmeyi ve fotoğraf çekmeyi öğreniyor. Biz özellikle bir 3D motor yapmaya çalışmadık; görüntüleri lineer cebire atıp optimize ettik ve bunun sonucunda bir dünya simülatörü ortaya çıktı, şaşırtıcı olan da bu.
  • İsim, Bojack Horseman adlı dizide geçen kurgusal yarışma programı Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!a gönderme yapıyor.

  • Bu, Unity High Definition Rendering Pipeline test projesinde G-buffer çıkarmaya çalıştığım zamanı hatırlattı.

    • Bu makalenin gerçekten bir şeyi kanıtladığından emin değilim. Devasa bir UNET Lora modeli eğitiliyor; dolayısıyla bunun mevcut modelden bir şey “çıkarmak” mı olduğu, yoksa sadece deferred rendering pipeline’dan çıkabilecek türde kanallar üretebilen yeni bir model oluşturmak mı olduğu belirsiz.
  • Görüntü üretici yapay zekaya aşina olmayan biri olarak, makaleyi hızlıca gözden geçirdim ama anlaması zordu.

    • I-LoRA’nın, ek katmanlar olmadan modelin mevcut decoder’ını kullanarak normal, depth, albedo ve shading gibi sahnenin içsel özelliklerini çıkardığı söyleniyor; bunun tam olarak ne anlama geldiğini açıklayabilecek biri var mı?
  • Bu oldukça dikkat çekici. Modeller gerçekten insanların anlayabileceği temsilleri öğreniyor; yalnızca bizim çözemediğimiz milyarlarca boyutlu hiper düzlemlerde gerçekleşen bir tür sihir yapmıyorlar.

  • Bu araştırma VR (veya uzamsal bilişim) için iyi haber. Model fiziksel dünyayı iyi anlıyorsa, bir sahnenin iki projeksiyonunu üretmek zor görünmüyor. Sırada ne çıkacağını görmek için gerçekten heyecanlıyım.

  • Bu teknik gerçek görüntüleri alıp albedo ve aydınlatmayı tahmin edebiliyor. Keşke biri bunu kullanarak yeniden aydınlatılabilir Gaussian splatting sahneleri oluştursa. Dinamik aydınlatma, fotoğraflardan oluşturulan 3D taramaların kullanım alanını büyük ölçüde genişletirdi ve henüz “iyi” denebilecek sonuçlar görmedim.

  • Bu, görüntüler için GPT gibi bir şey mi? Bir üretici model alınıyor, LoRA ile surface normal gibi alt görevlere ince ayar uygulanıyor ve ardından bu modellerin bu temsilleri özünde öğrenmiş olduğu sonucuna varılıyor. Sonuçlar da supervised yaklaşımlardan daha iyi görünüyor.

  • Şüpheci olmak istemem ama normal map vb. şeylerin görüntü üretimi yapan şirketlerin veri setlerinde bolca yer almadığını nasıl bilebiliriz?

    • Makale, bunu doğrulayabileceğimiz açık kaynaklı modellere bağlantı veriyor; ama bu aynı zamanda daha gelişmiş modellerin gizli bileşenlerinden biri de olabilir.
  • Örneğin normal map nasıl elde ediliyor? Yapay zeka görüntüyü üretmeden önce bunu oluşturup sonra bunları iç durumundan mı okuyor?