SMERF: Akışla aktarılabilen, bellek açısından verimli radyans alanı

(smerf-3d.github.io)

1 puan yazan GN⁺ 2023-12-14 | 1 yorum | WhatsApp'ta paylaş

SMERF, büyük 3D sahneleri web tarayıcısında gerçek zamanlı keşfetmeye yönelik bir görünüm sentezi yöntemidir; 300m²’ye kadar ölçeği ve 3.5mm³ hacimsel çözünürlüğü hedefler
Sahneyi birden çok bağımsız alt modele ayırır ve kamera başlangıç noktasına göre yalnızca gerekli modelleri seçerek, render sırasında hesaplama yükünü ve bellek kullanımını azaltır
Önce Zip-NeRF çevrimdışı radyans alanını eğitir; ardından RGB tahminleri ile hacim render ağırlıkları arasındaki farkı kullanarak SMERF’e distilasyon yapar ve kaliteyi artırır
Gerçek zamanlı yeni bakış açısı sentezinde standart benchmark’ta 0.78dB, büyük sahnelerde 1.78dB iyileşme göstermiştir; kare render’ı da en yeni radyans alanı modellerinden üç haneli katlar seviyesinde daha hızlıdır
Tarayıcı tabanlı 6DOF navigasyon desteğiyle, sıradan akıllı telefonlar ve dizüstü bilgisayarlar gibi tüketici cihazlarında bile büyük sahnelerin gerçek zamanlı gezilmesini sağlar

Büyük sahnelerde gerçek zamanlı keşfin darboğazı

Gerçek zamanlı görünüm sentezi teknikleri hızla gelişti; etkileşimli kare hızlarında bile fotoğrafa yakın sahne render’ı mümkün hale geldi
Ancak rasterizasyona iyi uyan açık sahne temsilleri ile ray marching tabanlı sinirsel alanlar (neural fields) arasında belirgin bir ödünleşim sürüyor
- En yeni sinirsel alan yöntemleri kalite açısından açık temsilleri geride bıraksa da, gerçek zamanlı uygulamalar için hesaplama maliyetleri yüksektir
SMERF, büyük sahnelerde gerçek zamanlı yöntemler arasında en üst düzey doğruluğu hedefleyen bir görünüm sentezi yaklaşımıdır
- 300m²’ye kadar alan
- 3.5mm³ hacimsel çözünürlük
- Web tarayıcısı içinde 6DOF keşif
- Sıradan akıllı telefonlar ve dizüstü bilgisayarlarda gerçek zamanlı render

Alt model tabanlı temsil ve distilasyon eğitimi

Büyük, çok odalı sahneleri birden çok bağımsız alt modele bölerek ifade gücü sağlar
- Her alt model sahnenin farklı bir bölgesine atanır
- Render sırasında kullanılacak alt model, kamera başlangıç noktasına göre seçilir
Karmaşık bakış açısına bağlı etkileri ele almak için her alt modelin içine ızgaraya hizalanmış deferred MLP parametrelerinin ek kopyaları yerleştirilir
- Bu parametreler kamera başlangıç noktasına göre üç doğrusal enterpolasyonla hesaplanır
Her alt model tüm sahneyi temsil eder, ancak yalnızca kendisine bağlı ızgara hücrelerini yüksek çözünürlükte modeller
- Bu, alt model başına yerel koordinatları büzüştüren bir yöntemle uygulanır
Görüntü doğruluğu distilasyon (distillation) ile artırılır
- Önce en yeni çevrimdışı radyans alanı olan Zip-NeRF eğitilir
- Öğretmen modelin RGB renk tahminleri, SMERF için denetim sinyali olarak kullanılır
- Önceden eğitilmiş öğretmenin hacimsel yoğunluk değerleri, öğretmen ile öğrencinin hacim render ağırlıkları arasındaki farkı en aza indirmek için kullanılır

Performans sonuçları ve açık materyaller

SMERF, gerçek zamanlı yeni bakış açısı sentezinde mevcut en iyi seviyeyi aşar
- Standart benchmark’ta 0.78dB iyileşme
- Büyük sahnelerde 1.78dB iyileşme
- En yeni radyans alanı modellerinden kare render’ında üç haneli katlar daha hızlı
Gerçek zamanlı etkileşimli görüntüleyici demosu Berlin, NYC, Alameda, London, Gardenvase, Bicycle, Kitchen Lego, Stump, Office Bonsai, Full Living Room, Kitchen Counter, Treehill & Flower sahnelerini içerir
Açık materyaller olarak Paper, Video, Code sunulmaktadır
SMERF modelleri, Mip-NeRF 360 ve Zip-NeRF sahnelerinde eğitilmiş Zip-NeRF checkpoint’lerinden distile edilmiştir
- İki veri kümesi ve checkpoint’ler CC-BY 4.0 lisansı ile yayımlanmıştır
- Mip-NeRF 360 checkpoint’leri nicel ve nitel sonuçlarda kullanılır; Zip-NeRF checkpoint’leri ise 50,000 steps eğitilmiştir
- Zip-NeRF fisheye materyalleri Alameda, Berlin, London, NYC’yi içerir; nitel sonuçlarda kullanılır ve 100,000 steps eğitilmiştir
- Zip-NeRF undistorted materyalleri nicel sonuçlarda kullanılır ve 100,000 steps eğitilmiştir

1 yorum

GN⁺ 2023-12-14

Hacker News yorumları

Berlin demosundaki banyo duvar aynası, sanki yan odadaki mutfağa açılıyormuş gibi görünüyor
Derinlik tahmin algoritması paralaks kullanıyor gibi; aynayı pencere sanmasından kaynaklanan bir durum gibi duruyor
Mutfak tarafında, aynanın arkası mutfağın içine doğru uzanıyormuş gibi bulanık bir kütle oluşuyor, ama o bulanıklığın ötesinden iki oda da görülebiliyor
Oldukça ürperticiydi; duvarlardan geçen bir hayalet olmuşum gibi hissettirdi
- NYC sahnesindeki buzdolabında, bakış açısına göre speküler aydınlatma efekti çok akıcı biçimde değişiyor; buzdolabının “içine” girince aslında gri ve beyaz tonlarda bulanık bir 3D sahnenin tamamını oluşturduğunu görüyorsunuz
  Bu, pencere ışığının metale yansımasını çok doğru biçimde taklit ediyor ve buzdolabının içinden tüm odayı “dışarıya” doğru görmek de mümkün
  Aynı sahnedeki yatak odası boy aynasında da benzer şekilde, aynanın arkasında sanal bir ayna odası oluşturulmuş; içine bakınca derinlik hissi veriyor
  Bu teknolojinin ortaya çıkardığı çok havalı ve benzersiz bir sonuç
- Kitaplığın içine girerseniz nihai Matthew McConaughey deneyimini de yaşayabilirsiniz
- Berlin oturma odasındaki TV’nin içinden noclip ile geçince hoş bir şekilde ürpertici oluyor
- Çok yansıtıcı yüzeylerde fotogrametri ile birebir aynı zayıflıklara sahip
Aman Tanrım, gerçekten inanılmaz
Matterport’un bunu alıp ilerletmesi ya da emlak piyasasını sarsacak bir startup’ın çıkması işten bile değil
Akıllı telefonda bu kadar akıcı çalıştığına inanamıyorum
Geri bildirim olarak, telefonun pusulası ve jiroskobuyla hareket edilen bir mod olsa daha doğal hissettirebilir
Parmakla kontrol ederken xyz boyutlarında nasıl hareket etmem gerektiğini anlamak biraz tuhaftı
Başkalarının da dediği gibi, bir VR modu olursa muazzam olur
- Bunun gerçekten emlak piyasasının istediği özellik olup olmadığından emin değilim
  Özenle sahnelenmiş ve seçilmiş fotoğraflar kullanmalarının nedeni, insanları gerçekten evi görmeye getirmek
  Sanal gerçeklikte gördü diye birinin eve âşık olmasının zor olduğunu düşünüyorum
- Geri bildirim için teşekkürler
  Hareket kullanıcı deneyiminin daha da iyileştirilebileceğini düşünüyorum
  Başka bir gün çözülmesi gereken bir mesele
2 yıllık S21 FE üzerinde bile etkileyici derecede iyi çalışıyor
Mekânı dolaştıkça daha fazla görseli stream etme biçimi gerçekten etkileyiciydi; Berlin demosundaki TV yansıması da harikaydı
Yine de tüm görselleri yüklemek epey uzun sürdü ve ilk yaklaşık 40 görselin tamamı yüklenmeden sahne render edilmedi
Görseller geldikçe kısmi render başlatmak mümkün mü, yoksa ilk büyük render’dan önce hepsini beklemek mi gerekiyor merak ediyorum
- Şu anda yüklenen şeylere “görsel” demek doğru değil
  Bu yaklaşımın önceki sürümü olan MERF, özellik vektörlerini PNG görsellerinde saklıyordu; burada ise bunlar ikili dizilerle değiştirildi
  Ne yazık ki ilk kareyi render etmek için bu dizilerin hepsinin yüklenmesi gerekiyor
  Yine de belirttiğiniz gibi SMERF’in büyük payload boyutu bir zayıflık
  10 kat sıkıştırmanın bir yolunu bulursak deneyim tamamen değişir
Gerçekten şaşırtıcı. fulllivingroom demosu üzerinden birkaç şeyi merak ediyorum
Şahsen FPS modunu daha çok beğeniyorum
1. Girdi görselleri kaç tane?
2. Böyle bir modeli hesaplamak ne kadar sürüyor?
3. Çeşitli aşamalar da dahil, tarayıcıya yönelik modele hazırlamak ne kadar sürüyor?
4. VR’da da denediniz mi?
- Beğenmenize sevindim
  1. Yanlış hatırlamıyorsam yaklaşık 100~150 civarında
    Bu sahne mip-NeRF 360 benchmark’ının bir parçası ve ilgili proje sitesinden indirilebilir: https://jonbarron.info/mipnerf360/
  2. Sahneye bağlı olarak 12~48 saat kadar sürüyor
    Eğitim için 8x V100 veya 16x A100 kullanıyoruz
  3. Varlık hazırlama süresi 2)’ye dahil
    Ayrıntılı bir kırılım yok ama kabaca 50/50 civarı
  4. Henüz değil
    Hevesli bir hacker JavaScript kodunu değiştirip kendi deneyebilir gibi görünüyor
    Tarayıcı DevTools’u açarsanız kodun tamamı orada
- Sorduğunuz şeyle birebir aynı değil ama yakın zamanda Gaussian Splatting kullanan bir VR örneği gördüm
  İlginç zamanlar
  https://twitter.com/gracia_vr/status/1731731549886787634
  https://www.gracia.ai
“Researchers create open-source platform for Neural Radiance Field development” (2023)
https://news.ycombinator.com/item?id=36966076
NeRF Studio’nun Included Methods, Third-party Methods bölümleri:
https://docs.nerf.studio/#supported-methods
Neural Radiance Field:
https://en.wikipedia.org/wiki/Neural_radiance_field
Bu teknolojiyi Two Minute Papers üzerinden takip ediyorum ve bizzat kullanacağım günü sabırsızlıkla bekliyorum
Büyükbabam 2 yıl önce vefat etti; geriye dönüp bakınca, bu demo gibi kullanmak üzere fotoğraf çekmişim sayılır
Harika bir çalışma
- 2D fotoğrafları akıllı telefonla çektiğimiz kadar kolay ve doğal biçimde 3D anıları yakalamanın mümkün olması hayalim
  Bir gün mümkün olacak
Gerçekten şaşırtıcı bir çalışma; bunu telefonun web tarayıcısında izliyor olmak müthiş bir şey
Masaüstünde NYC sahnesine en yüksek kalitede bakınca, örneğin tezgâh ve rafların üzerindeki nesnelerin kalitesinin epey düşük olmasına şaşırdım
Bu yüzden Lego modelini açtım; o taraf çok ayrıntılı olduğu için bunun yöntemin kendi sınırı gibi görünmediğini düşündüm
Bunun giriş fotoğraflarının kalitesinden mi, yoksa başka bir nedenden mi kaynaklandığını merak ediyorum
- Uzamsal çözünürlüğün etkisi daha büyük
  Alan büyüdükçe sabit bir çözünürlüğü, örneğin 1 mm^3’ü korumak için daha fazla voxel gerekir
  Bir noktadan sonra daha büyük sahneleri temsil edebilmek için uzamsal çözünürlükten ödün vermek gerekir
  İkinci sınır, damıtmada kullanılan öğretmen modeldir
  Zip-NeRF(https://jonbarron.info/zipnerf/) iyi ama kusursuz değil
  SMERF yeniden oluşturma kalitesinin üst sınırı, öğretmen olan Zip-NeRF tarafından belirlenir
Emlakçıların fotoğraf yükleyip satılık ev için bir walkthrough oluşturduğu bir pazar var gibi görünüyor
- https://matterport.com/
- Luma tarafında da benzer bir şey yapılmış: https://apps.apple.com/app/luma-flythroughs/id6450376609?l=e...
Bu tür gezilebilir 3D walkthrough’ları yakalamak, işlemek ve barındırmak için açık kaynak bir araç zinciri olup olmadığını merak ediyorum
Örneğin açık kaynak bir Matterport gibi
- Bildiğim kadarıyla henüz yok
  Mevcut akış, DSLR ile yakalamak, COLMAP ile kamera parametrelerini tahmin etmek, bir kod tabanıyla öğretmen modeli eğitmek, bizim kod tabanımızla SMERF’i eğitmek ve modeli web görüntüleyicide render etmek şeklinde
  Bir fırsat gibi duruyor
- Yakalama için özel bir araç zinciri şart değil; veri olması yeterli
  Verileri şimdi toplayıp, daha iyi araçlar çıktığında o zaman işleyebilirsiniz
  Fotogrametri ve NeRF çekim kılavuzları, genel olarak gereken işe doğrudan uygulanabilir
Bunlarda görünen şey, çok doğru, tek bir gezilebilir 3D görüntüye daha yakın
Henüz görmediğim şey; özellik ve nesne algılama, engelleme ve çıkarma
Daha verimli ve stream edilebilir bir codec gerektiğinde, analiz edilmesi kolay bir yapının da doğal olarak talep edilmesini umuyorum
- 3D anlama alanı hâlâ çok erken aşamada
  Bu alanda iyi araştırmalar yürütülüyor ama gidilecek uzun yol var
  SMERF, gerçekçi görüntüler render etmeye yönelik “görünüm sentezi” ile ilgili; anlamsal anlama veya segmentasyon denemiyor
- Şunu mu kastediyorsun? https://jumpat.github.io/SA3D/
  DuckDuckGo’ya “nerf sam segment 3d” yazarak buldum
- UC Berkeley’den NerfStudio ekibinin yaptığı LERF çalışmasına bakılabilir
  SMERF farklı bir problemi ele alıyor, ancak anlamsal bilgi ve algılamayı entegre etmenin kesinlikle yolları var

SMERF: Akışla aktarılabilen, bellek açısından verimli radyans alanı

Büyük sahnelerde gerçek zamanlı keşfin darboğazı

Alt model tabanlı temsil ve distilasyon eğitimi

Performans sonuçları ve açık materyaller

İlgili okumalar

1 yorum

Hacker News yorumları