- Ultra hızlı 3D sahne üretimi için latent diffusion model
- Bir veya daha fazla giriş görüntüsünden 7 saniye içinde yüksek çözünürlüklü 3D sahneler üretebilir
- Büyük ölçekli çoklu görünüm tutarlılığı veri kümesi oluşturularak eğitildi ve mevcut 3D üretim modellerine kıyasla 300 kata kadar daha hızlı
- Mevcut modeller optimizasyon süreci gerektirirken, Bolt3D feed-forward yaklaşımıyla sahneleri anında üretebilir
Mevcut modellerin sınırları ve sorunları
- Mevcut 2D üretim modelleri yüksek kaliteli görüntüler üretebilse de, 3D sahne üretimi zordur
- Mevcut 3D modellerin şu sorunları vardır:
- Karmaşık 3D veri yapılarının işlenmesindeki zorluk
- Yüksek kaliteli gerçek 3D sahne verisinin yetersizliği
- Yüksek hesaplama maliyeti ve yavaş işlem hızı
Bolt3D'nin temel teknikleri ve yapısı
3D temsil yöntemi
- 3D Gaussian temsil yöntemi kullanılır:
- 3D Gaussian; renk, konum, opaklık ve kovaryans matrisi bileşenlerinden oluşur
- 3D Gaussian render işlemi, piksel hizalı bir görüntü olan Splatter Image üzerinden gerçekleştirilir
- Görünmeyen bölgeler de tamamlanarak üretilebilir
Bolt3D üretim süreci
- latent diffusion model ile giriş görüntüsünden 3D sahne tahmin edilir
- Geometry VAE ile geometrik bilgi latent uzaya kodlanır
- Gaussian Head, 3D Gaussian'ın ayrıntılı özelliklerini (opaklık, renk vb.) tahmin eder ve düzeltir
- Yüksek çözünürlüklü 3D sahne için anında render gerçekleştirilir
Model yapısı
- latent diffusion model, 2D görüntü üretim modellerinden geliştirilen bir yapıyı benimser
- Geometry VAE, 3D nokta haritalarını ve kamera pozlarını kodlar
- Gaussian Head, üretilen 3D sahnenin ayrıntılı özelliklerini iyileştirir
Veri kümesi ve eğitim
- Büyük ölçekli çoklu görünüm veri kümesi oluşturuldu:
- CO3D, MVImg, RealEstate10K, DL3DV-7K dahil
- Toplam yaklaşık 300 bin çoklu görünüm sahnesinden oluşur
- Doğru geometrik veri elde etmek için MASt3R yöntemi kullanıldı
- Eğitim süreci:
- Geometry VAE: 256×256 → 512×512 çözünürlükte eğitildi
- Gaussian Head: Splatter Image üretimi düzeltildi
- Latent Diffusion Model: CAT3D modeli temel alınarak ince ayar yapıldı
Deney sonuçları ve performans karşılaştırması
Mevcut modellerle karşılaştırma
- Bolt3D, mevcut Flash3D ve DepthSplat modellerinden daha iyi performans gösterir
- Flash3D ile karşılaştırmada Bolt3D, PSNR metriğinde yaklaşık 3,6 puan daha yüksek sonuç elde etti; SSIM ve LPIPS metriklerinde de iyileşme sağlandı
- DepthSplat modeliyle karşılaştırmada da Bolt3D tüm performans metriklerinde üstünlük gösterdi
- Özellikle yalnızca tek bir giriş görüntüsü olduğunda performans artışı en yüksek seviyedeydi
Optimizasyon tabanlı modellerle performans karşılaştırması
- Bolt3D, mevcut CAT3D gibi optimizasyon tabanlı modellere kıyasla benzer ya da daha iyi performans sunarken 300 kat daha hızlı çalıştı
- CAT3D bir sahne üretmek için yaklaşık 5 dakika gerektirirken, Bolt3D aynı işi yalnızca 6,25 saniyede tamamlayabiliyor
- Performans metrikleri açısından CAT3D, Bolt3D'den biraz daha yüksek PSNR puanı alsa da işlem hızı bakımından Bolt3D açık ara öne çıkıyor
Model yapısı ve mimari iyileştirmeler
Geometry VAE iyileştirmeleri
- Geometrik bilgiye özel VAE kullanımı → genel amaçlı görüntü VAE'lerine göre daha yüksek doğruluk
- Doğrusal olmayan ölçekleme ve derinlik eşleme uygulandı → model performansı arttı
Gaussian Head iyileştirmeleri
- Çoklu görünüm bilgisinin birleştirilmesi ve düzeltilmesi
- Cross-Attention uygulanması → görünmeyen bölgeler de tamamlanarak üretilebilir
Sonuç ve çıkarımlar
- Bolt3D, geometrik bilgi öğrenimi ve feed-forward yaklaşımı sayesinde yüksek hızlı 3D sahne üretimi sağlar
- Mevcut modellere kıyasla hem performans hem hız iyileştirildi
- Çeşitli uygulama alanlarında anında yüksek kaliteli 3D sahne üretimi mümkündür:
- Oyun geliştirme
- Sanal gerçeklik (VR) ve artırılmış gerçeklik (AR)
- Mimari ve tasarım görselleştirme
- Saniye başına 300 kat iyileştirilmiş işlem hızı sayesinde ticarileşme ve ölçeklenme potansiyeli yüksektir
Temel kazanımlar özeti
- 7 saniyenin altında 3D sahne üretimi
- Mevcut modellere göre 300 kat daha hızlı performans
- Yüksek çözünürlüklü ayrıntı seviyesi ve tutarlılık
- Tekli ve çoklu görünümde yüksek performans
- Karmaşık ve eksik sahnelerde bile doğal tamamlama üretimi mümkün
Henüz yorum yok.