Bolt3D - Ultra Hızlı 3D Sahne Üretim Modeli

(szymanowiczs.github.io)

6 puan yazan GN⁺ 2025-03-22 | Henüz yorum yok. | WhatsApp'ta paylaş

Ultra hızlı 3D sahne üretimi için latent diffusion model
Bir veya daha fazla giriş görüntüsünden 7 saniye içinde yüksek çözünürlüklü 3D sahneler üretebilir
Büyük ölçekli çoklu görünüm tutarlılığı veri kümesi oluşturularak eğitildi ve mevcut 3D üretim modellerine kıyasla 300 kata kadar daha hızlı
Mevcut modeller optimizasyon süreci gerektirirken, Bolt3D feed-forward yaklaşımıyla sahneleri anında üretebilir

Mevcut modellerin sınırları ve sorunları

Mevcut 2D üretim modelleri yüksek kaliteli görüntüler üretebilse de, 3D sahne üretimi zordur
Mevcut 3D modellerin şu sorunları vardır:
- Karmaşık 3D veri yapılarının işlenmesindeki zorluk
- Yüksek kaliteli gerçek 3D sahne verisinin yetersizliği
- Yüksek hesaplama maliyeti ve yavaş işlem hızı

3D Gaussian temsil yöntemi kullanılır:
- 3D Gaussian; renk, konum, opaklık ve kovaryans matrisi bileşenlerinden oluşur
- 3D Gaussian render işlemi, piksel hizalı bir görüntü olan Splatter Image üzerinden gerçekleştirilir
- Görünmeyen bölgeler de tamamlanarak üretilebilir

latent diffusion model ile giriş görüntüsünden 3D sahne tahmin edilir
Geometry VAE ile geometrik bilgi latent uzaya kodlanır
Gaussian Head, 3D Gaussian'ın ayrıntılı özelliklerini (opaklık, renk vb.) tahmin eder ve düzeltir
Yüksek çözünürlüklü 3D sahne için anında render gerçekleştirilir

latent diffusion model, 2D görüntü üretim modellerinden geliştirilen bir yapıyı benimser
Geometry VAE, 3D nokta haritalarını ve kamera pozlarını kodlar
Gaussian Head, üretilen 3D sahnenin ayrıntılı özelliklerini iyileştirir

Büyük ölçekli çoklu görünüm veri kümesi oluşturuldu:
- CO3D, MVImg, RealEstate10K, DL3DV-7K dahil
- Toplam yaklaşık 300 bin çoklu görünüm sahnesinden oluşur
- Doğru geometrik veri elde etmek için MASt3R yöntemi kullanıldı
Eğitim süreci:
1. Geometry VAE: 256×256 → 512×512 çözünürlükte eğitildi
2. Gaussian Head: Splatter Image üretimi düzeltildi
3. Latent Diffusion Model: CAT3D modeli temel alınarak ince ayar yapıldı

Bolt3D, mevcut Flash3D ve DepthSplat modellerinden daha iyi performans gösterir
Flash3D ile karşılaştırmada Bolt3D, PSNR metriğinde yaklaşık 3,6 puan daha yüksek sonuç elde etti; SSIM ve LPIPS metriklerinde de iyileşme sağlandı
DepthSplat modeliyle karşılaştırmada da Bolt3D tüm performans metriklerinde üstünlük gösterdi
Özellikle yalnızca tek bir giriş görüntüsü olduğunda performans artışı en yüksek seviyedeydi

Bolt3D, mevcut CAT3D gibi optimizasyon tabanlı modellere kıyasla benzer ya da daha iyi performans sunarken 300 kat daha hızlı çalıştı
CAT3D bir sahne üretmek için yaklaşık 5 dakika gerektirirken, Bolt3D aynı işi yalnızca 6,25 saniyede tamamlayabiliyor
Performans metrikleri açısından CAT3D, Bolt3D'den biraz daha yüksek PSNR puanı alsa da işlem hızı bakımından Bolt3D açık ara öne çıkıyor

Geometrik bilgiye özel VAE kullanımı → genel amaçlı görüntü VAE'lerine göre daha yüksek doğruluk
Doğrusal olmayan ölçekleme ve derinlik eşleme uygulandı → model performansı arttı

Çoklu görünüm bilgisinin birleştirilmesi ve düzeltilmesi
Cross-Attention uygulanması → görünmeyen bölgeler de tamamlanarak üretilebilir

Bolt3D, geometrik bilgi öğrenimi ve feed-forward yaklaşımı sayesinde yüksek hızlı 3D sahne üretimi sağlar
Mevcut modellere kıyasla hem performans hem hız iyileştirildi
Çeşitli uygulama alanlarında anında yüksek kaliteli 3D sahne üretimi mümkündür:
- Oyun geliştirme
- Sanal gerçeklik (VR) ve artırılmış gerçeklik (AR)
- Mimari ve tasarım görselleştirme
Saniye başına 300 kat iyileştirilmiş işlem hızı sayesinde ticarileşme ve ölçeklenme potansiyeli yüksektir