Stable Video 3D: Tek bir görüntüden yüksek kaliteli yeni görünüm sentezi ve 3D üretimi
- Stable Video Diffusion tabanlı üretici model Stable Video 3D (SV3D) yayımlandı. Video kalitesi ve görünüm tutarlılığı önemli ölçüde iyileştirildi
- İki varyant içeriyor: SV3D_u ve SV3D_p
- SV3D_u, kamera koşullandırması olmadan tek bir görüntü girdisine dayalı yörünge videosu üretir
- SV3D_p, tek bir görüntü ile yörünge görünümlerinin her ikisini de kabul ederek, belirtilen kamera yolu boyunca 3D video üretme yeteneğini genişletir
- Stable Video 3D, ticari amaçlarla Stability AI üyeliği üzerinden kullanılabiliyor; ticari olmayan kullanım için ise model ağırlıkları Hugging Face'ten indirilebiliyor ve araştırma makalesi incelenebiliyor
Video Diffusion'ın avantajları
- Stable Video Diffusion image-to-video diffusion modeline kamera yolu koşullandırması eklenerek, Stable Video 3D nesnenin çoklu görünüm videolarını üretebilir
- Video Diffusion modelinin kullanımı, Stable Zero123'te kullanılan image diffusion modeline kıyasla, üretilen çıktılarda genelleme ve görünüm tutarlılığı açısından önemli avantajlar sağlar
- Ayrıca Stable Video 3D'ün güçlü yeteneklerinden yararlanılarak, nesne etrafında keyfi yörüngeler üreten geliştirilmiş bir 3D optimizasyonu önerilmektedir
Yeni görünüm üretimi
- SV3D, özellikle yeni görünüm sentezi (NVS) alanında önemli bir ilerleme sunuyor
- Mevcut yaklaşımlar çoğu zaman sınırlı bakış açıları ve çıktılarda tutarsızlık sorunlarıyla karşılaşırken, SV3D verilen herhangi bir açıdan tutarlı görünümler sağlar
- Bu yetenek yalnızca poz kontrol edilebilirliğini artırmakla kalmaz, aynı zamanda çoklu görünümler arasında nesnenin tutarlı görünümünü garanti ederek gerçekçi ve doğru 3D üretimin kritik yönlerini daha da geliştirir
3D üretimi
- SV3D, çoklu görünüm tutarlılığından yararlanarak 3D Neural Radiance Field (NeRF) ve mesh temsillerini optimize eder; böylece yeni görünümlerden doğrudan üretilen 3D mesh kalitesini artırır
- Bunun için, tahmin edilen görünümlerde görünmeyen bölgelerin 3D kalitesini daha da iyileştirmeye yönelik mask score distillation sampling loss tasarlanmıştır
- Ayrıca SV3D, baked lighting sorununu azaltmak için 3D şekil ve doku ile birlikte optimize edilen ayrık bir aydınlatma modeli kullanır
1 yorum
Hacker News görüşleri