2 puan yazan GN⁺ 2024-03-19 | 1 yorum | WhatsApp'ta paylaş

Stable Video 3D: Tek bir görüntüden yüksek kaliteli yeni görünüm sentezi ve 3D üretimi

  • Stable Video Diffusion tabanlı üretici model Stable Video 3D (SV3D) yayımlandı. Video kalitesi ve görünüm tutarlılığı önemli ölçüde iyileştirildi
  • İki varyant içeriyor: SV3D_u ve SV3D_p
    • SV3D_u, kamera koşullandırması olmadan tek bir görüntü girdisine dayalı yörünge videosu üretir
    • SV3D_p, tek bir görüntü ile yörünge görünümlerinin her ikisini de kabul ederek, belirtilen kamera yolu boyunca 3D video üretme yeteneğini genişletir
  • Stable Video 3D, ticari amaçlarla Stability AI üyeliği üzerinden kullanılabiliyor; ticari olmayan kullanım için ise model ağırlıkları Hugging Face'ten indirilebiliyor ve araştırma makalesi incelenebiliyor

Video Diffusion'ın avantajları

  • Stable Video Diffusion image-to-video diffusion modeline kamera yolu koşullandırması eklenerek, Stable Video 3D nesnenin çoklu görünüm videolarını üretebilir
  • Video Diffusion modelinin kullanımı, Stable Zero123'te kullanılan image diffusion modeline kıyasla, üretilen çıktılarda genelleme ve görünüm tutarlılığı açısından önemli avantajlar sağlar
  • Ayrıca Stable Video 3D'ün güçlü yeteneklerinden yararlanılarak, nesne etrafında keyfi yörüngeler üreten geliştirilmiş bir 3D optimizasyonu önerilmektedir

Yeni görünüm üretimi

  • SV3D, özellikle yeni görünüm sentezi (NVS) alanında önemli bir ilerleme sunuyor
  • Mevcut yaklaşımlar çoğu zaman sınırlı bakış açıları ve çıktılarda tutarsızlık sorunlarıyla karşılaşırken, SV3D verilen herhangi bir açıdan tutarlı görünümler sağlar
  • Bu yetenek yalnızca poz kontrol edilebilirliğini artırmakla kalmaz, aynı zamanda çoklu görünümler arasında nesnenin tutarlı görünümünü garanti ederek gerçekçi ve doğru 3D üretimin kritik yönlerini daha da geliştirir

3D üretimi

  • SV3D, çoklu görünüm tutarlılığından yararlanarak 3D Neural Radiance Field (NeRF) ve mesh temsillerini optimize eder; böylece yeni görünümlerden doğrudan üretilen 3D mesh kalitesini artırır
  • Bunun için, tahmin edilen görünümlerde görünmeyen bölgelerin 3D kalitesini daha da iyileştirmeye yönelik mask score distillation sampling loss tasarlanmıştır
  • Ayrıca SV3D, baked lighting sorununu azaltmak için 3D şekil ve doku ile birlikte optimize edilen ayrık bir aydınlatma modeli kullanır

1 yorum

 
GN⁺ 2024-03-19
Hacker News görüşleri
  • İlk kullanıcı, 4090 ekran kartı (24GB VRAM) ile Stable Video 3D (SV3D) modelini denemiş ancak bellek yetersizliği nedeniyle 1 dakikadan uzun süre çalıştıktan sonra çökme yaşamış. Betiği ayarlayıp aynı anda üretilen kare sayısını azaltınca üretim başarılı olmuş; VRAM kullanımı en fazla 19.5GB, süre ise 225 watt'ta 1 dakika 25 saniye olmuş.

    Stable Video 3D (SV3D): Durağan bir görüntüyü girdi olarak alıp ilgili nesnenin yörüngesel videosunu üreten, Stable Video Diffusion tabanlı bir üretim modeli.

  • İkinci kullanıcı, SV3D'nin gerçekten 3D model çıktı verip veremediğini, yoksa yalnızca nesnenin farklı açılardan nasıl görüneceğine dair görseller mi ürettiğini merak ediyor.
  • Üçüncü kullanıcı, gösterilen animasyonlar temsiliyse üretilen mesh'in 3D yazıcıda kullanılabilecek kadar iyi olabileceğini düşünüyor ve deney sonuçlarını bekliyor.
  • Dördüncü kullanıcı, SV3D'yi çalıştırmak için gereken donanım veya bellek gereksinimlerini soruyor.
  • Beşinci kullanıcı, girdide birden fazla görsel gerekip gerekmediğini, denenebilecek bir demo URL'si olup olmadığını merak ediyor; ayrıca "tek görsel girişi" ifadesinin birden fazla görsel anlamına gelip gelmediğini soruyor.
  • Altıncı kullanıcı, tüm örneklerin plastik çocuk oyuncağı gibi göründüğünü belirtiyor ve bunun başka nesneleri (insanlar, kumaşlar, binalar, bitkiler, dağlar, makine parçaları vb.) nasıl işleyeceğini merak ediyor.
  • Yedinci kullanıcı, demo animasyonunu çok zekice ve tatmin edici buluyor.
  • Sekizinci kullanıcı, bu tür bir teknolojinin mimari tasarımda kullanılabilir hale gelmesini umuyor.
  • Dokuzuncu ve onuncu yorumlar sırasıyla "[dead]" ve "[flagged]" olarak işaretlendiği için içerikleri bilinmiyor.