1 puan yazan GN⁺ 2025-09-05 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Voyager, giriş görüntüsü ve kullanıcının belirlediği kamera rotasına dayanarak tutarlı 3D nokta bulutu dizileri üreten yeni bir video difüzyon çatısıdır
  • RGB ve derinlik bilgisini aynı anda üreterek verimli ve doğrudan 3D yeniden yapılandırma sağlar
  • Büyük ölçekli video veri kümesi üretim hattı sunarak elle yapılmış 3D anotasyonlar olmadan çeşitli eğitim verileri elde eder
  • WorldScore benchmark'ında mevcut birçok modele kıyasla 3D tutarlılığı, içerik hizalaması ve çeşitli ölçütlerde üstün performans gösterir
  • Tek veya çoklu GPU üzerinde optimize edilmiş paralel çıkarımı destekler ve gerçek zamanlı demolarla farklı uygulama olasılıklarını gösterir

Proje tanıtımı

  • HunyuanWorld-Voyager, giriş görüntüsü ve kullanıcının belirlediği kamera hareket rotasına dayanarak dünya tutarlılığına sahip (3D-Consistent) nokta bulutu video dizileri üretir
  • Kullanıcılar kamera rotasını serbestçe ayarlayarak dünya keşfi için 3D sahne videoları oluşturabilir
  • RGB ve derinlik (Depth) videolarını aynı anda özelleştirerek üretir; böylece hızlı ve güvenilir 3D yeniden yapılandırma mümkün olur

Mimari

  • Voyager iki temel bileşenle tasarlanmıştır
    • (1) Dünya tutarlı video difüzyon yapısı: küresel sahne tutarlılığını garanti eder ve RGB ile derinliği hizalı biçimde aynı anda üretir
    • (2) Uzun menzilli dünya keşfi: nokta ayıklama, otoregresif çıkarım ve akıcı video örnekleme kullanarak bağlama tutarlı sahne genişletmeyi destekler

Veri motoru

  • Voyager eğitimi için video yeniden yapılandırma hattı tabanlı ölçeklenebilir bir veri motoru ayrıca tasarlanmıştır
    • Rastgele genel videolar için kamera pozu tahmini ve metre tabanlı derinlik kestirimi otomatikleştirilerek, manuel işlem gerektirmeden büyük ölçekli eğitim veri kümeleri üretilebilir
    • Gerçek çekim videoları ve Unreal Engine tabanlı sentetik veriler dahil olmak üzere 100 binden fazla video klipten oluşan bir veri kümesi sunulur

Başlıca özellikler ve demolar

  • Kamera rotası kontrolüne dayalı interaktif video üretimi demosu sunulur
  • Üretilen videoyla bağlantılı 3D nokta bulutu anında yeniden yapılandırılabilir
  • Tek bir görüntüden 3D sahne üretimi ve video-derinlik kestirimi gibi çeşitli kullanım senaryoları gösterilir

Performans karşılaştırması

  • WorldScore benchmark'ında değerlendirilmiştir
    • Voyager, çeşitli kategorilerde (kamera kontrolü, nesne kontrolü, içerik hizalaması, 3D tutarlılığı vb.) üst düzey performans kaydeder
    • Özellikle öznel kalite (Subjective Quality) ve 3D tutarlılığı alanlarında en yüksek puanları alır

Sistem gereksinimleri

  • Tek bir 80GB GPU üzerinde 540p çözünürlüklü video üretimi için en az 60GB bellek gerekir
  • Linux işletim sistemi ve CUDA 12.4 (önerilen 80GB ve üzeri) ortamında en iyi performansı sunar

Paralel çıkarım performansı

  • xDiT tabanlı çoklu GPU paralel çıkarımını destekler
    • 8 adet H20 GPU kullanıldığında, 49 kare 50 adım (512x768) temelinde 288 saniyede sonuç üretir (tek GPU'ya kıyasla 6,69 kat hızlanma)

Kullanıcı arayüzü ve demo

  • Gradio tabanlı gerçek zamanlı demo sunulur
    • Görsel yükleme, kamera yönü seçimi ve prompt metni girişiyle kolayca RGB-D video üretilebilir

Veri motorunun yayınlanması

  • RGB-D video eğitimi için büyük ölçekli ve ölçeklenebilir veri üretim motoru da açık kaynak olarak sunulur

Atıf ve referans

  • ArXiv makalesi: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
  • HunyuanWorld-Voyager, VGGT, MoGE, Metric3D vb. çeşitli açık kaynakların araştırma çıktıları temel alınarak tasarlanmış ve uygulanmıştır

Projenin temel değeri ve farkları

  • Voyager'ın, tek bir görüntüden dünya tutarlılığına sahip 3D video (nokta bulutu tabanlı) çıktıları farklı rotalar boyunca üretebilmesi, onu mevcut çoğu image-to-video üretim projesine göre öne çıkarır
  • Hem RGB hem de derinlik bilgisini üretmesi ve buna eşlik eden büyük ölçekli otomatik veri motorunu sunması sayesinde, gerçek 3D içerik üretimi, sanal ortam geliştirme, dijital ikiz, AIGC uygulamaları gibi birçok sektörde yüksek kullanım potansiyeli taşır

Henüz yorum yok.

Henüz yorum yok.