Voyager – Gerçek zamanlı 3D yeniden yapılandırmayı destekleyen interaktif video üretim modeli
(github.com/Tencent-Hunyuan)- Voyager, giriş görüntüsü ve kullanıcının belirlediği kamera rotasına dayanarak tutarlı 3D nokta bulutu dizileri üreten yeni bir video difüzyon çatısıdır
- RGB ve derinlik bilgisini aynı anda üreterek verimli ve doğrudan 3D yeniden yapılandırma sağlar
- Büyük ölçekli video veri kümesi üretim hattı sunarak elle yapılmış 3D anotasyonlar olmadan çeşitli eğitim verileri elde eder
- WorldScore benchmark'ında mevcut birçok modele kıyasla 3D tutarlılığı, içerik hizalaması ve çeşitli ölçütlerde üstün performans gösterir
- Tek veya çoklu GPU üzerinde optimize edilmiş paralel çıkarımı destekler ve gerçek zamanlı demolarla farklı uygulama olasılıklarını gösterir
Proje tanıtımı
- HunyuanWorld-Voyager, giriş görüntüsü ve kullanıcının belirlediği kamera hareket rotasına dayanarak dünya tutarlılığına sahip (3D-Consistent) nokta bulutu video dizileri üretir
- Kullanıcılar kamera rotasını serbestçe ayarlayarak dünya keşfi için 3D sahne videoları oluşturabilir
- RGB ve derinlik (Depth) videolarını aynı anda özelleştirerek üretir; böylece hızlı ve güvenilir 3D yeniden yapılandırma mümkün olur
Mimari
- Voyager iki temel bileşenle tasarlanmıştır
- (1) Dünya tutarlı video difüzyon yapısı: küresel sahne tutarlılığını garanti eder ve RGB ile derinliği hizalı biçimde aynı anda üretir
- (2) Uzun menzilli dünya keşfi: nokta ayıklama, otoregresif çıkarım ve akıcı video örnekleme kullanarak bağlama tutarlı sahne genişletmeyi destekler
Veri motoru
- Voyager eğitimi için video yeniden yapılandırma hattı tabanlı ölçeklenebilir bir veri motoru ayrıca tasarlanmıştır
- Rastgele genel videolar için kamera pozu tahmini ve metre tabanlı derinlik kestirimi otomatikleştirilerek, manuel işlem gerektirmeden büyük ölçekli eğitim veri kümeleri üretilebilir
- Gerçek çekim videoları ve Unreal Engine tabanlı sentetik veriler dahil olmak üzere 100 binden fazla video klipten oluşan bir veri kümesi sunulur
Başlıca özellikler ve demolar
- Kamera rotası kontrolüne dayalı interaktif video üretimi demosu sunulur
- Üretilen videoyla bağlantılı 3D nokta bulutu anında yeniden yapılandırılabilir
- Tek bir görüntüden 3D sahne üretimi ve video-derinlik kestirimi gibi çeşitli kullanım senaryoları gösterilir
Performans karşılaştırması
- WorldScore benchmark'ında değerlendirilmiştir
- Voyager, çeşitli kategorilerde (kamera kontrolü, nesne kontrolü, içerik hizalaması, 3D tutarlılığı vb.) üst düzey performans kaydeder
- Özellikle öznel kalite (Subjective Quality) ve 3D tutarlılığı alanlarında en yüksek puanları alır
Sistem gereksinimleri
- Tek bir 80GB GPU üzerinde 540p çözünürlüklü video üretimi için en az 60GB bellek gerekir
- Linux işletim sistemi ve CUDA 12.4 (önerilen 80GB ve üzeri) ortamında en iyi performansı sunar
Paralel çıkarım performansı
- xDiT tabanlı çoklu GPU paralel çıkarımını destekler
- 8 adet H20 GPU kullanıldığında, 49 kare 50 adım (512x768) temelinde 288 saniyede sonuç üretir (tek GPU'ya kıyasla 6,69 kat hızlanma)
Kullanıcı arayüzü ve demo
- Gradio tabanlı gerçek zamanlı demo sunulur
- Görsel yükleme, kamera yönü seçimi ve prompt metni girişiyle kolayca RGB-D video üretilebilir
Veri motorunun yayınlanması
- RGB-D video eğitimi için büyük ölçekli ve ölçeklenebilir veri üretim motoru da açık kaynak olarak sunulur
Atıf ve referans
- ArXiv makalesi: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
- HunyuanWorld-Voyager, VGGT, MoGE, Metric3D vb. çeşitli açık kaynakların araştırma çıktıları temel alınarak tasarlanmış ve uygulanmıştır
Projenin temel değeri ve farkları
- Voyager'ın, tek bir görüntüden dünya tutarlılığına sahip 3D video (nokta bulutu tabanlı) çıktıları farklı rotalar boyunca üretebilmesi, onu mevcut çoğu image-to-video üretim projesine göre öne çıkarır
- Hem RGB hem de derinlik bilgisini üretmesi ve buna eşlik eden büyük ölçekli otomatik veri motorunu sunması sayesinde, gerçek 3D içerik üretimi, sanal ortam geliştirme, dijital ikiz, AIGC uygulamaları gibi birçok sektörde yüksek kullanım potansiyeli taşır
1 yorum
Hacker News görüşleri
Bu lisansın epey ilginç koşulları var
Bunun AB AI Act yüzünden olduğunu düşünüyorum.
Bizzat compliance kontrol uygulamasını denedim; küçük işletme/açık kaynak/araştırma/müşteri yok olarak işaretlememe rağmen yine de kayıt, bildirim ve çeşitli prosedürler karışık kalıyor.
Taslak kafa karıştırıcıydı, iyileşmiş gibi görünse de hâlâ belirsiz ve bürokratik.
AB gibi yerler yapay zeka düzenlemesini agresif biçimde uygulamaya çalışıyor.
Açık kaynak kütüphanelerinin amacı hukuki sorumluluktan kaçınmak.
Ama bu bölgelerde sorumluluk meseleleri karmaşık olduğu için, sanırım doğrudan kullanımı yasaklama yönüne gitmişler.
Lisansın “blog ya da kullanım yazısı, ‘Powered by Tencent Hunyuan’ ibaresi” önermesi ilginç.
Bu bana YouTuber’ların “abone olmayı ve beğenmeyi unutmayın” demesinin yeni bir tanıtım biçimi gibi geliyor.
Bu tür kısıtlamalar fiilen kötü niyetli compliance gibi görünüyor.
Aslında AI Act tarafında eğitim verisi ve telif uygunluğu ile risk yönetimi yaklaşımına dair kısa bir özet yeterli.
Aşırı karmaşık ya da roket bilimi değil.
Yine de AB’de gerçekten indirilebiliyor ve kullanılabiliyor mu diye merak ediyorum.
Ben lisanslara çok takılmıyorum ama bir şey indirmek için muhtemelen kayıt gerekeceğini tahmin ediyorum.
Teknik olarak sadece tek fotoğraf girdisinin desteklendiği açıkça yazıyor ama birden fazla görsel girilip fotogrametri benzeri bir şey yapılsa daha geniş ifade gücü olur muydu diye merak ediyorum.
Benim de aklıma tam aynı şey geldi.
Benim kullanım senaryomda bunun bambaşka bir değeri var.
Bazı bölgelerde lidar botuyla derinlik ölçüm verisi alamadık ve ilginç alanlarda veri yok.
Elimizde sadece uçuş videosu var (suyun şeffaf olduğu bölümler).
Yeterli açıdan çekilmiş videoyla su yüzeyi yansımaları gibi gürültüleri eleyip taban görüntüsünü güçlendirerek fotogrametriyle yeniden oluşturmayı deneyebiliriz.
Önemli nokta, doğru bir rekonstrüksiyon için çok çeşitli açılardan veri gerekmesi.
Işık ve kamera açısına göre su altı görünürlüğü değiştiğinden, şimdiye kadar farklı saatlerde tekrar tekrar uçuş yapmak gerekiyordu ama
belki bu modelle tek bir görüntüden benzer bir rekonstrüksiyon elde edilip edilemeyeceğini denemek isterim.
Zaten birden fazla görüntüyü girdi alıp bunu yapan fotogrametri modelleri var.
Özelliği tek fotoğraf yerine az sayıda fotoğraf kabul edecek şekilde genişletmeyi birilerinin denemesi gayet mümkün.
Ama sorunun tonu, bunun sadece “yanlışlıkla eklenmemiş” bir ayrıntı olabileceğini düşündürüyor.
Performans karşılaştırma tablosunda “en yüksek puan”ın kırmızıyla vurgulanması ilginç.
Çin borsa grafiklerindeki desenin aynısı.
Çin’de kırmızı yükselişi, yeşil düşüşü ifade eder.
Dendiği gibi Doğu Asya’da kırmızı olumlu anlam taşır.
Ama benim daha ilginç bulduğum şey üçüncü rengin sarı olması.
Genelde görsel spektrum sırasıyla uyuşmuyor.
(kırmızı~700nm, yeşil~550nm, sarı~580nm)
Renk sırasının genel beklentiden farklı olması ilginç.
Renklerin anlamı kültürel bir sonuçtur.
Çin’de kırmızının anlamı Batı’dakinden farklı.
Böyle bir seçim Çin bağlamında hiç de sıra dışı değil.
Batı iletişiminde de (film, moda) bu tür anlam taşıyan sembolik renkler sık görülür.
Çin’i çağrıştıran bir renk olarak kırmızı sıkça kullanılır.
Bu, kültürel farklardan kaynaklanan bir durum ve bence gerçekten ilginç.
Yalnız günlük hayatımı etkilemediği için daha çok ilginç bir toplumsal gözlem gibi geliyor.
1995’te Hintli bir profesörün görüntü işleme dersini almıştım.
O zaman düşük çözünürlüklü görüntüleri nasıl daha iyi gösterebileceğimizi sormuştum ve “bilgi yaratılamaz” cevabını almıştım.
Ama 30 yıl sonra tek bir fotoğraftan video üretilebilen bir döneme geldik.
Aslında görüntülerden düşündüğünüzden daha fazla bilgi çıkarılabiliyor.
Özellikle videoda çok daha fazla bilgi ortaya çıkıyor.
Bu tür tekniklere ‘süper çözünürlük’ deniyor.
Bilgiyi yoktan var edemezsiniz ama konunun özelliklerine dair bilgiyi kullanarak eksik kısımları doğal şekilde tamamlarsınız.
Teknik ilerleme büyük ama aslında o zamanki “bilgi” ve “yaratma” kavramları farklı şeyler ifade ediyor.
Mesela bir çocuğun portre fotoğrafına pastel boyayla çöp adam gövdesi çizmesi de “bilgi ekleme” sayılabilir ama
bu, başlangıçta var olan gerçek olayın bilgisi değildir.
Ayrıca araştırmacı veriyi, gazeteci alıntıyı kafasına göre uyduramaz; sorumluluk bağlamları farklıdır.
Bu model gerçekten tam 360 derece dönebiliyor mu?
Yüklenen videolara bakınca hafifçe yer değiştiriyor ya da en fazla biraz pan yapıyor gibi görünüyor.
Model her kare için bir derinlik görüntüsü üretir ve her piksel 3D bir noktaya dönüşür.
Tüm 3D sahnenin statik olduğu varsayımıyla, bütün kareleri 3D nokta bulutları olarak biriktirebilirsiniz.
Sonra klasik bir 3D renderer ile bakış açısını istediğiniz gibi çevirebilirsiniz.
Ama gerçek video üretimi aşamasında kareler arası bilgi tutarlılığı zayıfsa (ör. renk değişimleri), nokta bulutu da sadece “tutarlı biçimde hatalı veri” olur.
Sonuçta döndürdüğünüzde renkler uyuşmaz, bulanık bir karışım gibi görünür.
Ayrıca oluşturulan sahneye sanal nesneleri düzgün yerleştirmek de zordur.
Çünkü aydınlatma bilgisi yoktur ve renk karışımı da çevreyle uyum sağlamaz.
Fikir harika ama çözülmesi gereken daha çok sorun var.
Bu özelliği gerçek VR’da bir an önce deneyebilmeyi gerçekten heyecanla bekliyorum.
visionOS 26 “Immersive Photo” modunu denemeni öneririm.
iCloud kütüphanesindeki fotoğraflar otomatik olarak yerel bir model tarafından dönüştürülüyor (muhtemelen Gaussian Splat 3D sahne yaklaşımıyla).
Hem pan hem döndürme mümkün, bu da Vision Pro’nun hakkını veriyor.
Eskiden çektiğim Nikon D70 fotoğraflarında bile manzara ve kişiler neredeyse gerçek gibi görünüyor.
O kadar acele etmemekte fayda var.
Hâlâ gerçek yüksek çözünürlüklü 120fps, kararlı stereo ve ultra düşük gecikme düzeyinden uzağız.
Şu anki haliyle uygulanırsa ciddi mide bulantısı yaratabilir diye düşünüyorum.
Bu videoların görüş alanı (
fov) fazla dağınık.Şu anda text-to-3D-asset (metin→3D varlık) dönüşümünde en iyi model ya da kombinasyon hangisi merak ediyorum.
Açık kaynak tabanlıysa daha da iyi olur.
ya da metin+tekil görsel→sprite sheet de mümkün mü diye merak ediyorum.
Bu aslında açık kaynak değil, “weights-available” türü bir şey.
Eğitim verisi de yok ve açık kaynak “değişiklik yapmaya en uygun biçim” demekse, verinin de olması gerekir.
Lisansın bir kısmı şöyle:
AB/BK/Güney Kore kısıtlamasının sebebinin muhtemelen o bölgelerin izinsiz veri eğitimine itiraz edebilmesi ya da maddi tazminat talep edebilmesi olduğunu düşünüyorum.
“Açık kaynak değil” iddiasına katılıyorum ama
“değişiklik yapmaya en uygun biçim” mutlaka veri (eğitim verisi) olmak zorunda değil; ağırlıklar (
weights) da olabilir.Veri, ağırlıkları değiştirmenin bir yoludur.
Fine-tuning’in çok daha ucuz olduğuna dikkat çekmek isterim.
AI2 hariç, aslında çoğu AI modelinin gerçek anlamda açık kaynak olmadığını düşünüyorum (eğitim logları ve veri dahil).
Günümüzde açık kaynak neredeyse fiilen “weights-available” ile eşanlamlı kullanılıyor.
“7. Başkalarına zarar vermek veya seçimleri manipüle etmek amacıyla açıkça yanlış bilgi üretip dağıtmayın”
“8. Sahte yorumlar gibi yanlış çevrimiçi faaliyetler oluşturmayın”
→ Bunu kendileri yaparken başkalarına yasaklıyor gibiler.
“15. Başka ülkelerin veya bölgelerin sosyal etik/ahlak kurallarına aykırı şekilde kullanmayın”
gibi maddeler de pratikte her bölgede kullanımı zorlaştırıyor.
Politika fazla aşırı.
Benim ilgilendiğim şey, Panoramax (açık StreetView alternatifi) fotoğraflarını girdi olarak verip 3D içinde gezinilebilir sahnelere dönüştürmek.
Kamerayı 1080 derece döndüremez mi diye sormak istiyorum!!
Videolar <i>fazlasıyla</i> kısa ve 45 dereceyi bile düzgün dönmüyor.
Genie3 bile en fazla 90 derece dönüyor.
Aslında dikkat etmemiz gereken şey modelin “yapamadıkları” ve burada mesele “doğru dürüst dönememesi”.
Yerinde durup dönme gibi basit bir testi geçemiyorsa buna artık ‘world model’ demek istemiyorum.
Of, sinir bozucu.