SANA-WM, 1 dakikalık 720p video için 2,6 milyar parametreli açık kaynak world model
(nvlabs.github.io)- NVIDIA'nın SANA-WM modeli, tek bir görüntü ve 6-DoF kamera yörüngesini girdi olarak alıp tek GPU üzerinde 720p, 1 dakikalık kontrol edilebilir video üretiyor
- Hybrid Linear Diffusion Transformer, kare düzeyinde Gated DeltaNet ile periyodik softmax'ı birleştirerek uzun rollout'larda tutarlılığı koruyor
- Eğitim 64 adet H100 üzerinde 15 gün sürdü; damıtılmış varyant ise tek bir RTX 5090'da NVFP4 ile 60 saniyelik 720p klibi 34 saniyede denoise ediyor
- Yaklaşık 213 bin açık video ve metre düzeyinde 6-DoF poz denetimi kullanılarak hassas kamera yolu takibi destekleniyor
- 1 dakikalık world model benchmark'ında mevcut açık kaynak taban çizgilerine göre daha yüksek aksiyon takip doğruluğu sağlıyor ve benzer görsel kalitede 36 kat daha yüksek throughput sunuyor
Model ve yayınlanan materyaller
- SANA-WM, 2,6 milyar parametreli açık kaynak bir world model; tek bir görüntü ve kamera yörüngesini girdi olarak alıp 720p, 1 dakikalık kontrol edilebilir video üretiyor
- NVIDIA'dan Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han ve Enze Xie katkıda bulundu
- Paper, Code, Models soon kaynakları sunuluyor
- Makalenin başlığı
SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
Temel tasarım ve üretim hattı
-
Uzun rollout'lar için hibrit mimari
- Hybrid Linear Diffusion Transformer, kare düzeyinde Gated DeltaNet ile periyodik softmax'ı birleştirerek dakika ölçeğindeki rollout'larda dünya tutarlılığını koruyor
- Verimlilik karşılaştırmasında recurrent varyant bellek ve gecikme açısından daha küçük ölçekte büyürken, all-softmax yaklaşımı 60 saniyelik üretimde OOM veriyor
-
Hassas kamera kontrolü
- SANA-WM, girdi olarak 6-DoF kamera yörüngesi alıp metrik kamera yolunu izleyen görüntüler üretiyor
- Kaba global poz dalı ile ince piksel hizalamalı geometri dalı birlikte çalışarak kamera yolu takip sadakatini artırıyor
- Açık videolardan metre düzeyinde doğru 6-DoF kamera pozları çıkarılarak uzay-zamansal olarak tutarlı, yüksek kaliteli aksiyon etiketleri oluşturuluyor
-
İki aşamalı kalite artırımı
- Aşama 1 çıktısına, sekans genelinde kaliteyi ve tutarlılığı iyileştirmek için 17B uzun video refiner uygulanıyor
- Refiner, uzun rollout omurgası üzerinde doku, hareket ve ilerleyen bölümlerdeki kaliteyi daha keskin hale getiriyor
Eğitim ve çıkarım verimliliği
- Eğitim 64 adet H100 üzerinde 15 gün sürdü; eğitim verilerinde yaklaşık 213 bin açık video klibi ve metre düzeyinde poz denetimi kullanıldı
- Çıkarımda tek bir H100 ile 1 dakikalık 720p video üretimi mümkün
- Damıtılmış varyant model, tek RTX 5090 üzerinde NVFP4 kuantizasyonu kullanarak 60 saniyelik 720p klibi 34 saniyede denoise ediyor
- SANA-WM, LingBot-World ve HY-WorldPlay gibi büyük ölçekli endüstriyel taban çizgilerine benzer görsel kalite gösterirken verimliliği artırıyor
- 1 dakikalık world model benchmark'ında mevcut açık kaynak taban çizgilerine göre daha yüksek aksiyon takip doğruluğu gösterdi ve benzer görsel kalitede 36 kat daha yüksek throughput elde etti
Demolarda görülen üretim özellikleri
-
1 dakikalık world demoları
- Birçok 1 dakikalık örnek, birinci şahıs bakış açısından sabit bir gözlem noktası korurken kamera hareketi veya gözlemci eylemi olmadan çevrenin kendi hareketini üretiyor
- Video 68: Karlı Alpler yolu, uçurum, mağara girişi, buz sarkıtları, rüzgârla eğilen çamlar ve turuncu ceketli bir dağcı yer alıyor; kar parçacıkları, sis, dal salınımı ve toz kar akışı üretiliyor
- Video 72: Açık bir kavşakta mavi orman, fırtına bulutları altındaki yıkık kule ve güneşli bir köye ayrılan üç kollu yol oluşturuluyor
- Video 81: Kapalı bir yeraltı SF araştırma tesisindeki T-kavşak, su basmış sol koridor, buhar dolu sağ koridor ve karanlığa açılan dairesel metal kapı görülüyor
-
20 saniyelik world demoları
- Video 82: Dağdaki terk edilmiş kulübenin içi, el çizimi harita, paslı anahtar, sıcak fener ve karlı orman yolunun ötesindeki altın mağara kuruluyor; kıvılcım dumanı, fener alevi ve kapı aralığındaki tipi hareket ediyor
- Video 85: Orman harabelerindeki mühürlü dairesel kapı, yeşil semboller ve küçük keşif robotu yer alıyor; sarmaşıklar, böcekler, kelebekler, su birikintileri ve kapı sembolleri titreşiyor
- Video 92: Su altındaki antik tapınağın taş koridoru, mercan sütunları, yeşilimsi çatlaklar ve küçük küresel dalış robotu yerleştiriliyor; balıklar, kabarcıklar, parçacıklar, deniz yosunları ve caustics ekleniyor
-
Aynı ilk kare ve tekrarlanan prompt'lar
- Video 100, Video 101, Video 102: Aynı tuz düzlükleri prompt'unda spor otomobil, sert tuz kabuğu ve alçak güneş ışığı korunurken tuz tozu, bulut hareketi, ısı dalgalanması ve zemindeki rüzgâr çizgileri üretiliyor
- Video 103, Video 104, Video 105: Sığ yansıtıcı su, çamurlu basamak taşları, mor orman, yarı batmış düşmüş uzay gemisi, uzay giysili astronaut ve küçük uzaylı canlılar aynı prompt varyasyonunda ortaya çıkıyor
- Video 119, Video 120, Video 121: Tropik sahil gün doğumu sahnesinde dalgalar, palmiye yaprakları, kuşlar ve bulut hareketi sabit bakış açısından üretiliyor
Refiner etkisi örnekleri
-
Orman kanyonu
- Video 124 ve Video 125, Stage 1 Refined örnekleri olarak dev bir orman kanyonunun içini birinci şahıs sabit bakış açısından kuruyor
- Şelalenin arkasında belli belirsiz görülen antik taş tapınak, katlanmış kâğıt uçak, rengârenk kuşlar, havada süzülen yapraklar, ıslak taş duvarlar, birbirine dolanmış sarmaşıklar ve su damlaları bulunuyor
- Şelale, sis, kuş kanat çırpışları, dökülen yapraklar, parıldayan su damlaları ve hava akımında titreyen kâğıt uçak otonom biçimde hareket ediyor
-
Uçuruma oyulmuş antik kapı
- Video 126 ve Video 127, ormanın yüksek bir noktasındaki uçurum içindeki antik kapıyı gösteriyor
- Yosun kaplı yoldan yarı açık kapıya kadar taş basamaklar uzanıyor; oymalı sütunlar, koruyucu heykeller, sarmaşıkla kaplı duvarlar, soldaki dağ vadisi ve giriş yakınındaki pelerinli gezgin yerleştiriliyor
- Geç öğleden sonranın sıcak güneş ışığı ile kapıdan sızan turkuaz ışık birleşiyor; yapraklar, kuşlar, sarmaşıklar ve portal ışığı bağımsız olarak hareket ediyor
-
Su altında kalmış antik tapınak
- Video 130 ve Video 131, Stage 1 ve refined sonuçlarını yan yana sunuyor
- Mercan kaplı sütunlar arasında taş bir yürüyüş yolu uzanıyor; çatlamış törensel duvarın orta yarığından parlak yeşil ışık sızıyor ve zemindeki ışıldayan sembollerle hizalanıyor
- Küçük küresel dalış robotu önde süzülüyor; balıklar, kabarcıklar, parçacıklar, deniz yosunları, caustics ve yeşil semboller otonom biçimde hareket ediyor
Demo üretim notları
- Sayfadaki tüm videolar, SANA-WM çift yönlü varyantı ile üretildikten sonra 2 aşamalı uzun video refiner'dan geçirildi
- Galerideki tüm demo videoların ilk kare görüntüleri OpenAI GPT Image 2 ve Google Nano Banana Pro ile üretildi; SANA-WM bu durağan görüntüleri 1 dakikalık videolara canlandırdı
1 yorum
Hacker News yorumları
Video oyunu açısından bakınca bu tür dünya modelleri pek anlamlı gelmiyor
Ben doğrudan bir oyun geliştiricisi değilim ama sevdiğim oyunlarda derin bir kasıtlılık var. Örneğin FromSoftware oyunlarında ya da yakın dönemdeki Lies of P'de genelde tek bir eşya bile rastgele konmuş gibi durmuyor; neredeyse her nesne bilinçli olarak yerleştirilmiş oluyor
Böyle bir kasıtlılığı olmayan oyunlar ise tersine cansız hissettiriyor, sürükleyiciliği bozuyor ya da geliştiricinin vermek istediği deneyimden koparıyor
Bir dünya modelinin bu tür bir kasıtlılığı yakalayabilecek seviyeye gelip gelemeyeceğini hayal etmek zor. En üst düzey LLM'ler bile yazıda sık sık başarısız oluyor, kodda da öyle; üstelik bu mecraların deneyim yüzeyi video oyunlarındaki kullanıcı etkileşimi aralığından daha küçük görünüyor
İnsanların kasıtlı bir deneyim yaratmak istediklerinde bu tür dünya modellerini nasıl modüler biçimde kullanabileceği de belirsiz. LLM'ler bir ölçüde modüler; biri metin üretir, insan düzeltir, başka bir LLM devralır. Buradaki video çıktısının da aynı şekilde olup olmadığını bilmiyorum
Sonuçta dünya modelinin kendisi etkileyici ama yazı için kullanılan LLM'lerde olduğu gibi, bununla tam olarak neye doğru gittiğimiz net değil. Daha az tatmin edici ve daha az insani deneyimleri daha hızlı üretmeyi mi hedefliyoruz, yoksa en yakın fayda robot sistemlerinin bir dünya kurup eylemlerinin sonuçlarını hayal ederek simülasyon yapabilmesi mi, emin değilim
Genel olarak, yaşadığımız her şeyin arkasındaki kasıtlılığın azaldığı bir dünyaya doğru hızla gidiyormuşuz gibi geliyor; her şey daha kişiliksiz ve daha gürültülü hale geliyor
Özensiz prosedürel üretim çeşitlilikten yoksun ya da anlamsız sonuçlar üretebilir; özensiz manuel yerleştirme ise oyunun koyduğu kuralları bozarak tutarsız bir deneyim yaratabilir
Açık yerleştirme ile iç tutarlılığı korumak ölçek büyüdükçe zorlaşır. İç tutarlılık kaliteyi etkileyen bir unsursa, belli bir ölçekten sonra üretilmiş içerik daha yüksek kaliteli bir çözüm haline gelebilir
İkincisi, AI ile içerik üretirken de özensizlikle ilgili aynı kurallar geçerli. İstenen şeyi kurmak için neredeyse hiç seçenek sunmayan üretken AI araçları var ama bu, AI'ın zorunlu bir özelliği değil. Bazen insanlar basit arayüz istiyor; bazen de üreticiler hâlâ yeni olduğu için ayrıntılı kontrolden önce bir şeyler yaptırmaya odaklanıldığı için kontrol imkânları sınırlı kalıyor
Bir bakıma hâlâ fazla yeni; hangi kontrol olanaklarının istenir olduğunu anlatmak zor, bu yüzden önce üreticiyi yapıp insanların ne yapmak istediğini görmek, sonra istenen kontrol özelliklerini eklemek makul bir yol gibi duruyor. Üretilen şeyin stili, nesne yerleşimi, kamera hareketi ve sahne kompozisyonu üzerinde üst düzey kontrol sağlayan araçlar da var ama bunlara erişen insan sayısı çok daha az
AI, onsuz yapılamayacak şeyleri mümkün kılabilir ama özel bir şey üretmek için yine de özen gerekir
Seçiciliği düşük insanlar şikâyet etmeyecektir ama geri kalan herkes, 100 şeyin 99'unun gürültü olduğu bir ortamda o 1 şeyi bulmak için giderek daha fazla zaman harcamak zorunda kalacak
Bu, Amazon'a da oldukça benziyor. Bozuk sıralama, manipüle edilmiş birim fiyat gösterimi ve ucuz kopya seli birleşince kullanıcı vazgeçip üstte çıkan ürünü, yani öneri listesindekini ya da Amazon kopyasını alıyor
Çeşitli ürünleri web'de aratıp görseller sekmesine geçerseniz, sonuçların %50-90'ının Amazon ürün bağlantısı olduğu da sık görülüyor
Ama ezici hacim sayesinde toplamda daha fazla yüksek kaliteli içerik de üretilebilir. Başka bir deyişle ortalama oyun kalitesi düşecek ama gerçekten “harika” oyunların ortaya çıkma hızı artacak
Hayattaki herhangi bir işte sonucun kalitesi, arkasına konan ilgi ve niyetin doğrudan yansımasıdır. Basitleştirirsek ne kadar emek verildiğinin yansımasıdır ve bu her zaman belli olur. AI çağında da bu değişmiyor
Sadece sonuca emek vermeden ulaşmanın yolu çok kısaldı; bu da hacmi artırıp genel izlenimi seyreltiyor. Bu ucuz çıktılar değdiği her alanı ucuzlaştırdığı için, fark edilmek için aslında daha fazla emek gerekecek
İnce ayarlı eşya yerleşimine dayanmayan iyi oyunlar da çok. Örneğin Bethesda'nın birçok oyunu, eşyaların çoğu işe yaramayan dekor olduğu için harikaydı; son oyunlarında ıvır zıvıra amaç yükleyip bu kuralı bozunca çok daha kötü oldular
Bu tür bir kasıtlılığa hiç dayanmayan, kelimenin tam anlamıyla havalı fikirleri rastgele fırlatıp birleştiren ya da prosedürel olarak üretilmiş birçok iyi oyun da var
Model ağırlıklarının “yakında” geleceği söyleniyorsa, bu şu an için vaporware demek. Ağırlıklar bile yayımlanmamışken buna nasıl “open source” denebilir
2.8B modelden böyle sonuçlar çıktığına herkesin şüpheyle yaklaşması gayet doğal. Ağırlıklar yoksa, olmuş bitmiş bir şey de yoktur
https://github.com/NVlabs/Sana
2.6B deniyor ama hemen ardından şu ifade geliyor
“Özel bir 17B uzun video rafineri, uzun rollout omurgası üzerinde doku, hareket ve son bölüm kalitesini keskinleştiriyor”
Hepsi tamamen video oyunu gibi görünüyor. Muhtemelen eğitim için sentetik veri üretmek adına Unreal Engine kullanmışlardır
Bunu GPU üzerinde çalıştırabiliyor olmak oldukça etkileyici. Şikâyet ve kaygı dile getirenler var ama daha çok erken aşamadayız ve bu, olacağı en kötü hali; bu yüzden bunun oyunlar üzerindeki etkisi beni çok heyecanlandırıyor
Belki saçma bir soru ama burada üretilen şeyin neresinde “dünya” var? Gerçek fiziksel uzayın soyut bir temsili, örneğin oyun motorundaki sahne grafiği gibi bir şey mi var, yoksa sadece “bu video üretici diğer video üreticilere göre fiziksel olarak daha tutarlı” mı denmek isteniyor
Bu dünya durumu herhangi bir şey olabilir ama son 1-2 yılda daha dar bir anlamda kullanılmaya başlandı. Oyun benzeri girdilere doğal tepki verip sanki bir video oyunu simüle ediyormuş gibi görünen video üretim modelleri kastediliyor. Yani video karelerinin arkasında ek bir durum yok
Model, yaklaşık 1 dakika boyunca sahne tutarlılığını koruyacak şekilde eğitilmiş; bu yüzden etrafa bakıp ekran dışına çıkan nesneler, tekrar o yöne bakınca yeniden görünüyor
İndirme bağlantısı nerede? GitHub'da bulamadım ve web sayfasındaki indirme düğmesi devre dışı görünüyor
Bir de bu 24GB belleğe sahip RTX 4090 üzerinde çalışır mı?
Uyarı: O sayfadaki otomatik oynayan videolar yüzünden indirme hızım 350Mbps'ye kadar fırladı
Kotalı ya da sınırlı ağ kullanan kimsenin o sayfayı açık bırakmamasını umarım
GitHub'ın o sayfayı durdurmamış olmasına şaşırdım
AI araştırmacıları hesaplama ve ağ kaynaklarını yakmaya o kadar alıştı ki, çok sayıda HD videoyu otomatik ve döngülü oynatan bir web sayfası üzerine düşünmeyi bırakmış olabilirler mi
2.6B modelin 1 dakikalık videoyu bu kalite ve tutarlılıkta üretiyor olması inanılmaz derecede etkileyici görünüyor
İlk karlı dağ sahnesinde adamın yürüdüğü videoda mağara girişi tutarlılığı sorunu var. Bu model boyutunda bu “beklenen” bir şey mi?
Eğer örnekler temsiliyse, ‘Refiner’ etkisi sanki ters çalışıyor. Her durumda 1. aşama görüntüsü, ‘rafine edilmiş’ görüntüden daha iyi görünüyor. Daha az dağınık, daha gerçekçi ve bu tabiri bilenler için daha az “cowbell” hissi veriyor