SANA-WM, 1 dakikalık 720p video için 2,6 milyar parametreli açık kaynak world model

(nvlabs.github.io)

3 puan yazan GN⁺ 2026-05-17 | 1 yorum | WhatsApp'ta paylaş

NVIDIA'nın SANA-WM modeli, tek bir görüntü ve 6-DoF kamera yörüngesini girdi olarak alıp tek GPU üzerinde 720p, 1 dakikalık kontrol edilebilir video üretiyor
Hybrid Linear Diffusion Transformer, kare düzeyinde Gated DeltaNet ile periyodik softmax'ı birleştirerek uzun rollout'larda tutarlılığı koruyor
Eğitim 64 adet H100 üzerinde 15 gün sürdü; damıtılmış varyant ise tek bir RTX 5090'da NVFP4 ile 60 saniyelik 720p klibi 34 saniyede denoise ediyor
Yaklaşık 213 bin açık video ve metre düzeyinde 6-DoF poz denetimi kullanılarak hassas kamera yolu takibi destekleniyor
1 dakikalık world model benchmark'ında mevcut açık kaynak taban çizgilerine göre daha yüksek aksiyon takip doğruluğu sağlıyor ve benzer görsel kalitede 36 kat daha yüksek throughput sunuyor

Model ve yayınlanan materyaller

SANA-WM, 2,6 milyar parametreli açık kaynak bir world model; tek bir görüntü ve kamera yörüngesini girdi olarak alıp 720p, 1 dakikalık kontrol edilebilir video üretiyor
NVIDIA'dan Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han ve Enze Xie katkıda bulundu
Paper, Code, Models soon kaynakları sunuluyor
Makalenin başlığı SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

Temel tasarım ve üretim hattı

Uzun rollout'lar için hibrit mimari
- Hybrid Linear Diffusion Transformer, kare düzeyinde Gated DeltaNet ile periyodik softmax'ı birleştirerek dakika ölçeğindeki rollout'larda dünya tutarlılığını koruyor
- Verimlilik karşılaştırmasında recurrent varyant bellek ve gecikme açısından daha küçük ölçekte büyürken, all-softmax yaklaşımı 60 saniyelik üretimde OOM veriyor
Hassas kamera kontrolü
- SANA-WM, girdi olarak 6-DoF kamera yörüngesi alıp metrik kamera yolunu izleyen görüntüler üretiyor
- Kaba global poz dalı ile ince piksel hizalamalı geometri dalı birlikte çalışarak kamera yolu takip sadakatini artırıyor
- Açık videolardan metre düzeyinde doğru 6-DoF kamera pozları çıkarılarak uzay-zamansal olarak tutarlı, yüksek kaliteli aksiyon etiketleri oluşturuluyor
İki aşamalı kalite artırımı
- Aşama 1 çıktısına, sekans genelinde kaliteyi ve tutarlılığı iyileştirmek için 17B uzun video refiner uygulanıyor
- Refiner, uzun rollout omurgası üzerinde doku, hareket ve ilerleyen bölümlerdeki kaliteyi daha keskin hale getiriyor

Eğitim ve çıkarım verimliliği

Eğitim 64 adet H100 üzerinde 15 gün sürdü; eğitim verilerinde yaklaşık 213 bin açık video klibi ve metre düzeyinde poz denetimi kullanıldı
Çıkarımda tek bir H100 ile 1 dakikalık 720p video üretimi mümkün
Damıtılmış varyant model, tek RTX 5090 üzerinde NVFP4 kuantizasyonu kullanarak 60 saniyelik 720p klibi 34 saniyede denoise ediyor
SANA-WM, LingBot-World ve HY-WorldPlay gibi büyük ölçekli endüstriyel taban çizgilerine benzer görsel kalite gösterirken verimliliği artırıyor
1 dakikalık world model benchmark'ında mevcut açık kaynak taban çizgilerine göre daha yüksek aksiyon takip doğruluğu gösterdi ve benzer görsel kalitede 36 kat daha yüksek throughput elde etti

Demolarda görülen üretim özellikleri

1 dakikalık world demoları
- Birçok 1 dakikalık örnek, birinci şahıs bakış açısından sabit bir gözlem noktası korurken kamera hareketi veya gözlemci eylemi olmadan çevrenin kendi hareketini üretiyor
- Video 68: Karlı Alpler yolu, uçurum, mağara girişi, buz sarkıtları, rüzgârla eğilen çamlar ve turuncu ceketli bir dağcı yer alıyor; kar parçacıkları, sis, dal salınımı ve toz kar akışı üretiliyor
- Video 72: Açık bir kavşakta mavi orman, fırtına bulutları altındaki yıkık kule ve güneşli bir köye ayrılan üç kollu yol oluşturuluyor
- Video 81: Kapalı bir yeraltı SF araştırma tesisindeki T-kavşak, su basmış sol koridor, buhar dolu sağ koridor ve karanlığa açılan dairesel metal kapı görülüyor
20 saniyelik world demoları
- Video 82: Dağdaki terk edilmiş kulübenin içi, el çizimi harita, paslı anahtar, sıcak fener ve karlı orman yolunun ötesindeki altın mağara kuruluyor; kıvılcım dumanı, fener alevi ve kapı aralığındaki tipi hareket ediyor
- Video 85: Orman harabelerindeki mühürlü dairesel kapı, yeşil semboller ve küçük keşif robotu yer alıyor; sarmaşıklar, böcekler, kelebekler, su birikintileri ve kapı sembolleri titreşiyor
- Video 92: Su altındaki antik tapınağın taş koridoru, mercan sütunları, yeşilimsi çatlaklar ve küçük küresel dalış robotu yerleştiriliyor; balıklar, kabarcıklar, parçacıklar, deniz yosunları ve caustics ekleniyor
Aynı ilk kare ve tekrarlanan prompt'lar
- Video 100, Video 101, Video 102: Aynı tuz düzlükleri prompt'unda spor otomobil, sert tuz kabuğu ve alçak güneş ışığı korunurken tuz tozu, bulut hareketi, ısı dalgalanması ve zemindeki rüzgâr çizgileri üretiliyor
- Video 103, Video 104, Video 105: Sığ yansıtıcı su, çamurlu basamak taşları, mor orman, yarı batmış düşmüş uzay gemisi, uzay giysili astronaut ve küçük uzaylı canlılar aynı prompt varyasyonunda ortaya çıkıyor
- Video 119, Video 120, Video 121: Tropik sahil gün doğumu sahnesinde dalgalar, palmiye yaprakları, kuşlar ve bulut hareketi sabit bakış açısından üretiliyor

Refiner etkisi örnekleri

Orman kanyonu
- Video 124 ve Video 125, Stage 1 Refined örnekleri olarak dev bir orman kanyonunun içini birinci şahıs sabit bakış açısından kuruyor
- Şelalenin arkasında belli belirsiz görülen antik taş tapınak, katlanmış kâğıt uçak, rengârenk kuşlar, havada süzülen yapraklar, ıslak taş duvarlar, birbirine dolanmış sarmaşıklar ve su damlaları bulunuyor
- Şelale, sis, kuş kanat çırpışları, dökülen yapraklar, parıldayan su damlaları ve hava akımında titreyen kâğıt uçak otonom biçimde hareket ediyor
Uçuruma oyulmuş antik kapı
- Video 126 ve Video 127, ormanın yüksek bir noktasındaki uçurum içindeki antik kapıyı gösteriyor
- Yosun kaplı yoldan yarı açık kapıya kadar taş basamaklar uzanıyor; oymalı sütunlar, koruyucu heykeller, sarmaşıkla kaplı duvarlar, soldaki dağ vadisi ve giriş yakınındaki pelerinli gezgin yerleştiriliyor
- Geç öğleden sonranın sıcak güneş ışığı ile kapıdan sızan turkuaz ışık birleşiyor; yapraklar, kuşlar, sarmaşıklar ve portal ışığı bağımsız olarak hareket ediyor
Su altında kalmış antik tapınak
- Video 130 ve Video 131, Stage 1 ve refined sonuçlarını yan yana sunuyor
- Mercan kaplı sütunlar arasında taş bir yürüyüş yolu uzanıyor; çatlamış törensel duvarın orta yarığından parlak yeşil ışık sızıyor ve zemindeki ışıldayan sembollerle hizalanıyor
- Küçük küresel dalış robotu önde süzülüyor; balıklar, kabarcıklar, parçacıklar, deniz yosunları, caustics ve yeşil semboller otonom biçimde hareket ediyor

Demo üretim notları

Sayfadaki tüm videolar, SANA-WM çift yönlü varyantı ile üretildikten sonra 2 aşamalı uzun video refiner'dan geçirildi
Galerideki tüm demo videoların ilk kare görüntüleri OpenAI GPT Image 2 ve Google Nano Banana Pro ile üretildi; SANA-WM bu durağan görüntüleri 1 dakikalık videolara canlandırdı

1 yorum

GN⁺ 2026-05-17

Hacker News yorumları

Video oyunu açısından bakınca bu tür dünya modelleri pek anlamlı gelmiyor
Ben doğrudan bir oyun geliştiricisi değilim ama sevdiğim oyunlarda derin bir kasıtlılık var. Örneğin FromSoftware oyunlarında ya da yakın dönemdeki Lies of P'de genelde tek bir eşya bile rastgele konmuş gibi durmuyor; neredeyse her nesne bilinçli olarak yerleştirilmiş oluyor
Böyle bir kasıtlılığı olmayan oyunlar ise tersine cansız hissettiriyor, sürükleyiciliği bozuyor ya da geliştiricinin vermek istediği deneyimden koparıyor
Bir dünya modelinin bu tür bir kasıtlılığı yakalayabilecek seviyeye gelip gelemeyeceğini hayal etmek zor. En üst düzey LLM'ler bile yazıda sık sık başarısız oluyor, kodda da öyle; üstelik bu mecraların deneyim yüzeyi video oyunlarındaki kullanıcı etkileşimi aralığından daha küçük görünüyor
İnsanların kasıtlı bir deneyim yaratmak istediklerinde bu tür dünya modellerini nasıl modüler biçimde kullanabileceği de belirsiz. LLM'ler bir ölçüde modüler; biri metin üretir, insan düzeltir, başka bir LLM devralır. Buradaki video çıktısının da aynı şekilde olup olmadığını bilmiyorum
Sonuçta dünya modelinin kendisi etkileyici ama yazı için kullanılan LLM'lerde olduğu gibi, bununla tam olarak neye doğru gittiğimiz net değil. Daha az tatmin edici ve daha az insani deneyimleri daha hızlı üretmeyi mi hedefliyoruz, yoksa en yakın fayda robot sistemlerinin bir dünya kurup eylemlerinin sonuçlarını hayal ederek simülasyon yapabilmesi mi, emin değilim
Genel olarak, yaşadığımız her şeyin arkasındaki kasıtlılığın azaldığı bir dünyaya doğru hızla gidiyormuşuz gibi geliyor; her şey daha kişiliksiz ve daha gürültülü hale geliyor
- Burada iki ayrı konu var. Birincisi, AI olmadan da hem özenle tasarlanmış ortamlar hem de prosedürel üretim ortamları mümkün ve ikisi de iyi yapılabilir. Tersine, ikisi de kendi yöntemlerine özgü nedenlerle başarısız olabilir
  Özensiz prosedürel üretim çeşitlilikten yoksun ya da anlamsız sonuçlar üretebilir; özensiz manuel yerleştirme ise oyunun koyduğu kuralları bozarak tutarsız bir deneyim yaratabilir
  Açık yerleştirme ile iç tutarlılığı korumak ölçek büyüdükçe zorlaşır. İç tutarlılık kaliteyi etkileyen bir unsursa, belli bir ölçekten sonra üretilmiş içerik daha yüksek kaliteli bir çözüm haline gelebilir
  İkincisi, AI ile içerik üretirken de özensizlikle ilgili aynı kurallar geçerli. İstenen şeyi kurmak için neredeyse hiç seçenek sunmayan üretken AI araçları var ama bu, AI'ın zorunlu bir özelliği değil. Bazen insanlar basit arayüz istiyor; bazen de üreticiler hâlâ yeni olduğu için ayrıntılı kontrolden önce bir şeyler yaptırmaya odaklanıldığı için kontrol imkânları sınırlı kalıyor
  Bir bakıma hâlâ fazla yeni; hangi kontrol olanaklarının istenir olduğunu anlatmak zor, bu yüzden önce üreticiyi yapıp insanların ne yapmak istediğini görmek, sonra istenen kontrol özelliklerini eklemek makul bir yol gibi duruyor. Üretilen şeyin stili, nesne yerleşimi, kamera hareketi ve sahne kompozisyonu üzerinde üst düzey kontrol sağlayan araçlar da var ama bunlara erişen insan sayısı çok daha az
  AI, onsuz yapılamayacak şeyleri mümkün kılabilir ama özel bir şey üretmek için yine de özen gerekir
- Evet. Dünyayı dışı dolu görünen ama içi boş içerikle dolduracağız. İstediğiniz konuyu yapıştırmanız da mümkün
  Seçiciliği düşük insanlar şikâyet etmeyecektir ama geri kalan herkes, 100 şeyin 99'unun gürültü olduğu bir ortamda o 1 şeyi bulmak için giderek daha fazla zaman harcamak zorunda kalacak
  Bu, Amazon'a da oldukça benziyor. Bozuk sıralama, manipüle edilmiş birim fiyat gösterimi ve ucuz kopya seli birleşince kullanıcı vazgeçip üstte çıkan ürünü, yani öneri listesindekini ya da Amazon kopyasını alıyor
  Çeşitli ürünleri web'de aratıp görseller sekmesine geçerseniz, sonuçların %50-90'ının Amazon ürün bağlantısı olduğu da sık görülüyor
- Bu tür modellerin eski Gutenberg matbaasına benzeyeceğini düşünüyorum. İçerik miktarı sert biçimde artacak ve çoğu pek iyi olmayacak
  Ama ezici hacim sayesinde toplamda daha fazla yüksek kaliteli içerik de üretilebilir. Başka bir deyişle ortalama oyun kalitesi düşecek ama gerçekten “harika” oyunların ortaya çıkma hızı artacak
- Bence bu, şu anda AI genelinde olan şeyin özünü yakalıyor. Grafikler, görseller, videolar, müzik, metinler, kod; hepsi bakınca etkileyici ama boş ve değersiz hissettiriyor
  Hayattaki herhangi bir işte sonucun kalitesi, arkasına konan ilgi ve niyetin doğrudan yansımasıdır. Basitleştirirsek ne kadar emek verildiğinin yansımasıdır ve bu her zaman belli olur. AI çağında da bu değişmiyor
  Sadece sonuca emek vermeden ulaşmanın yolu çok kısaldı; bu da hacmi artırıp genel izlenimi seyreltiyor. Bu ucuz çıktılar değdiği her alanı ucuzlaştırdığı için, fark edilmek için aslında daha fazla emek gerekecek
- FromSoftware ya da Lies of P gibi her şeyin kasıtlı olarak yerleştirildiği örnekler oldukça spesifik ve tek tarafa yaslanan örnekler
  İnce ayarlı eşya yerleşimine dayanmayan iyi oyunlar da çok. Örneğin Bethesda'nın birçok oyunu, eşyaların çoğu işe yaramayan dekor olduğu için harikaydı; son oyunlarında ıvır zıvıra amaç yükleyip bu kuralı bozunca çok daha kötü oldular
  Bu tür bir kasıtlılığa hiç dayanmayan, kelimenin tam anlamıyla havalı fikirleri rastgele fırlatıp birleştiren ya da prosedürel olarak üretilmiş birçok iyi oyun da var
Model ağırlıklarının “yakında” geleceği söyleniyorsa, bu şu an için vaporware demek. Ağırlıklar bile yayımlanmamışken buna nasıl “open source” denebilir
2.8B modelden böyle sonuçlar çıktığına herkesin şüpheyle yaklaşması gayet doğal. Ağırlıklar yoksa, olmuş bitmiş bir şey de yoktur
- Model burada yayımlanmış: https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7...
- Adil olmak gerekirse tüm kod tabanı open source, yani açık ağırlıklı modellerin çoğundan daha iyi bir durumda. Yine de o hissi anlıyorum
  https://github.com/NVlabs/Sana
- O zaman bunun açık olduğu pek söylenemez. Başlığın değiştirilebilir olup olmadığını merak ediyorum
2.6B deniyor ama hemen ardından şu ifade geliyor
“Özel bir 17B uzun video rafineri, uzun rollout omurgası üzerinde doku, hareket ve son bölüm kalitesini keskinleştiriyor”
Hepsi tamamen video oyunu gibi görünüyor. Muhtemelen eğitim için sentetik veri üretmek adına Unreal Engine kullanmışlardır
Bunu GPU üzerinde çalıştırabiliyor olmak oldukça etkileyici. Şikâyet ve kaygı dile getirenler var ama daha çok erken aşamadayız ve bu, olacağı en kötü hali; bu yüzden bunun oyunlar üzerindeki etkisi beni çok heyecanlandırıyor
Belki saçma bir soru ama burada üretilen şeyin neresinde “dünya” var? Gerçek fiziksel uzayın soyut bir temsili, örneğin oyun motorundaki sahne grafiği gibi bir şey mi var, yoksa sadece “bu video üretici diğer video üreticilere göre fiziksel olarak daha tutarlı” mı denmek isteniyor
- Dünya modeli, mevcut durum ve isteğe bağlı olarak o dünyada yaşayan bir ajanın eylemleri verildiğinde, simüle edilen dünyanın bir sonraki durumunu tahmin eden modeldir. Bir sonraki kelimeyi tahmin eden dil modellerine oldukça benzer
  Bu dünya durumu herhangi bir şey olabilir ama son 1-2 yılda daha dar bir anlamda kullanılmaya başlandı. Oyun benzeri girdilere doğal tepki verip sanki bir video oyunu simüle ediyormuş gibi görünen video üretim modelleri kastediliyor. Yani video karelerinin arkasında ek bir durum yok
- Bu bağlamda dünya, bu videoların video oyunu gibi etkileşimli olduğu anlamına geliyor. Verilen örneklerde klavye ve fare girdilerini görebilirsiniz
  Model, yaklaşık 1 dakika boyunca sahne tutarlılığını koruyacak şekilde eğitilmiş; bu yüzden etrafa bakıp ekran dışına çıkan nesneler, tekrar o yöne bakınca yeniden görünüyor
İndirme bağlantısı nerede? GitHub'da bulamadım ve web sayfasındaki indirme düğmesi devre dışı görünüyor
Bir de bu 24GB belleğe sahip RTX 4090 üzerinde çalışır mı?
- 5 saniyelik sürüm burada: https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7...
- Aşağı kaydırınca daha fazla video var ve model de “yakında” yüklenecek gibi görünüyor
Uyarı: O sayfadaki otomatik oynayan videolar yüzünden indirme hızım 350Mbps'ye kadar fırladı
- Bunu ancak sekmede sayfa bir saatten fazla açık kaldıktan sonra fark ettim. Gerçekten aynı videoyu tekrar tekrar mı stream ediyor? Önbelleğe almak için fazla büyük olduğu için durmadan yeniden mi gönderiliyor
  Kotalı ya da sınırlı ağ kullanan kimsenin o sayfayı açık bırakmamasını umarım
  GitHub'ın o sayfayı durdurmamış olmasına şaşırdım
  AI araştırmacıları hesaplama ve ağ kaynaklarını yakmaya o kadar alıştı ki, çok sayıda HD videoyu otomatik ve döngülü oynatan bir web sayfası üzerine düşünmeyi bırakmış olabilirler mi
- Benim 70Mbps bağlantımda videolar tampon bile yapmadı, ben de izlemeyi bıraktım. Zaten o kadar yüksek kaliteli de görünmüyorlardı
2.6B modelin 1 dakikalık videoyu bu kalite ve tutarlılıkta üretiyor olması inanılmaz derecede etkileyici görünüyor
İlk karlı dağ sahnesinde adamın yürüdüğü videoda mağara girişi tutarlılığı sorunu var. Bu model boyutunda bu “beklenen” bir şey mi?
- Çoğu videoda biraz buna benzer sorun var gibi görünüyor. Örneğin kütüphane videosunda masanın üstündeki kitapların şekli zaman zaman değişiyor
  Eğer örnekler temsiliyse, ‘Refiner’ etkisi sanki ters çalışıyor. Her durumda 1. aşama görüntüsü, ‘rafine edilmiş’ görüntüden daha iyi görünüyor. Daha az dağınık, daha gerçekçi ve bu tabiri bilenler için daha az “cowbell” hissi veriyor
- Tüm videolar, daha önce gösterilmiş bir bölgeye yeniden dönüldüğünde oldukça belirgin tutarlılık sorunları gösteriyor

SANA-WM, 1 dakikalık 720p video için 2,6 milyar parametreli açık kaynak world model

Model ve yayınlanan materyaller

Temel tasarım ve üretim hattı

Uzun rollout'lar için hibrit mimari

Hassas kamera kontrolü

İki aşamalı kalite artırımı

Eğitim ve çıkarım verimliliği

Demolarda görülen üretim özellikleri

1 dakikalık world demoları

20 saniyelik world demoları

Aynı ilk kare ve tekrarlanan prompt'lar

Refiner etkisi örnekleri

Orman kanyonu

Uçuruma oyulmuş antik kapı

Su altında kalmış antik tapınak

Demo üretim notları

İlgili okumalar

1 yorum

Hacker News yorumları