- NVIDIA Cosmos 3, fiziksel yapay zeka için fiziksel muhakeme, dünya üretimi ve eylem üretimini tek bir model içinde birleştiren tek bir açık temel modeldir
- Mixture-of-Transformers mimarisi, giriş anlayışı ile fizik farkındalıklı üretim çıktısını bağlamak için Reasoner tower ve Generator tower’ı ayırır ve birden çok model ile çıkarım pipeline’ını orkestre etme ihtiyacını azaltır
- Cosmos 3 Nano, 16B parametreyle iş istasyonu düzeyinde çıkarımı hedefler; Cosmos 3 Super ise 64B parametreyle veri merkezi dağıtımı ve yüksek kaliteli sentetik veri üretimini hedefler
- NVIDIA; model checkpoint’leri, eğitim script’leri, dağıtım araçları, altı sentetik veri kümesi ve NIM mikroservislerini yayımlayarak robotik, otonom sürüş ve depo otomasyonu için alan uyarlamasını destekler
- HUE ve çeşitli açık benchmark’larda Cosmos 3; fiziksel yapay zeka muhakemesi, üretim kalitesi ve alan performansı açısından değerlendirilirken, Super ve Nano sırasıyla VANTAGE-Bench’in 32B ve 8B katmanlarında liderlik gösterir
Cosmos 3'teki temel değişim
- NVIDIA Cosmos 3, robotlar, otonom araçlar ve akıllı alanlar gibi fiziksel yapay zeka sistemlerinin dünyayı anlaması, bir sonraki durumu tahmin etmesi ve belirli ortam, biçim ve görevlere uygun eylemler üretmesi için tasarlanmış öncü bir temel modeldir
- Önceki Cosmos sürümleri dünya üretimi, fiziksel anlama ve kontrollü sahne üretimini farklı modeller ve iş akışlarıyla ayırıyordu; Cosmos 3 ise bunları tek bir modelde birleştiriyor
- Bu sürüm; Hugging Face üzerinde model checkpoint’leri, GitHub üzerinde kod, açık veri kümeleri, devam eğitimi script’leri ve NVIDIA GPU dağıtımı için Cosmos NIM mikroservisleri sunuyor
İki kuleli mimari
- Cosmos 3, iki kule etrafında şekillenen bir Mixture-of-Transformers mimarisi kullanır
- Reasoner tower, görüntü, video ve metin gibi çok modlu gözlemleri yorumlayan bir vision-language model (VLM)’dir; otoregresif yapısıyla girdileri yorumlar, hareketi, nesne etkileşimlerini ve fiziksel bağlamı anlar
- Generator tower, Reasoner tower’ın anlayışını koşul olarak kullanarak fizik farkındalıklı video ve eylem çıktısını difüzyon tabanlı bir süreçle üretir
- Reasoner bağımsız olarak çağrılabilir, ancak Generator yönlendirilmiş üretim için her zaman iki kuleyi de etkinleştirir
- Bu mimari, muhakeme ve üretim görevlerini tek bir modelde işleyerek birden çok model ve çıkarım pipeline’ı arasındaki orkestrasyon ihtiyacını azaltır
Model boyutu seçimi
- Cosmos 3 Nano, 16B parametreli kompakt bir modeldir ve verimli çıkarım için optimize edilmiştir
- Nano, NVIDIA RTX PRO 6000 GPU gibi iş istasyonu sınıfı hesaplama üzerinde gerçek zamanlı robotik çıkarım ve fiziksel yapay zeka uygulamalarını çalıştırmak üzere tasarlanmıştır
- Cosmos 3 Super, 64B parametreli bir modeldir ve en yüksek kalite ile yetenekleri hedefler
- Super, en yüksek benchmark puanlarını sağlar ve NVIDIA Hopper ile NVIDIA Blackwell GPU tabanlı veri merkezi dağıtımlarını hedefler
- Super, büyük ölçekli sentetik veri üretimi ve gelişmiş fiziksel muhakeme iş yükleri için uygundur
Açık veri kümeleri
- NVIDIA, Cosmos 3 sürümüyle birlikte Hugging Face üzerinde altı sentetik veri üretimi (SDG) veri kümesini yayımladı
- Bu veri kümeleri, Cosmos 3 ve diğer modellerin devam eğitimi için kullanılabilir; robotik, fizik simülasyonu, mekânsal muhakeme, insan hareketi, sürüş ve depo ortamlarını kapsar
- Açık veri kümeleri:
HUE değerlendirme çerçevesi
- NVIDIA Cosmos Human Evaluation (HUE), temsilî alan görevlerinde Cosmos 3 Generator’ın kalitesini değerlendirir
- En yeni video üretim modelleri mevcut otomatik leaderboard’larda doygunluğa ulaştıkça, sürümler arasındaki puan farkları çoğu zaman anlamlı karşılaştırma için yeterli olmamaya başladı
- HUE, değerlendirmeyi öznel puanlamadan nesnel olgu doğrulamaya kaydırarak üst düzey modeller arasında daha ince karşılaştırmaları mümkün kılar
- HUE, üretilen videoyu dört boyuta yayılan tek olgusal evet/hayır sorularına ayırır
- Anlamsal hizalama
- Fizik yasaları
- Geometrik muhakeme
- Görsel bütünlük
- Sorular, robotik, otonom araçlar ve fizik dahil olmak üzere yedi Physical AI alanını kapsar
- Sorular bir VLM pipeline’ı ile üretilir, insan uzmanlar tarafından rafine edilir ve Hugging Face üzerinde açık kaynak olarak yayımlanır
Benchmark sonuçları
- Cosmos 3; fiziksel yapay zeka muhakemesi, üretim kalitesi ve alana özgü performansı kapsayan çeşitli benchmark ailesinde değerlendirildi
- Muhakeme benchmark’larında Cosmos 3 Super ve Cosmos 3 Nano, VANTAGE-Bench’in sırasıyla 32B ve 8B katmanlarında lider oldu
- VANTAGE-Bench, depo, trafik ve akıllı alanlardaki gerçek sabit kamera görüntüleri üzerinde vision-language model’leri değerlendiren ilk açık benchmark’tır
- Traffic Anomaly Reasoning (TAR), trafik videolarında anomali olaylarını tespit edip muhakeme eden yeni bir leaderboard’dur ve AI City Challenge 2026 Track 3’ün resmî leaderboard’udur
- Üretim benchmark’larında Cosmos 3, açık leaderboard’lara göre açık kaynak SOTA konumundadır ve PAI-Bench, R-Bench Physics-IQ ve RoboLab’da liderlik gösterir
- Artificial Analysis değerlendirmesinde Cosmos 3, Text to Image leaderboard ve Image to Video (no audio) leaderboard üzerinde lider açık kaynak model olarak yer alır
- R-Bench, robot video üretiminde video tabanlı world model’leri değerlendirir ve yapısal tutarlılık, fiziksel geçerlilik ve yürütme tamlığı gibi alt metrikleri kullanır
- PAI-Bench, robotik, otonom araçlar ve fiziksel sağduyu gibi alanlarda video anlama ile video üretimini değerlendirir
- Physics-IQ, üretici video modellerinin yalnızca görsel gerçekçiliğe mi ulaştığını, yoksa gerçek fizik ilkelerini anlayıp anlamadığını test eder
- RoboLab, görev genelleştirme robot politikalarını değerlendiren bir simülasyon benchmark’ıdır
Eğitim reçeteleri ve alan uyarlaması
- Cosmos 3 sürümü, model checkpoint’lerinin ötesine geçerek kod, ayar ve iş akışlarını da yayımlar; böylece model yeni alanlara, biçimlere ve veri kümelerine uyarlanabilir
- Denetimli ince ayar (SFT), geliştiricilerin Cosmos 3 modellerini kendi verilerine göre ayarlamasını destekler
- Açık reçeteler, özel video veri kümeleri için vision generation devam eğitimini ve robotik ile fiziksel yapay zeka iş akışları için eylem odaklı reçeteleri kapsar
- Geliştiriciler, Cosmos 3’ü robotik, otonom sürüş ve depo otomasyonu gibi hedef alanlara göre özelleştirebilir
- Devam eğitimi kodu ve ayarları GitHub’da sunuluyor
- Eylem devam eğitimi, Cosmos 3’ü forward dynamics, inverse dynamics ve policy generation gibi eylem farkındalıklı Physical AI uygulamalarına göre ayarlar
- Robotikte bu; robot eylemleri koşuluyla gelecekteki gözlemleri üretme, gözlemlenen gösterimin arkasındaki eylemleri çıkarma ve mevcut gözlemler ile görev prompt’undan eylem dizilerini tahmin etme iş akışlarını destekler
NIM mikroservis dağıtımı
- Cosmos 3 modelleri, optimize edilmiş üretim dağıtımı için NVIDIA NIM microservices üzerinden de sunuluyor
- NIM mikroservisleri, modeli ve optimize edilmiş çıkarım çalışma zamanını paketleyerek servis altyapısını doğrudan ayarlamadan yüksek performans elde etmeyi sağlar
- Çıkarım iş akışlarında NIM mikroservisleri, Cosmos 3 GitHub deposuna göre daha kolay kullanım sunarken GitHub deposu devam eğitimi iş akışları için daha uygundur
- Cosmos 3 Reasoner NIM şu anda Cosmos 3 modelinin muhakeme yeteneklerini sunuyor
- NIM, BF16, FP8 ve NVFP4 kuantizasyon checkpoint seçeneklerini destekler
- NVFP4 kuantizasyonu, modelin sayısal hassasiyetini BF16’dan 4 bit kayan nokta düzeyine indirerek çıkarım hızında 2 kata kadar artış sağlar
- Cosmos 3 Reasoner NIM servis yığını vLLM tabanlıdır; vLLM ise continuous batching, paged attention ve tensor parallelism gibi tekniklerle LLM’leri verimli biçimde servis eden açık kaynaklı bir çıkarım motorudur
- Cosmos 3 Nano, vLLM-omni ve NVIDIA Dynamo ile çalıştırılabilir
- Efficient Video Sampling (EVS), çıkarım sırasında VLM’ye giren video token sayısını azaltarak Cosmos Reason NIM’i hızlandırır
- EVS, her karede en özgün parçaları koruyup geri kalanını budar; bu tekniğin faydası özellikle daha küçük GPU’larda daha belirgin olma eğilimindedir
Nasıl çalıştırılır
- Konteyneri çekmek ve NGC’den Cosmos 3 modelini indirmek için NVIDIA NGC API anahtarı gerekir
- Cosmos 3 Nano Reasoner NIM’i çalıştırma örneği aşağıdadır
- Cosmos 3 Super Reasoner NIM’i kullanmak için
NIM_MODEL_SIZE=super belirtilir
docker run --gpus=all \
-e NGC_API_KEY=$NGC_API_KEY \
-e NIM_MODEL_SIZE=nano \
-p 8000:8000 \
nvcr.io/nim/nvidia/cosmos3-reasoner:latest
- API kullanımı ve ek bilgiler için belgelere bakılabilir
Başlangıç kaynakları
1 yorum
Hacker News görüşleri
Görüntü ve video üretimi için son teknoloji açık kaynak model
Diğer modellerin önünde ama 64 milyar parametre olduğu için çoğu kişisel bilgisayarda çalıştırmak için fazla büyük
Yine de yapay olarak üretilmiş bir eğitim veri kümesi kullanmış olduğu düşünülürse etkileyici
Nano Banana 1’i geçiyor ama henüz Nano Banana 2, Seedance2 ya da Grok Imagine gibi modellerle rekabet edecek seviyede değil
Kurumsal ürün duyuruları çoğu zaman ilk dokuz kelimede verilmesi gereken temel gerçeği bile açıkça söyleyemiyor
Yine de eksik kalan bir nüans var: bu, robot ve otonom araç yapay zeka eğitimi için faydalı olacak şekilde hedeflenmiş bir dünya modeli
Bu yüzden Nano Banana ya da Seedance’in doğrudan rakibi olmaktan ziyade, görüntü ve video da üretebilse de asıl amacı yapay zeka eğitim senaryoları için fizik verisi ve harness sağlaması
“Cosmos 3 Nano, 16 milyar parametreye sahip küçük bir sürümdür ve verimli çıkarım için optimize edilmiştir. NVIDIA RTX PRO 6000 GPU gibi iş istasyonu sınıfı hesaplama ortamlarında gerçek zamanlı robotik çıkarım ve fiziksel yapay zeka uygulamalarını çalıştırmak üzere tasarlanmıştır.”
Bunu çalıştırmak için gereken kadar pahalı 10 bin dolar üstü iş istasyonu sınıfı GPU üzerinde test edeceğim günü bekliyorum
Bu sürüm, işlevleri iki kuleden oluşan bir Mixture-of-Transformers (MoT) yapısı etrafında birleştiriyor
Çıkarım kulesi bir vision-language model (VLM) ve üretim gerçekleşmeden önce dünyayı muhakeme eden “beyin” görevi görüyor
Üretim kulesi gelecekteki gözlemleri ve eylem dizilerini üretiyor; çıkarım kulesinin anlayışını koşul olarak alıp fiziği hesaba katan video ve eylem çıktısını difüzyon tabanlı bir süreçle oluşturuyor
Bu yaklaşım, model yapıları arasındaki ödünleşimleri optimize edip dengeleyerek ikisinin avantajlarını birleştirmeye çalışan mühendislere özgü içgüdüye hitap ediyor
Ama benim anladığım Bitter Lesson’a göre(http://www.incompleteideas.net/IncIdeas/BitterLesson.html) uzun vadede tam olarak yanlış yön bu
Bitter Lesson’ın asıl metnine bağlantı vermemin sebebi, bu kavramın sık sık yanlış anlaşıldığını düşünmem ya da en azından söylemde kullanılış biçimine katılmamam
Esas fikir, yapay zeka araştırmacılarının ajanlara bilgi gömmeye çalıştığı; bunun kısa vadede işe yarayıp araştırmacıya tatmin verdiği ama uzun vadede tıkanıp ilerlemeyi engellediği ve sonunda keşif ile öğrenme yoluyla hesaplamayı ölçekleyen karşıt yaklaşımın atılım getirdiği yönündeki tarihsel gözlem
Bu mimari, kısa vadede faydalı olacak bilgiyi ajana gömmek gibi hissettiriyor ve uzun vadede tıkanma olasılığı yüksek görünüyor
Elbette bunun üzerinde ilginç öğrenmeler ya da çıktılar elde edilebilir ama bu yaklaşımdan sıkılacak çok fazla şey kaldığını düşünmüyorum
MoT mimarisi, Bitter Lesson’ın ima ettiği ideale benziyor. Ses, görüntü, metin, eylem ve video gibi tüm veri biçimlerini tek bir paylaşılan gizil uzaya koyup modelin bunları kendi kendine düzenlemesine izin veriyor
Sadece dizi modelleme/tahmin için otoregresif işlem, üretim içinse difüzyon kullanarak farklı gereksinimleri ve çıktı biçimlerini ele almak adına gereken en az yapıyı bırakıyor gibi
Amaç, içerideki sıkıştırılmış temsilden veriyi insanların kullanabileceği biçimde çıkarmak
Teknik olarak piksel ya da karakter düzeyinde kodlamayla da muhakeme edebilirsiniz ama bu genelde çok daha pahalıdır
Tüm tekniği bilgisayarları daha hızlı çalıştırmanın bir yolu olarak görebilirsiniz
Qwen talker ya da çoğu multimodal projector’da da görülebilir
Video girdisini de kabul ettiği için eski omni modellerden bile daha geniş
Mimari sıra dışı olsa da, her gün yayımlanan açık modellerden daha uç bir ayar içeriyor gibi görünmüyor
Depo güvenliği videosu örneği gerçekten komik. İnsanlar hiç tepki vermiyor
Kavşağın üzerine düşen elektrik direğinin büyük gölgesi de hiç mantıklı değil
İki kuleli Mixture-of-Transformers tasarımı, yani otoregresif bir muhakeme modelinin difüzyon üreticisine girdi vermesi, ilginç bir mimari bahis
Bunun ne yaptığını anlamak zor
“Gelecekteki gözlemleri ve eylem dizilerini üretir” ifadesi sadece video üretiminin karmaşık bir anlatımı mı?
Bu dünya modeli örneğin robot eylemlerini koşul olarak alıyor; dolayısıyla yalnızca video üretimiyle yapılamayan iki şeyi mümkün kılıyor
Belirli bir eylemden sonra gelecek kareleri tahmin edebiliyor ve aynı başlangıç karesinden, eylem değişirse farklı gelecekler üretebiliyor
Ayrıca tersine çalıştırılıp gözlenen karelerden sonra hangi eylemin geldiğini çıkarabiliyor ya da hedefe ulaşmak için gereken eylemleri üretebiliyor
Buradaki çıktı video kareleri değil, motor komutları
Barındırılan örneklerden biri yalnızca mevcut video analizi yapıyor, diğeri ise statik görüntüden video tahmin ediyor; yani video üretimi gerçekleştiriyor
Aynı zamanda mühendislikteki sonlu elemanlar yöntemi simülasyonundan farklı olarak 1x hızdan çok daha hızlı olması gerekiyor ve bu modelin o ihtiyacı hedeflediği anlaşılıyor
Robotları insanların evlerine göndermeden, birinci şahıs bakış açısından dünyayı simüle ederek eğitim verisi oluşturabilirsiniz
Seçilen örneklerin çoğu pek iyi görünmüyor
Kötü bir oyun motoru ile yapay zeka ıvır zıvırı tuhaf biçimde karışmış gibi
Bunun gerçek uygulamalar için iyi bir eğitim verisi olacağını hayal etmek zor
Ayrıca bu teknolojinin ve benzerlerinin tüm önde gelen otonom araç üreticilerinde büyük ölçekte kullanıldığı nesnel olarak doğru; dolayısıyla tümevarımsal olarak bakarsak o kullanım alanı için yeterince iyi olduğu söylenebilir
Cosmos’ta çalışmıyorum ama şu anda Nvidia’da yüzeyde benzer görünen, açık olmayan bir teknoloji üzerinde çalışıyorum ve pek çok lider şirket bunu kullanıyor
Bence kalite de benzer
İlgili açık araştırmalardan bazıları burada
https://github.com/nv-tlabs/3dgrut/
https://github.com/NVIDIA/harmonizer
https://github.com/NVIDIA/instant-nurec
https://github.com/nvidia/ncore
Nvidia, üzerinde çalıştığım şeylerin en azından bir kısmına Gsplat da entegre ediyor ve upstream’e katkıda bulunuyor
https://github.com/nerfstudio-project/gsplat
Bunca teknolojik ilerlemeye rağmen sitenin yüksek trafiği kaldırmakta zorlanması komik