Nvidia Cosmos 3

(developer.nvidia.com)

1 puan yazan GN⁺ 2026-06-02 | 1 yorum | WhatsApp'ta paylaş

NVIDIA Cosmos 3, fiziksel yapay zeka için fiziksel muhakeme, dünya üretimi ve eylem üretimini tek bir model içinde birleştiren tek bir açık temel modeldir
Mixture-of-Transformers mimarisi, giriş anlayışı ile fizik farkındalıklı üretim çıktısını bağlamak için Reasoner tower ve Generator tower’ı ayırır ve birden çok model ile çıkarım pipeline’ını orkestre etme ihtiyacını azaltır
Cosmos 3 Nano, 16B parametreyle iş istasyonu düzeyinde çıkarımı hedefler; Cosmos 3 Super ise 64B parametreyle veri merkezi dağıtımı ve yüksek kaliteli sentetik veri üretimini hedefler
NVIDIA; model checkpoint’leri, eğitim script’leri, dağıtım araçları, altı sentetik veri kümesi ve NIM mikroservislerini yayımlayarak robotik, otonom sürüş ve depo otomasyonu için alan uyarlamasını destekler
HUE ve çeşitli açık benchmark’larda Cosmos 3; fiziksel yapay zeka muhakemesi, üretim kalitesi ve alan performansı açısından değerlendirilirken, Super ve Nano sırasıyla VANTAGE-Bench’in 32B ve 8B katmanlarında liderlik gösterir

Cosmos 3'teki temel değişim

NVIDIA Cosmos 3, robotlar, otonom araçlar ve akıllı alanlar gibi fiziksel yapay zeka sistemlerinin dünyayı anlaması, bir sonraki durumu tahmin etmesi ve belirli ortam, biçim ve görevlere uygun eylemler üretmesi için tasarlanmış öncü bir temel modeldir
Önceki Cosmos sürümleri dünya üretimi, fiziksel anlama ve kontrollü sahne üretimini farklı modeller ve iş akışlarıyla ayırıyordu; Cosmos 3 ise bunları tek bir modelde birleştiriyor
Bu sürüm; Hugging Face üzerinde model checkpoint’leri, GitHub üzerinde kod, açık veri kümeleri, devam eğitimi script’leri ve NVIDIA GPU dağıtımı için Cosmos NIM mikroservisleri sunuyor

İki kuleli mimari

Cosmos 3, iki kule etrafında şekillenen bir Mixture-of-Transformers mimarisi kullanır
Reasoner tower, görüntü, video ve metin gibi çok modlu gözlemleri yorumlayan bir vision-language model (VLM)’dir; otoregresif yapısıyla girdileri yorumlar, hareketi, nesne etkileşimlerini ve fiziksel bağlamı anlar
Generator tower, Reasoner tower’ın anlayışını koşul olarak kullanarak fizik farkındalıklı video ve eylem çıktısını difüzyon tabanlı bir süreçle üretir
Reasoner bağımsız olarak çağrılabilir, ancak Generator yönlendirilmiş üretim için her zaman iki kuleyi de etkinleştirir
Bu mimari, muhakeme ve üretim görevlerini tek bir modelde işleyerek birden çok model ve çıkarım pipeline’ı arasındaki orkestrasyon ihtiyacını azaltır

Model boyutu seçimi

Cosmos 3 Nano, 16B parametreli kompakt bir modeldir ve verimli çıkarım için optimize edilmiştir
Nano, NVIDIA RTX PRO 6000 GPU gibi iş istasyonu sınıfı hesaplama üzerinde gerçek zamanlı robotik çıkarım ve fiziksel yapay zeka uygulamalarını çalıştırmak üzere tasarlanmıştır
Cosmos 3 Super, 64B parametreli bir modeldir ve en yüksek kalite ile yetenekleri hedefler
Super, en yüksek benchmark puanlarını sağlar ve NVIDIA Hopper ile NVIDIA Blackwell GPU tabanlı veri merkezi dağıtımlarını hedefler
Super, büyük ölçekli sentetik veri üretimi ve gelişmiş fiziksel muhakeme iş yükleri için uygundur

Açık veri kümeleri

NVIDIA, Cosmos 3 sürümüyle birlikte Hugging Face üzerinde altı sentetik veri üretimi (SDG) veri kümesini yayımladı
Bu veri kümeleri, Cosmos 3 ve diğer modellerin devam eğitimi için kullanılabilir; robotik, fizik simülasyonu, mekânsal muhakeme, insan hareketi, sürüş ve depo ortamlarını kapsar
Açık veri kümeleri:

HUE değerlendirme çerçevesi

NVIDIA Cosmos Human Evaluation (HUE), temsilî alan görevlerinde Cosmos 3 Generator’ın kalitesini değerlendirir
En yeni video üretim modelleri mevcut otomatik leaderboard’larda doygunluğa ulaştıkça, sürümler arasındaki puan farkları çoğu zaman anlamlı karşılaştırma için yeterli olmamaya başladı
HUE, değerlendirmeyi öznel puanlamadan nesnel olgu doğrulamaya kaydırarak üst düzey modeller arasında daha ince karşılaştırmaları mümkün kılar
HUE, üretilen videoyu dört boyuta yayılan tek olgusal evet/hayır sorularına ayırır
- Anlamsal hizalama
- Fizik yasaları
- Geometrik muhakeme
- Görsel bütünlük
Sorular, robotik, otonom araçlar ve fizik dahil olmak üzere yedi Physical AI alanını kapsar
Sorular bir VLM pipeline’ı ile üretilir, insan uzmanlar tarafından rafine edilir ve Hugging Face üzerinde açık kaynak olarak yayımlanır

Benchmark sonuçları

Cosmos 3; fiziksel yapay zeka muhakemesi, üretim kalitesi ve alana özgü performansı kapsayan çeşitli benchmark ailesinde değerlendirildi
Muhakeme benchmark’larında Cosmos 3 Super ve Cosmos 3 Nano, VANTAGE-Bench’in sırasıyla 32B ve 8B katmanlarında lider oldu
VANTAGE-Bench, depo, trafik ve akıllı alanlardaki gerçek sabit kamera görüntüleri üzerinde vision-language model’leri değerlendiren ilk açık benchmark’tır
Traffic Anomaly Reasoning (TAR), trafik videolarında anomali olaylarını tespit edip muhakeme eden yeni bir leaderboard’dur ve AI City Challenge 2026 Track 3’ün resmî leaderboard’udur
Üretim benchmark’larında Cosmos 3, açık leaderboard’lara göre açık kaynak SOTA konumundadır ve PAI-Bench, R-Bench Physics-IQ ve RoboLab’da liderlik gösterir
Artificial Analysis değerlendirmesinde Cosmos 3, Text to Image leaderboard ve Image to Video (no audio) leaderboard üzerinde lider açık kaynak model olarak yer alır
R-Bench, robot video üretiminde video tabanlı world model’leri değerlendirir ve yapısal tutarlılık, fiziksel geçerlilik ve yürütme tamlığı gibi alt metrikleri kullanır
PAI-Bench, robotik, otonom araçlar ve fiziksel sağduyu gibi alanlarda video anlama ile video üretimini değerlendirir
Physics-IQ, üretici video modellerinin yalnızca görsel gerçekçiliğe mi ulaştığını, yoksa gerçek fizik ilkelerini anlayıp anlamadığını test eder
RoboLab, görev genelleştirme robot politikalarını değerlendiren bir simülasyon benchmark’ıdır

Eğitim reçeteleri ve alan uyarlaması

Cosmos 3 sürümü, model checkpoint’lerinin ötesine geçerek kod, ayar ve iş akışlarını da yayımlar; böylece model yeni alanlara, biçimlere ve veri kümelerine uyarlanabilir
Denetimli ince ayar (SFT), geliştiricilerin Cosmos 3 modellerini kendi verilerine göre ayarlamasını destekler
Açık reçeteler, özel video veri kümeleri için vision generation devam eğitimini ve robotik ile fiziksel yapay zeka iş akışları için eylem odaklı reçeteleri kapsar
Geliştiriciler, Cosmos 3’ü robotik, otonom sürüş ve depo otomasyonu gibi hedef alanlara göre özelleştirebilir
Devam eğitimi kodu ve ayarları GitHub’da sunuluyor
Eylem devam eğitimi, Cosmos 3’ü forward dynamics, inverse dynamics ve policy generation gibi eylem farkındalıklı Physical AI uygulamalarına göre ayarlar
Robotikte bu; robot eylemleri koşuluyla gelecekteki gözlemleri üretme, gözlemlenen gösterimin arkasındaki eylemleri çıkarma ve mevcut gözlemler ile görev prompt’undan eylem dizilerini tahmin etme iş akışlarını destekler

NIM mikroservis dağıtımı

Cosmos 3 modelleri, optimize edilmiş üretim dağıtımı için NVIDIA NIM microservices üzerinden de sunuluyor
NIM mikroservisleri, modeli ve optimize edilmiş çıkarım çalışma zamanını paketleyerek servis altyapısını doğrudan ayarlamadan yüksek performans elde etmeyi sağlar
Çıkarım iş akışlarında NIM mikroservisleri, Cosmos 3 GitHub deposuna göre daha kolay kullanım sunarken GitHub deposu devam eğitimi iş akışları için daha uygundur
Cosmos 3 Reasoner NIM şu anda Cosmos 3 modelinin muhakeme yeteneklerini sunuyor
NIM, BF16, FP8 ve NVFP4 kuantizasyon checkpoint seçeneklerini destekler
NVFP4 kuantizasyonu, modelin sayısal hassasiyetini BF16’dan 4 bit kayan nokta düzeyine indirerek çıkarım hızında 2 kata kadar artış sağlar
Cosmos 3 Reasoner NIM servis yığını vLLM tabanlıdır; vLLM ise continuous batching, paged attention ve tensor parallelism gibi tekniklerle LLM’leri verimli biçimde servis eden açık kaynaklı bir çıkarım motorudur
Cosmos 3 Nano, vLLM-omni ve NVIDIA Dynamo ile çalıştırılabilir
Efficient Video Sampling (EVS), çıkarım sırasında VLM’ye giren video token sayısını azaltarak Cosmos Reason NIM’i hızlandırır
EVS, her karede en özgün parçaları koruyup geri kalanını budar; bu tekniğin faydası özellikle daha küçük GPU’larda daha belirgin olma eğilimindedir

Nasıl çalıştırılır

Konteyneri çekmek ve NGC’den Cosmos 3 modelini indirmek için NVIDIA NGC API anahtarı gerekir
Cosmos 3 Nano Reasoner NIM’i çalıştırma örneği aşağıdadır
Cosmos 3 Super Reasoner NIM’i kullanmak için NIM_MODEL_SIZE=super belirtilir

docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:latest

API kullanımı ve ek bilgiler için belgelere bakılabilir

Başlangıç kaynakları

Cosmos 3 Nano ve Super checkpoint’leri Hugging Face üzerinden indirilebilir
Örnekler ve kodlar Cosmos 3 GitHub üzerinde bulunabilir
Cosmos 3 Nano Reasoner model experience ve Cosmos 3 Nano model experience denenebilir
GitHub ve Discord üzerinden Cosmos ekosistemine katılabilir, issue açabilir ve katkıda bulunabilirsiniz

1 yorum

GN⁺ 2026-06-02

Hacker News görüşleri

Görüntü ve video üretimi için son teknoloji açık kaynak model
Diğer modellerin önünde ama 64 milyar parametre olduğu için çoğu kişisel bilgisayarda çalıştırmak için fazla büyük
Yine de yapay olarak üretilmiş bir eğitim veri kümesi kullanmış olduğu düşünülürse etkileyici
Nano Banana 1’i geçiyor ama henüz Nano Banana 2, Seedance2 ya da Grok Imagine gibi modellerle rekabet edecek seviyede değil
- Büyük şirketlerin klişe ürün duyuru yazılarını artık tıklamadan doğrudan yorumlara geçiyor olmak acı bir ironi
  Kurumsal ürün duyuruları çoğu zaman ilk dokuz kelimede verilmesi gereken temel gerçeği bile açıkça söyleyemiyor
  Yine de eksik kalan bir nüans var: bu, robot ve otonom araç yapay zeka eğitimi için faydalı olacak şekilde hedeflenmiş bir dünya modeli
  Bu yüzden Nano Banana ya da Seedance’in doğrudan rakibi olmaktan ziyade, görüntü ve video da üretebilse de asıl amacı yapay zeka eğitim senaryoları için fizik verisi ve harness sağlaması
- Görüntü ve video üretim modelleri, yerel modellerin frontier modellere ne kadar yaklaştığını ölçmek için daha anlaşılır bir gerçeklik kontrolü ölçütü
“Cosmos 3 Nano, 16 milyar parametreye sahip küçük bir sürümdür ve verimli çıkarım için optimize edilmiştir. NVIDIA RTX PRO 6000 GPU gibi iş istasyonu sınıfı hesaplama ortamlarında gerçek zamanlı robotik çıkarım ve fiziksel yapay zeka uygulamalarını çalıştırmak üzere tasarlanmıştır.”
Bunu çalıştırmak için gereken kadar pahalı 10 bin dolar üstü iş istasyonu sınıfı GPU üzerinde test edeceğim günü bekliyorum
- GPU var ama robot yok. Bununla oynamak için asgari işlevli bir robotun ne kadar yeterli olacağını merak ediyorum?
- İyi haber şu ki Nvidia bunu çalıştırabilecek yeni bir RTX Spark dizüstü bilgisayarı size memnuniyetle satacaktır
Bu sürüm, işlevleri iki kuleden oluşan bir Mixture-of-Transformers (MoT) yapısı etrafında birleştiriyor
Çıkarım kulesi bir vision-language model (VLM) ve üretim gerçekleşmeden önce dünyayı muhakeme eden “beyin” görevi görüyor
Üretim kulesi gelecekteki gözlemleri ve eylem dizilerini üretiyor; çıkarım kulesinin anlayışını koşul olarak alıp fiziği hesaba katan video ve eylem çıktısını difüzyon tabanlı bir süreçle oluşturuyor
Bu yaklaşım, model yapıları arasındaki ödünleşimleri optimize edip dengeleyerek ikisinin avantajlarını birleştirmeye çalışan mühendislere özgü içgüdüye hitap ediyor
Ama benim anladığım Bitter Lesson’a göre(http://www.incompleteideas.net/IncIdeas/BitterLesson.html) uzun vadede tam olarak yanlış yön bu
Bitter Lesson’ın asıl metnine bağlantı vermemin sebebi, bu kavramın sık sık yanlış anlaşıldığını düşünmem ya da en azından söylemde kullanılış biçimine katılmamam
Esas fikir, yapay zeka araştırmacılarının ajanlara bilgi gömmeye çalıştığı; bunun kısa vadede işe yarayıp araştırmacıya tatmin verdiği ama uzun vadede tıkanıp ilerlemeyi engellediği ve sonunda keşif ile öğrenme yoluyla hesaplamayı ölçekleyen karşıt yaklaşımın atılım getirdiği yönündeki tarihsel gözlem
Bu mimari, kısa vadede faydalı olacak bilgiyi ajana gömmek gibi hissettiriyor ve uzun vadede tıkanma olasılığı yüksek görünüyor
Elbette bunun üzerinde ilginç öğrenmeler ya da çıktılar elde edilebilir ama bu yaklaşımdan sıkılacak çok fazla şey kaldığını düşünmüyorum
- Bana ise tam tersi gibi geliyor
  MoT mimarisi, Bitter Lesson’ın ima ettiği ideale benziyor. Ses, görüntü, metin, eylem ve video gibi tüm veri biçimlerini tek bir paylaşılan gizil uzaya koyup modelin bunları kendi kendine düzenlemesine izin veriyor
  Sadece dizi modelleme/tahmin için otoregresif işlem, üretim içinse difüzyon kullanarak farklı gereksinimleri ve çıktı biçimlerini ele almak adına gereken en az yapıyı bırakıyor gibi
- Bu büyük ölçüde bir dekompresyon işi ve bugünlerde oldukça standart
  Amaç, içerideki sıkıştırılmış temsilden veriyi insanların kullanabileceği biçimde çıkarmak
  Teknik olarak piksel ya da karakter düzeyinde kodlamayla da muhakeme edebilirsiniz ama bu genelde çok daha pahalıdır
  Tüm tekniği bilgisayarları daha hızlı çalıştırmanın bir yolu olarak görebilirsiniz
  Qwen talker ya da çoğu multimodal projector’da da görülebilir
- Yine de bu modelin alan kapsamı bir metin LLM’sinden daha geniş
  Video girdisini de kabul ettiği için eski omni modellerden bile daha geniş
  Mimari sıra dışı olsa da, her gün yayımlanan açık modellerden daha uç bir ayar içeriyor gibi görünmüyor
Depo güvenliği videosu örneği gerçekten komik. İnsanlar hiç tepki vermiyor
- Araba videosu da tuhaf. Kesişen van açıkça kırmızı ışıkta geçiyor
  Kavşağın üzerine düşen elektrik direğinin büyük gölgesi de hiç mantıklı değil
İki kuleli Mixture-of-Transformers tasarımı, yani otoregresif bir muhakeme modelinin difüzyon üreticisine girdi vermesi, ilginç bir mimari bahis
Bunun ne yaptığını anlamak zor
“Gelecekteki gözlemleri ve eylem dizilerini üretir” ifadesi sadece video üretiminin karmaşık bir anlatımı mı?
- Hayır. Fark eylem kısmında
  Bu dünya modeli örneğin robot eylemlerini koşul olarak alıyor; dolayısıyla yalnızca video üretimiyle yapılamayan iki şeyi mümkün kılıyor
  Belirli bir eylemden sonra gelecek kareleri tahmin edebiliyor ve aynı başlangıç karesinden, eylem değişirse farklı gelecekler üretebiliyor
  Ayrıca tersine çalıştırılıp gözlenen karelerden sonra hangi eylemin geldiğini çıkarabiliyor ya da hedefe ulaşmak için gereken eylemleri üretebiliyor
  Buradaki çıktı video kareleri değil, motor komutları
- Benim anladığım kadarıyla bu hem bilgisayarlı görü hem de video üretimi anlamına geliyor ve bunları oldukça sağlam bir dünya modeli ile birleştiriyor
  Barındırılan örneklerden biri yalnızca mevcut video analizi yapıyor, diğeri ise statik görüntüden video tahmin ediyor; yani video üretimi gerçekleştiriyor
- Bunun ne olduğunu ve neden böyle anlatıldığını tahmin edecek olursam, yapay zeka robotik alanının Unity ya da Unreal tarzı deforme olmayan rijit cisim fiziğinden daha iyi fiziğe sahip hipergerçekçi bir oyun motoruna ihtiyacı var
  Aynı zamanda mühendislikteki sonlu elemanlar yöntemi simülasyonundan farklı olarak 1x hızdan çok daha hızlı olması gerekiyor ve bu modelin o ihtiyacı hedeflediği anlaşılıyor
- Desteklenen biçimler tablosuna bakmak yeterli. Girdi olarak görüntü, video, metin ve eylem alıyor; çıktı olarak da görüntü, video, metin ve eylem verebiliyor
- Robot, araba ve drone gibi fiziksel yapay zeka sistemlerini eğitmek için sentetik veri üretmekte kullanılabilir
  Robotları insanların evlerine göndermeden, birinci şahıs bakış açısından dünyayı simüle ederek eğitim verisi oluşturabilirsiniz
Seçilen örneklerin çoğu pek iyi görünmüyor
Kötü bir oyun motoru ile yapay zeka ıvır zıvırı tuhaf biçimde karışmış gibi
Bunun gerçek uygulamalar için iyi bir eğitim verisi olacağını hayal etmek zor
- Bu demolar dürüst olmak gerekirse oldukça iyi görünüyor
  Ayrıca bu teknolojinin ve benzerlerinin tüm önde gelen otonom araç üreticilerinde büyük ölçekte kullanıldığı nesnel olarak doğru; dolayısıyla tümevarımsal olarak bakarsak o kullanım alanı için yeterince iyi olduğu söylenebilir
  Cosmos’ta çalışmıyorum ama şu anda Nvidia’da yüzeyde benzer görünen, açık olmayan bir teknoloji üzerinde çalışıyorum ve pek çok lider şirket bunu kullanıyor
  Bence kalite de benzer
  İlgili açık araştırmalardan bazıları burada
  https://github.com/nv-tlabs/3dgrut/
  https://github.com/NVIDIA/harmonizer
  https://github.com/NVIDIA/instant-nurec
  https://github.com/nvidia/ncore
  Nvidia, üzerinde çalıştığım şeylerin en azından bir kısmına Gsplat da entegre ediyor ve upstream’e katkıda bulunuyor
  https://github.com/nerfstudio-project/gsplat
Bunca teknolojik ilerlemeye rağmen sitenin yüksek trafiği kaldırmakta zorlanması komik

Nvidia Cosmos 3

Cosmos 3'teki temel değişim

İki kuleli mimari

Model boyutu seçimi

Açık veri kümeleri

HUE değerlendirme çerçevesi

Benchmark sonuçları

Eğitim reçeteleri ve alan uyarlaması

NIM mikroservis dağıtımı

Nasıl çalıştırılır

Başlangıç kaynakları

İlgili okumalar

1 yorum

Hacker News görüşleri