1 puan yazan GN⁺ 3 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • NVIDIA Cosmos 3, fiziksel yapay zeka için fiziksel muhakeme, dünya üretimi ve eylem üretimini tek bir model içinde birleştiren tek bir açık temel modeldir
  • Mixture-of-Transformers mimarisi, giriş anlayışı ile fizik farkındalıklı üretim çıktısını bağlamak için Reasoner tower ve Generator tower’ı ayırır ve birden çok model ile çıkarım pipeline’ını orkestre etme ihtiyacını azaltır
  • Cosmos 3 Nano, 16B parametreyle iş istasyonu düzeyinde çıkarımı hedefler; Cosmos 3 Super ise 64B parametreyle veri merkezi dağıtımı ve yüksek kaliteli sentetik veri üretimini hedefler
  • NVIDIA; model checkpoint’leri, eğitim script’leri, dağıtım araçları, altı sentetik veri kümesi ve NIM mikroservislerini yayımlayarak robotik, otonom sürüş ve depo otomasyonu için alan uyarlamasını destekler
  • HUE ve çeşitli açık benchmark’larda Cosmos 3; fiziksel yapay zeka muhakemesi, üretim kalitesi ve alan performansı açısından değerlendirilirken, Super ve Nano sırasıyla VANTAGE-Bench’in 32B ve 8B katmanlarında liderlik gösterir

Cosmos 3'teki temel değişim

  • NVIDIA Cosmos 3, robotlar, otonom araçlar ve akıllı alanlar gibi fiziksel yapay zeka sistemlerinin dünyayı anlaması, bir sonraki durumu tahmin etmesi ve belirli ortam, biçim ve görevlere uygun eylemler üretmesi için tasarlanmış öncü bir temel modeldir
  • Önceki Cosmos sürümleri dünya üretimi, fiziksel anlama ve kontrollü sahne üretimini farklı modeller ve iş akışlarıyla ayırıyordu; Cosmos 3 ise bunları tek bir modelde birleştiriyor
  • Bu sürüm; Hugging Face üzerinde model checkpoint’leri, GitHub üzerinde kod, açık veri kümeleri, devam eğitimi script’leri ve NVIDIA GPU dağıtımı için Cosmos NIM mikroservisleri sunuyor

İki kuleli mimari

  • Cosmos 3, iki kule etrafında şekillenen bir Mixture-of-Transformers mimarisi kullanır
  • Reasoner tower, görüntü, video ve metin gibi çok modlu gözlemleri yorumlayan bir vision-language model (VLM)’dir; otoregresif yapısıyla girdileri yorumlar, hareketi, nesne etkileşimlerini ve fiziksel bağlamı anlar
  • Generator tower, Reasoner tower’ın anlayışını koşul olarak kullanarak fizik farkındalıklı video ve eylem çıktısını difüzyon tabanlı bir süreçle üretir
  • Reasoner bağımsız olarak çağrılabilir, ancak Generator yönlendirilmiş üretim için her zaman iki kuleyi de etkinleştirir
  • Bu mimari, muhakeme ve üretim görevlerini tek bir modelde işleyerek birden çok model ve çıkarım pipeline’ı arasındaki orkestrasyon ihtiyacını azaltır

Model boyutu seçimi

  • Cosmos 3 Nano, 16B parametreli kompakt bir modeldir ve verimli çıkarım için optimize edilmiştir
  • Nano, NVIDIA RTX PRO 6000 GPU gibi iş istasyonu sınıfı hesaplama üzerinde gerçek zamanlı robotik çıkarım ve fiziksel yapay zeka uygulamalarını çalıştırmak üzere tasarlanmıştır
  • Cosmos 3 Super, 64B parametreli bir modeldir ve en yüksek kalite ile yetenekleri hedefler
  • Super, en yüksek benchmark puanlarını sağlar ve NVIDIA Hopper ile NVIDIA Blackwell GPU tabanlı veri merkezi dağıtımlarını hedefler
  • Super, büyük ölçekli sentetik veri üretimi ve gelişmiş fiziksel muhakeme iş yükleri için uygundur

Açık veri kümeleri

HUE değerlendirme çerçevesi

  • NVIDIA Cosmos Human Evaluation (HUE), temsilî alan görevlerinde Cosmos 3 Generator’ın kalitesini değerlendirir
  • En yeni video üretim modelleri mevcut otomatik leaderboard’larda doygunluğa ulaştıkça, sürümler arasındaki puan farkları çoğu zaman anlamlı karşılaştırma için yeterli olmamaya başladı
  • HUE, değerlendirmeyi öznel puanlamadan nesnel olgu doğrulamaya kaydırarak üst düzey modeller arasında daha ince karşılaştırmaları mümkün kılar
  • HUE, üretilen videoyu dört boyuta yayılan tek olgusal evet/hayır sorularına ayırır
    • Anlamsal hizalama
    • Fizik yasaları
    • Geometrik muhakeme
    • Görsel bütünlük
  • Sorular, robotik, otonom araçlar ve fizik dahil olmak üzere yedi Physical AI alanını kapsar
  • Sorular bir VLM pipeline’ı ile üretilir, insan uzmanlar tarafından rafine edilir ve Hugging Face üzerinde açık kaynak olarak yayımlanır

Benchmark sonuçları

  • Cosmos 3; fiziksel yapay zeka muhakemesi, üretim kalitesi ve alana özgü performansı kapsayan çeşitli benchmark ailesinde değerlendirildi
  • Muhakeme benchmark’larında Cosmos 3 Super ve Cosmos 3 Nano, VANTAGE-Bench’in sırasıyla 32B ve 8B katmanlarında lider oldu
  • VANTAGE-Bench, depo, trafik ve akıllı alanlardaki gerçek sabit kamera görüntüleri üzerinde vision-language model’leri değerlendiren ilk açık benchmark’tır
  • Traffic Anomaly Reasoning (TAR), trafik videolarında anomali olaylarını tespit edip muhakeme eden yeni bir leaderboard’dur ve AI City Challenge 2026 Track 3’ün resmî leaderboard’udur
  • Üretim benchmark’larında Cosmos 3, açık leaderboard’lara göre açık kaynak SOTA konumundadır ve PAI-Bench, R-Bench Physics-IQ ve RoboLab’da liderlik gösterir
  • Artificial Analysis değerlendirmesinde Cosmos 3, Text to Image leaderboard ve Image to Video (no audio) leaderboard üzerinde lider açık kaynak model olarak yer alır
  • R-Bench, robot video üretiminde video tabanlı world model’leri değerlendirir ve yapısal tutarlılık, fiziksel geçerlilik ve yürütme tamlığı gibi alt metrikleri kullanır
  • PAI-Bench, robotik, otonom araçlar ve fiziksel sağduyu gibi alanlarda video anlama ile video üretimini değerlendirir
  • Physics-IQ, üretici video modellerinin yalnızca görsel gerçekçiliğe mi ulaştığını, yoksa gerçek fizik ilkelerini anlayıp anlamadığını test eder
  • RoboLab, görev genelleştirme robot politikalarını değerlendiren bir simülasyon benchmark’ıdır

Eğitim reçeteleri ve alan uyarlaması

  • Cosmos 3 sürümü, model checkpoint’lerinin ötesine geçerek kod, ayar ve iş akışlarını da yayımlar; böylece model yeni alanlara, biçimlere ve veri kümelerine uyarlanabilir
  • Denetimli ince ayar (SFT), geliştiricilerin Cosmos 3 modellerini kendi verilerine göre ayarlamasını destekler
  • Açık reçeteler, özel video veri kümeleri için vision generation devam eğitimini ve robotik ile fiziksel yapay zeka iş akışları için eylem odaklı reçeteleri kapsar
  • Geliştiriciler, Cosmos 3’ü robotik, otonom sürüş ve depo otomasyonu gibi hedef alanlara göre özelleştirebilir
  • Devam eğitimi kodu ve ayarları GitHub’da sunuluyor
  • Eylem devam eğitimi, Cosmos 3’ü forward dynamics, inverse dynamics ve policy generation gibi eylem farkındalıklı Physical AI uygulamalarına göre ayarlar
  • Robotikte bu; robot eylemleri koşuluyla gelecekteki gözlemleri üretme, gözlemlenen gösterimin arkasındaki eylemleri çıkarma ve mevcut gözlemler ile görev prompt’undan eylem dizilerini tahmin etme iş akışlarını destekler

NIM mikroservis dağıtımı

  • Cosmos 3 modelleri, optimize edilmiş üretim dağıtımı için NVIDIA NIM microservices üzerinden de sunuluyor
  • NIM mikroservisleri, modeli ve optimize edilmiş çıkarım çalışma zamanını paketleyerek servis altyapısını doğrudan ayarlamadan yüksek performans elde etmeyi sağlar
  • Çıkarım iş akışlarında NIM mikroservisleri, Cosmos 3 GitHub deposuna göre daha kolay kullanım sunarken GitHub deposu devam eğitimi iş akışları için daha uygundur
  • Cosmos 3 Reasoner NIM şu anda Cosmos 3 modelinin muhakeme yeteneklerini sunuyor
  • NIM, BF16, FP8 ve NVFP4 kuantizasyon checkpoint seçeneklerini destekler
  • NVFP4 kuantizasyonu, modelin sayısal hassasiyetini BF16’dan 4 bit kayan nokta düzeyine indirerek çıkarım hızında 2 kata kadar artış sağlar
  • Cosmos 3 Reasoner NIM servis yığını vLLM tabanlıdır; vLLM ise continuous batching, paged attention ve tensor parallelism gibi tekniklerle LLM’leri verimli biçimde servis eden açık kaynaklı bir çıkarım motorudur
  • Cosmos 3 Nano, vLLM-omni ve NVIDIA Dynamo ile çalıştırılabilir
  • Efficient Video Sampling (EVS), çıkarım sırasında VLM’ye giren video token sayısını azaltarak Cosmos Reason NIM’i hızlandırır
  • EVS, her karede en özgün parçaları koruyup geri kalanını budar; bu tekniğin faydası özellikle daha küçük GPU’larda daha belirgin olma eğilimindedir

Nasıl çalıştırılır

  • Konteyneri çekmek ve NGC’den Cosmos 3 modelini indirmek için NVIDIA NGC API anahtarı gerekir
  • Cosmos 3 Nano Reasoner NIM’i çalıştırma örneği aşağıdadır
  • Cosmos 3 Super Reasoner NIM’i kullanmak için NIM_MODEL_SIZE=super belirtilir
docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:latest
  • API kullanımı ve ek bilgiler için belgelere bakılabilir

Başlangıç kaynakları

1 yorum

 
GN⁺ 3 시간 전
Hacker News görüşleri
  • Görüntü ve video üretimi için son teknoloji açık kaynak model
    Diğer modellerin önünde ama 64 milyar parametre olduğu için çoğu kişisel bilgisayarda çalıştırmak için fazla büyük
    Yine de yapay olarak üretilmiş bir eğitim veri kümesi kullanmış olduğu düşünülürse etkileyici
    Nano Banana 1’i geçiyor ama henüz Nano Banana 2, Seedance2 ya da Grok Imagine gibi modellerle rekabet edecek seviyede değil

    • Büyük şirketlerin klişe ürün duyuru yazılarını artık tıklamadan doğrudan yorumlara geçiyor olmak acı bir ironi
      Kurumsal ürün duyuruları çoğu zaman ilk dokuz kelimede verilmesi gereken temel gerçeği bile açıkça söyleyemiyor
      Yine de eksik kalan bir nüans var: bu, robot ve otonom araç yapay zeka eğitimi için faydalı olacak şekilde hedeflenmiş bir dünya modeli
      Bu yüzden Nano Banana ya da Seedance’in doğrudan rakibi olmaktan ziyade, görüntü ve video da üretebilse de asıl amacı yapay zeka eğitim senaryoları için fizik verisi ve harness sağlaması
    • Görüntü ve video üretim modelleri, yerel modellerin frontier modellere ne kadar yaklaştığını ölçmek için daha anlaşılır bir gerçeklik kontrolü ölçütü
  • “Cosmos 3 Nano, 16 milyar parametreye sahip küçük bir sürümdür ve verimli çıkarım için optimize edilmiştir. NVIDIA RTX PRO 6000 GPU gibi iş istasyonu sınıfı hesaplama ortamlarında gerçek zamanlı robotik çıkarım ve fiziksel yapay zeka uygulamalarını çalıştırmak üzere tasarlanmıştır.”
    Bunu çalıştırmak için gereken kadar pahalı 10 bin dolar üstü iş istasyonu sınıfı GPU üzerinde test edeceğim günü bekliyorum

    • GPU var ama robot yok. Bununla oynamak için asgari işlevli bir robotun ne kadar yeterli olacağını merak ediyorum?
    • İyi haber şu ki Nvidia bunu çalıştırabilecek yeni bir RTX Spark dizüstü bilgisayarı size memnuniyetle satacaktır
  • Bu sürüm, işlevleri iki kuleden oluşan bir Mixture-of-Transformers (MoT) yapısı etrafında birleştiriyor
    Çıkarım kulesi bir vision-language model (VLM) ve üretim gerçekleşmeden önce dünyayı muhakeme eden “beyin” görevi görüyor
    Üretim kulesi gelecekteki gözlemleri ve eylem dizilerini üretiyor; çıkarım kulesinin anlayışını koşul olarak alıp fiziği hesaba katan video ve eylem çıktısını difüzyon tabanlı bir süreçle oluşturuyor
    Bu yaklaşım, model yapıları arasındaki ödünleşimleri optimize edip dengeleyerek ikisinin avantajlarını birleştirmeye çalışan mühendislere özgü içgüdüye hitap ediyor
    Ama benim anladığım Bitter Lesson’a göre(http://www.incompleteideas.net/IncIdeas/BitterLesson.html) uzun vadede tam olarak yanlış yön bu
    Bitter Lesson’ın asıl metnine bağlantı vermemin sebebi, bu kavramın sık sık yanlış anlaşıldığını düşünmem ya da en azından söylemde kullanılış biçimine katılmamam
    Esas fikir, yapay zeka araştırmacılarının ajanlara bilgi gömmeye çalıştığı; bunun kısa vadede işe yarayıp araştırmacıya tatmin verdiği ama uzun vadede tıkanıp ilerlemeyi engellediği ve sonunda keşif ile öğrenme yoluyla hesaplamayı ölçekleyen karşıt yaklaşımın atılım getirdiği yönündeki tarihsel gözlem
    Bu mimari, kısa vadede faydalı olacak bilgiyi ajana gömmek gibi hissettiriyor ve uzun vadede tıkanma olasılığı yüksek görünüyor
    Elbette bunun üzerinde ilginç öğrenmeler ya da çıktılar elde edilebilir ama bu yaklaşımdan sıkılacak çok fazla şey kaldığını düşünmüyorum

    • Bana ise tam tersi gibi geliyor
      MoT mimarisi, Bitter Lesson’ın ima ettiği ideale benziyor. Ses, görüntü, metin, eylem ve video gibi tüm veri biçimlerini tek bir paylaşılan gizil uzaya koyup modelin bunları kendi kendine düzenlemesine izin veriyor
      Sadece dizi modelleme/tahmin için otoregresif işlem, üretim içinse difüzyon kullanarak farklı gereksinimleri ve çıktı biçimlerini ele almak adına gereken en az yapıyı bırakıyor gibi
    • Bu büyük ölçüde bir dekompresyon işi ve bugünlerde oldukça standart
      Amaç, içerideki sıkıştırılmış temsilden veriyi insanların kullanabileceği biçimde çıkarmak
      Teknik olarak piksel ya da karakter düzeyinde kodlamayla da muhakeme edebilirsiniz ama bu genelde çok daha pahalıdır
      Tüm tekniği bilgisayarları daha hızlı çalıştırmanın bir yolu olarak görebilirsiniz
      Qwen talker ya da çoğu multimodal projector’da da görülebilir
    • Yine de bu modelin alan kapsamı bir metin LLM’sinden daha geniş
      Video girdisini de kabul ettiği için eski omni modellerden bile daha geniş
      Mimari sıra dışı olsa da, her gün yayımlanan açık modellerden daha uç bir ayar içeriyor gibi görünmüyor
  • Depo güvenliği videosu örneği gerçekten komik. İnsanlar hiç tepki vermiyor

    • Araba videosu da tuhaf. Kesişen van açıkça kırmızı ışıkta geçiyor
      Kavşağın üzerine düşen elektrik direğinin büyük gölgesi de hiç mantıklı değil
  • İki kuleli Mixture-of-Transformers tasarımı, yani otoregresif bir muhakeme modelinin difüzyon üreticisine girdi vermesi, ilginç bir mimari bahis

  • Bunun ne yaptığını anlamak zor
    “Gelecekteki gözlemleri ve eylem dizilerini üretir” ifadesi sadece video üretiminin karmaşık bir anlatımı mı?

    • Hayır. Fark eylem kısmında
      Bu dünya modeli örneğin robot eylemlerini koşul olarak alıyor; dolayısıyla yalnızca video üretimiyle yapılamayan iki şeyi mümkün kılıyor
      Belirli bir eylemden sonra gelecek kareleri tahmin edebiliyor ve aynı başlangıç karesinden, eylem değişirse farklı gelecekler üretebiliyor
      Ayrıca tersine çalıştırılıp gözlenen karelerden sonra hangi eylemin geldiğini çıkarabiliyor ya da hedefe ulaşmak için gereken eylemleri üretebiliyor
      Buradaki çıktı video kareleri değil, motor komutları
    • Benim anladığım kadarıyla bu hem bilgisayarlı görü hem de video üretimi anlamına geliyor ve bunları oldukça sağlam bir dünya modeli ile birleştiriyor
      Barındırılan örneklerden biri yalnızca mevcut video analizi yapıyor, diğeri ise statik görüntüden video tahmin ediyor; yani video üretimi gerçekleştiriyor
    • Bunun ne olduğunu ve neden böyle anlatıldığını tahmin edecek olursam, yapay zeka robotik alanının Unity ya da Unreal tarzı deforme olmayan rijit cisim fiziğinden daha iyi fiziğe sahip hipergerçekçi bir oyun motoruna ihtiyacı var
      Aynı zamanda mühendislikteki sonlu elemanlar yöntemi simülasyonundan farklı olarak 1x hızdan çok daha hızlı olması gerekiyor ve bu modelin o ihtiyacı hedeflediği anlaşılıyor
    • Desteklenen biçimler tablosuna bakmak yeterli. Girdi olarak görüntü, video, metin ve eylem alıyor; çıktı olarak da görüntü, video, metin ve eylem verebiliyor
    • Robot, araba ve drone gibi fiziksel yapay zeka sistemlerini eğitmek için sentetik veri üretmekte kullanılabilir
      Robotları insanların evlerine göndermeden, birinci şahıs bakış açısından dünyayı simüle ederek eğitim verisi oluşturabilirsiniz
  • Seçilen örneklerin çoğu pek iyi görünmüyor
    Kötü bir oyun motoru ile yapay zeka ıvır zıvırı tuhaf biçimde karışmış gibi
    Bunun gerçek uygulamalar için iyi bir eğitim verisi olacağını hayal etmek zor

  • Bunca teknolojik ilerlemeye rağmen sitenin yüksek trafiği kaldırmakta zorlanması komik