6 puan yazan GN⁺ 2026-02-07 | 1 yorum | WhatsApp'ta paylaş
  • Büyük ölçekli otonom sürüş simülasyonu için üretken bir dünya modeli olup, gerçeğe benzer ortamları gerçek zamanlı olarak yeniden üretir
  • Genie 3 tabanlı olarak inşa edilmiştir ve nadir veya uç durumları (hortum, sel, hayvanların ortaya çıkması vb.) gerçekçi biçimde yeniden oluşturabilir
  • Sürüş kontrolü, sahne düzenleme ve dil kontrolü ile simülasyon ayrıntılı biçimde ayarlanabilir; ayrıca kamera ve lidar verisi aynı anda üretilebilir
  • Genel video veya araç kamerası görüntüleri, gerçek sürüş sahnelerini birebir yeniden oluşturacak şekilde çok sensörlü simülasyona dönüştürülebilir
  • Bu model, güvenlik doğrulaması ve hizmetin ölçeklenmesi için temel bir araçtır; gerçek dünyada neredeyse imkânsız olan durumlara bile hazırlık yapılmasını sağlar

Waymo Dünya Modeline Genel Bakış

  • Waymo Driver, ABD'nin büyük şehirlerinde tam otonom olarak yaklaşık 200 milyon mil yol kat etti; bunun yanında sanal ortamda da milyarlarca mil sürüş gerçekleştirdi
    • Gerçek yollarda karşılaşılması zor karmaşık durumları önceden öğrenmek üzere tasarlanmıştır
  • Waymo Dünya Modeli (Waymo World Model), bu sanal sürüşler için geliştirilmiş hipergerçekçi simülasyon üretim sistemidir
    • Waymo'nun yapay zeka ekosistemindeki üç temel sütundan biri olarak, güvenliğin kanıtlanmasında temel rol oynar

Genie 3 Tabanlı Yapı ve İşlevler

  • Google DeepMind'ın Genie 3 modeli temel alınmıştır ve sürüş ortamına özel olacak şekilde uyarlanmıştır
    • Genie 3, gerçekçi ve etkileşimli 3D ortamlar üreten genel amaçlı bir dünya modelidir
  • Genie'nin geniş dünya bilgisinden yararlanarak, hortum ya da fil ile karşılaşma gibi gerçek hayatta neredeyse imkânsız olaylar bile simüle edilebilir
  • Dil istemleri, sürüş girdileri ve sahne yerleşimi üzerinden simülasyon ayrıntılı biçimde kontrol edilebilir
  • Hem kamera hem de lidar verisi üreten çok sensörlü çıktı desteklenir

Çok Modlu Dünya Bilgisi

  • Mevcut otonom sürüş simülatörleri genelde yalnızca kendi topladıkları verilerle eğitilirken, Waymo modeli Genie 3'ün önceden eğitilmiş geniş video verisinden yararlanır
  • 2D video bilgisi, Waymo'nun lidar sistemi için 3D çıktıya aktarılır
    • Kamera görsel ayrıntı betimlemede, lidar ise doğru derinlik bilgisi sağlamada güçlüdür
  • Günlük sürüşten nadir long-tail durumlara kadar çeşitli sahneler üretilebilir
  • Aşırı hava koşulları ve doğal afet simülasyonu

    • Karla kaplı Golden Gate Köprüsü'nde sürüş, hortumla karşılaşma, selle kaplanmış banliyö bölgeleri, tropikal bir şehirde karla örtülü sokaklar, yangın içinden kaçış gibi sahneler üretilebilir
  • Nadir ve güvenlik açısından kritik olaylar

    • Agresif sürücüler, ağaç dalına çarpan araçlar, yükü dengesiz araçlar, ters yönde gelen kamyonlar gibi güvenlik odaklı senaryolar yeniden oluşturulabilir
  • Long-tail nesneler ve sıra dışı durumlar

    • Filler, Texas longhorn sığırları, aslanlar, dinozor kostümlü yayalar, dev rüzgâr gülleri gibi alışılmadık nesnelerle karşılaşma simülasyonları sunulur

Simülasyon Kontrol Özellikleri

  • Sürüş davranışı kontrolü, sahne düzeni kontrolü ve dil kontrolü olmak üzere üç şekilde ayarlanabilir
  • Sürüş davranışı kontrolü

    • Belirli sürüş girdilerine tepki veren etkileşimli bir simülatör sunulur
      • Örnek: Belirli bir durumda daha atak sürülseydi sonucun ne olacağını test etmek
    • Mevcut 3DGS (3D Gaussian Splats) yaklaşımına göre görsel tutarlılığı ve gerçekçiliği daha iyi korur
  • Sahne düzeni kontrolü

    • Yol yapısı, sinyal durumu, çevredeki araçların davranışı gibi unsurlar serbestçe değiştirilebilir
      • Özel senaryo oluşturma ve yol ortamını dönüştürme desteği sunar
  • Dil kontrolü

    • Günün saati, hava durumu ve genel sahne metin komutlarıyla değiştirilebilir
      • Örnek: şafak, sabah, öğle, akşamüstü, gece gibi zaman dilimleri arasında geçiş
      • Bulutlu, sisli, yağmurlu, karlı, açık gibi hava koşulları değişikliği

Video Tabanlı Simülasyon Dönüşümü

  • Genel kamera veya araç kamerası görüntülerini girdi olarak alıp, bunları Waymo Driver bakış açısından çok sensörlü simülasyona dönüştürür
    • Gerçek video temelli olduğu için gerçekçilik ve doğruluk yüksektir
  • Örnekler: Norveç, Utah eyaletindeki Arches Ulusal Parkı, Kaliforniya'daki Death Valley gibi gerçek mekânlara ait görüntülerin dönüştürülmesi

Ölçeklenebilir Çıkarım (Scalable Inference)

  • Uzun sahne simülasyonları yüksek hesaplama gerektirir; ancak verimliliği artırılmış model varyantları sayesinde yüksek kalite korunurken işlem yükü büyük ölçüde azaltılır
    • Dar şeritlerden geçiş, karmaşık kavşaklar, yokuş çıkışları gibi uzun süreli sürüş senaryoları desteklenir
  • 4x oynatma örnekleri: otoyol darboğazından kaçınma, karmaşık yerleşim bölgelerinde sürüş, yokuşta motosikletten kaçınma, SUV U dönüşü gibi durumlar

Güvenlik ve Ölçeklenebilirlik

  • Gerçek dünyada neredeyse imkânsız olan durumlar sanal olarak yeniden üretilerek önceden hazırlık yapılabilir
  • Waymo Driver'ın güvenlik standartlarını güçlendirir ve yeni bölge ile ortamlara hizmeti genişletmenin temelini oluşturur
  • Projeye Waymo ve Google DeepMind'dan çok sayıda araştırmacı katıldı

1 yorum

 
GN⁺ 2026-02-07
Hacker News yorumları
  • DeepMind'in neden aniden world model konusuna odaklandığını şimdi anlıyorum
    Waymo'yu Boston Dynamics'in insansı robotu gibi bir ‘robot’ olarak hiç düşünmemiştim ama fiilen bir robot
    Google/Alphabet'in yapay zeka alanında dikey entegrasyonu şaşırtıcı derecede tamamlanmış durumda — kendi elektrik üretimi, çipler, veri merkezleri, arama·Gmail·YouTube·Gemini·Workspace·Wallet, milyarlarca Android·Chromebook kullanıcısı, reklam ağı, tarayıcı, Waymo, Boston Dynamics ile iş birliği, füzyon araştırmaları, ilaç geliştirmeye kadar uzanıyor
    Bu ölçeğe bakınca ChatGPT ya da Grok gibi chatbotlar kıyas bile kabul etmiyor

    • Google, yapay zekayı bir ürün olarak satmaktan çok iç Ar-Ge ve kendi içinde uygulamaya odaklandı
      Eskiden otonom araç araştırmasının Street View için olduğunu sanıyordum ama şimdi çok daha büyük bir resim olduğu anlaşılıyor
    • Google, world model üzerine zaten 2018'den beri çalışıyor
      İlgili makaleye buradan bakabilirsiniz
    • Tesla da FSD eğitimi için benzer bir sistem kurdu ama harita hizmeti olarak ürüne dönüştürmemiş olması üzücü
      Araçlardan yol durumunu gerçek zamanlı güncelleyebilirdi ama şimdi çok geride kalmış gibi duruyor
    • Tesla'nın neden insansı robotlara başladığını da bu bağlamda anlamış oldum
    • Bu bakış açısını ancak şimdi fark ettiyseniz Tesla'nın en az 3 yıl gerisindesiniz demektir
      İlgili video için buraya bakın
  • Genie modelinin nadir olayları (kasırga, fil karşılaşması vb.) simüle edebildiği söyleniyor ama üretilen sonucun gerçekten ne kadar gerçekçi olduğu soru işareti
    Örneğin yola 5 mm'lik çelik bilyelerin saçıldığı bir durumu model öngörse bile, bunun makul bir sonuç olduğunu nasıl doğrulayabileceğimiz konusunda endişeliyim

    • Zamanla world model kalitesi iyileşir ve otonom sürüş sistemleri 'yeterince gerçekçi' sentetik verilerle eğitilebilir
      Mükemmel olması gerekmiyor; tekrar tekrar kullanım ve doğrulamayla giderek daha iyi hale gelen olumlu bir döngü kurulabilir
    • Buradaki amaç “artık araba çelik bilyelere karşı da güvenli” demek değil; birim testi gibi, belirli bir durumda beklendiği gibi tepki verip vermediğini görmek
      Örneğin tipi içindeki beyaz bir inek gibi uç örnekler de simülasyonla yakalanabilir
    • “Kasırgadan file kadar” simüle edilebiliyorsa, The Sims gibi bir oyun da harika olurdu
    • Aslında bu belirsizlik insanlar için de aynı
      Kusursuz tahmin imkansız ama süreç, bilgiye dayalı en iyi karara doğru kademeli olarak iyileşmekten ibaret
    • Gerekli olan yaklaşım, simülasyonla eğitip gerçekte doğrulamak
  • Waymo World Model'in sıradan kamera görüntülerini bile çok modlu simülasyona dönüştürebildiği söyleniyor; bu da Waymo isterse yalnızca kamerayla da araç sürebilir anlamına geliyor

    • Ama gerçekte yapılan şey, LiDAR, video ve diğer sensörlerle bootstrap edilmiş bir temsile dönüştürmek
      Tesla LiDAR aşamasından geçmediği için bu tür sonuçları elde etmesi zor
    • LiDAR, kamera doğruluğu düştüğünde hata düzeltme için kullanılan bir katman
      İnsanlardaki iki göz arasındaki derinlik algısı gibi mesafe algısını destekliyor
    • LiDAR, jamming saldırılarına karşı hazırlık için de hâlâ önemli
    • Görüntü → sensör verisi dönüşümü ile o veriyi kullanarak sürüş yapmak iki ayrı aşama
      İlki eğitim için, ikincisi gerçek araç için
    • Otonom araçların toplumsal olarak kabul görmesi için insanlardan çok daha güvenli olması gerekiyor
      Bu yüzden yalnızca kameraya dayalı yaklaşımın sınırları var
  • Teknoloji etkileyici ama bence tren altyapısını iyileştirmek daha acil

    • Bay Area'da yaşayan biri olarak burada zaten tren var ama ücretler, işletme, yönetim ve düzen o kadar kötü ki maliyetini bile çıkaramıyor
      Kaçak yolculuk, şiddet, hijyen sorunları yüzünden kullanıcılar uzaklaşıyor
      Bu gerçeği görmezden gelip sadece toplu taşımayı savunmak boş geliyor
      Bu yüzden Waymo gibi hizmetler vaat ettikleri kaliteyi gerçekten sunarsa daha çok ilgi çeker
      Benim görüşümce sözünü tutan tek alternatif bisiklet paylaşım sistemleri
    • Trenler sonuçta insanların davranış normları korunmazsa cehenneme dönüyor
      Gürültü, dilencilik, uyuşturucu sorunları yüzünden toplu taşıma kaçınılan bir şeye dönüşüyor
    • Hangi durumda olursa olsun otomobilin hâlâ mutlak üstünlüğü var
      ABD'nin altyapı gerçekliği düşünüldüğünde büyük ölçekli demiryolu reformu gerçekçi görünmüyor
      Japonya gibi demiryolunun gelişmiş olduğu yerlerde bile araç sahipliği ABD'den çok farklı değil
    • İstediğin yere, istediğin zamanda, kişisel programına uygun şekilde güvenli ve temiz ulaşım sağlayan bir araç daha iyi geliyor
    • Yine de Waymo, sürücü sayısını ve araç sahipliğini azaltan bir dönüm noktası olabilir
  • Bu duyurunun asıl noktası, 2D görüntüden 3D LiDAR verisi üretme teknolojisi
    DeepMind ve Google altyapısına erişim, Waymo'nun ezici rekabet avantajı

    • Gerçi 2D görüntüden 3D tahmini yapan teknikler onlarca yıldır var
    • Metric3D gibi monodepth yöntemleri de var ama Waymo'nun sonuçları açıkça güncel en iyi seviye (SOTA)
  • Sel, kasırga, orman yangını gibi simülasyonlar etkileyici ama elektrik kesintisi gibi daha yaygın bir durumda Waymo'nun topluca durması soru işareti yaratıyor
    Bu kadar temel bir senaryoyu ele alamıyorsa simülasyonun anlamı zayıflıyor

    • Simülasyon tek tek araçların performansını artırır ama elektrik kesintisi, uzaktan destek personelinin aşırı yüklenmesinden kaynaklanan sistem genelinde bir sorundu
      Yani simülasyon hâlâ değerli ama her tür arızayı engelleyemez
    • Nitekim Waymo'nun sel basmış bir alana girdiği bir örnek de olmuş
      İlgili video
  • Waymo'nun eğitimde sanal karşıolgusal(counterfactual) durumlar kullanması riskli görünüyor
    Gerçek trajik örneklerden çok ‘başarıyla başa çıkılan videolar’ olacağından, sonuçta aşırı özgüven öğrenebilir

    • Ama pratikte burada ‘karşıolgusal’ değil, nadir durumları telafi etmeye yönelik üretim söz konusu
      Amaç, Waymo kasırga ya da fille karşılaşsa bile donup kalmasın, uygun tepki verebilsin
    • Sürüş, hız ile güvenlik arasındaki denge problemidir
      Mutlak güvenliği tek hedef yaparsanız araç hiç hareket etmez
    • Kavşakta güvenli olduğunda bile girmemek ya da saatte sadece 5 mil hızla gitmek de yanlış sürüş davranışıdır
      Sadece ‘yavaşsa güvenlidir’ yaklaşımı doğru değil
  • world model, gerçek güvenlik durumlarında önyargılı veri nedeniyle tehlikeli olabilir
    Neredeyse hiç başarısızlık örneği olmayan veriyle eğitilirse, gerçek kaza durumlarını yeniden üretemeyebilir

    • Ancak Waymo zaten 100 milyon milden fazla gerçek sürüş verisiyle eğitim yapıyor
      Örnek olarak verilen video, çarpışmadan kaçınma örneğini gösteriyor
    • Elbette önyargı ihtimali hâlâ var ama LLM kullanarak prompt tabanlı senaryo üretimiyle çeşitlilik sağlanabilir
      Yine de “yeterince gerçekçi mi?” ölçütü belirsiz
      İnsanlara da %100 güvenilemeyeceğine göre, 10 kat daha güvenli bir seviye ile doğrulanabilir kod tabanlı güvenlik önlemleri bir araya gelirse toplumsal kabul artacaktır
  • DeepMind'in Project Genie'si, Waymo'nun temel teknolojisi gibi görünüyor
    İlgili yazı: Genie 3: A new frontier for world models
    Hacker News tartışmaları: Genie 3, Project Genie

    • DeepMind, sadece Alphabet'in bir yan kuruluşu değil; Demis Hassabis'in Google AI'ın tamamını yönettiği çekirdek organizasyon
  • Otonom sürüş öğreniminin çan eğrisi memesini hatırlatıyor
    İlk başta fizik tabanlı simülatörlerle başlanıyor, sonra gerçek veri toplanıyor ve ardından yeniden fizik bilgisi içeren derin öğrenme simülatörlerine dönülüyor

    • Sonuçta döngü, basit simülasyon → gerçek veri → nadir gerçek durumlar için simülasyon şeklinde işliyor
      Bu desen, neredeyse isim verilmesi gereken kadar doğal bir gelişim aşaması gibi görünüyor