- Büyük ölçekli otonom sürüş simülasyonu için üretken bir dünya modeli olup, gerçeğe benzer ortamları gerçek zamanlı olarak yeniden üretir
- Genie 3 tabanlı olarak inşa edilmiştir ve nadir veya uç durumları (hortum, sel, hayvanların ortaya çıkması vb.) gerçekçi biçimde yeniden oluşturabilir
- Sürüş kontrolü, sahne düzenleme ve dil kontrolü ile simülasyon ayrıntılı biçimde ayarlanabilir; ayrıca kamera ve lidar verisi aynı anda üretilebilir
- Genel video veya araç kamerası görüntüleri, gerçek sürüş sahnelerini birebir yeniden oluşturacak şekilde çok sensörlü simülasyona dönüştürülebilir
- Bu model, güvenlik doğrulaması ve hizmetin ölçeklenmesi için temel bir araçtır; gerçek dünyada neredeyse imkânsız olan durumlara bile hazırlık yapılmasını sağlar
Waymo Dünya Modeline Genel Bakış
- Waymo Driver, ABD'nin büyük şehirlerinde tam otonom olarak yaklaşık 200 milyon mil yol kat etti; bunun yanında sanal ortamda da milyarlarca mil sürüş gerçekleştirdi
- Gerçek yollarda karşılaşılması zor karmaşık durumları önceden öğrenmek üzere tasarlanmıştır
- Waymo Dünya Modeli (Waymo World Model), bu sanal sürüşler için geliştirilmiş hipergerçekçi simülasyon üretim sistemidir
- Waymo'nun yapay zeka ekosistemindeki üç temel sütundan biri olarak, güvenliğin kanıtlanmasında temel rol oynar
Genie 3 Tabanlı Yapı ve İşlevler
- Google DeepMind'ın Genie 3 modeli temel alınmıştır ve sürüş ortamına özel olacak şekilde uyarlanmıştır
- Genie 3, gerçekçi ve etkileşimli 3D ortamlar üreten genel amaçlı bir dünya modelidir
- Genie'nin geniş dünya bilgisinden yararlanarak, hortum ya da fil ile karşılaşma gibi gerçek hayatta neredeyse imkânsız olaylar bile simüle edilebilir
- Dil istemleri, sürüş girdileri ve sahne yerleşimi üzerinden simülasyon ayrıntılı biçimde kontrol edilebilir
- Hem kamera hem de lidar verisi üreten çok sensörlü çıktı desteklenir
Çok Modlu Dünya Bilgisi
- Mevcut otonom sürüş simülatörleri genelde yalnızca kendi topladıkları verilerle eğitilirken, Waymo modeli Genie 3'ün önceden eğitilmiş geniş video verisinden yararlanır
- 2D video bilgisi, Waymo'nun lidar sistemi için 3D çıktıya aktarılır
- Kamera görsel ayrıntı betimlemede, lidar ise doğru derinlik bilgisi sağlamada güçlüdür
- Günlük sürüşten nadir long-tail durumlara kadar çeşitli sahneler üretilebilir
-
Aşırı hava koşulları ve doğal afet simülasyonu
- Karla kaplı Golden Gate Köprüsü'nde sürüş, hortumla karşılaşma, selle kaplanmış banliyö bölgeleri, tropikal bir şehirde karla örtülü sokaklar, yangın içinden kaçış gibi sahneler üretilebilir
-
Nadir ve güvenlik açısından kritik olaylar
- Agresif sürücüler, ağaç dalına çarpan araçlar, yükü dengesiz araçlar, ters yönde gelen kamyonlar gibi güvenlik odaklı senaryolar yeniden oluşturulabilir
-
Long-tail nesneler ve sıra dışı durumlar
- Filler, Texas longhorn sığırları, aslanlar, dinozor kostümlü yayalar, dev rüzgâr gülleri gibi alışılmadık nesnelerle karşılaşma simülasyonları sunulur
Simülasyon Kontrol Özellikleri
- Sürüş davranışı kontrolü, sahne düzeni kontrolü ve dil kontrolü olmak üzere üç şekilde ayarlanabilir
-
Sürüş davranışı kontrolü
- Belirli sürüş girdilerine tepki veren etkileşimli bir simülatör sunulur
- Örnek: Belirli bir durumda daha atak sürülseydi sonucun ne olacağını test etmek
- Mevcut 3DGS (3D Gaussian Splats) yaklaşımına göre görsel tutarlılığı ve gerçekçiliği daha iyi korur
-
Sahne düzeni kontrolü
- Yol yapısı, sinyal durumu, çevredeki araçların davranışı gibi unsurlar serbestçe değiştirilebilir
- Özel senaryo oluşturma ve yol ortamını dönüştürme desteği sunar
-
Dil kontrolü
- Günün saati, hava durumu ve genel sahne metin komutlarıyla değiştirilebilir
- Örnek: şafak, sabah, öğle, akşamüstü, gece gibi zaman dilimleri arasında geçiş
- Bulutlu, sisli, yağmurlu, karlı, açık gibi hava koşulları değişikliği
Video Tabanlı Simülasyon Dönüşümü
- Genel kamera veya araç kamerası görüntülerini girdi olarak alıp, bunları Waymo Driver bakış açısından çok sensörlü simülasyona dönüştürür
- Gerçek video temelli olduğu için gerçekçilik ve doğruluk yüksektir
- Örnekler: Norveç, Utah eyaletindeki Arches Ulusal Parkı, Kaliforniya'daki Death Valley gibi gerçek mekânlara ait görüntülerin dönüştürülmesi
Ölçeklenebilir Çıkarım (Scalable Inference)
- Uzun sahne simülasyonları yüksek hesaplama gerektirir; ancak verimliliği artırılmış model varyantları sayesinde yüksek kalite korunurken işlem yükü büyük ölçüde azaltılır
- Dar şeritlerden geçiş, karmaşık kavşaklar, yokuş çıkışları gibi uzun süreli sürüş senaryoları desteklenir
- 4x oynatma örnekleri: otoyol darboğazından kaçınma, karmaşık yerleşim bölgelerinde sürüş, yokuşta motosikletten kaçınma, SUV U dönüşü gibi durumlar
Güvenlik ve Ölçeklenebilirlik
- Gerçek dünyada neredeyse imkânsız olan durumlar sanal olarak yeniden üretilerek önceden hazırlık yapılabilir
- Waymo Driver'ın güvenlik standartlarını güçlendirir ve yeni bölge ile ortamlara hizmeti genişletmenin temelini oluşturur
- Projeye Waymo ve Google DeepMind'dan çok sayıda araştırmacı katıldı
1 yorum
Hacker News yorumları
DeepMind'in neden aniden world model konusuna odaklandığını şimdi anlıyorum
Waymo'yu Boston Dynamics'in insansı robotu gibi bir ‘robot’ olarak hiç düşünmemiştim ama fiilen bir robot
Google/Alphabet'in yapay zeka alanında dikey entegrasyonu şaşırtıcı derecede tamamlanmış durumda — kendi elektrik üretimi, çipler, veri merkezleri, arama·Gmail·YouTube·Gemini·Workspace·Wallet, milyarlarca Android·Chromebook kullanıcısı, reklam ağı, tarayıcı, Waymo, Boston Dynamics ile iş birliği, füzyon araştırmaları, ilaç geliştirmeye kadar uzanıyor
Bu ölçeğe bakınca ChatGPT ya da Grok gibi chatbotlar kıyas bile kabul etmiyor
Eskiden otonom araç araştırmasının Street View için olduğunu sanıyordum ama şimdi çok daha büyük bir resim olduğu anlaşılıyor
İlgili makaleye buradan bakabilirsiniz
Araçlardan yol durumunu gerçek zamanlı güncelleyebilirdi ama şimdi çok geride kalmış gibi duruyor
İlgili video için buraya bakın
Genie modelinin nadir olayları (kasırga, fil karşılaşması vb.) simüle edebildiği söyleniyor ama üretilen sonucun gerçekten ne kadar gerçekçi olduğu soru işareti
Örneğin yola 5 mm'lik çelik bilyelerin saçıldığı bir durumu model öngörse bile, bunun makul bir sonuç olduğunu nasıl doğrulayabileceğimiz konusunda endişeliyim
Mükemmel olması gerekmiyor; tekrar tekrar kullanım ve doğrulamayla giderek daha iyi hale gelen olumlu bir döngü kurulabilir
Örneğin tipi içindeki beyaz bir inek gibi uç örnekler de simülasyonla yakalanabilir
Kusursuz tahmin imkansız ama süreç, bilgiye dayalı en iyi karara doğru kademeli olarak iyileşmekten ibaret
Waymo World Model'in sıradan kamera görüntülerini bile çok modlu simülasyona dönüştürebildiği söyleniyor; bu da Waymo isterse yalnızca kamerayla da araç sürebilir anlamına geliyor
Tesla LiDAR aşamasından geçmediği için bu tür sonuçları elde etmesi zor
İnsanlardaki iki göz arasındaki derinlik algısı gibi mesafe algısını destekliyor
İlki eğitim için, ikincisi gerçek araç için
Bu yüzden yalnızca kameraya dayalı yaklaşımın sınırları var
Teknoloji etkileyici ama bence tren altyapısını iyileştirmek daha acil
Kaçak yolculuk, şiddet, hijyen sorunları yüzünden kullanıcılar uzaklaşıyor
Bu gerçeği görmezden gelip sadece toplu taşımayı savunmak boş geliyor
Bu yüzden Waymo gibi hizmetler vaat ettikleri kaliteyi gerçekten sunarsa daha çok ilgi çeker
Benim görüşümce sözünü tutan tek alternatif bisiklet paylaşım sistemleri
Gürültü, dilencilik, uyuşturucu sorunları yüzünden toplu taşıma kaçınılan bir şeye dönüşüyor
ABD'nin altyapı gerçekliği düşünüldüğünde büyük ölçekli demiryolu reformu gerçekçi görünmüyor
Japonya gibi demiryolunun gelişmiş olduğu yerlerde bile araç sahipliği ABD'den çok farklı değil
Bu duyurunun asıl noktası, 2D görüntüden 3D LiDAR verisi üretme teknolojisi
DeepMind ve Google altyapısına erişim, Waymo'nun ezici rekabet avantajı
Sel, kasırga, orman yangını gibi simülasyonlar etkileyici ama elektrik kesintisi gibi daha yaygın bir durumda Waymo'nun topluca durması soru işareti yaratıyor
Bu kadar temel bir senaryoyu ele alamıyorsa simülasyonun anlamı zayıflıyor
Yani simülasyon hâlâ değerli ama her tür arızayı engelleyemez
İlgili video
Waymo'nun eğitimde sanal karşıolgusal(counterfactual) durumlar kullanması riskli görünüyor
Gerçek trajik örneklerden çok ‘başarıyla başa çıkılan videolar’ olacağından, sonuçta aşırı özgüven öğrenebilir
Amaç, Waymo kasırga ya da fille karşılaşsa bile donup kalmasın, uygun tepki verebilsin
Mutlak güvenliği tek hedef yaparsanız araç hiç hareket etmez
Sadece ‘yavaşsa güvenlidir’ yaklaşımı doğru değil
world model, gerçek güvenlik durumlarında önyargılı veri nedeniyle tehlikeli olabilir
Neredeyse hiç başarısızlık örneği olmayan veriyle eğitilirse, gerçek kaza durumlarını yeniden üretemeyebilir
Örnek olarak verilen video, çarpışmadan kaçınma örneğini gösteriyor
Yine de “yeterince gerçekçi mi?” ölçütü belirsiz
İnsanlara da %100 güvenilemeyeceğine göre, 10 kat daha güvenli bir seviye ile doğrulanabilir kod tabanlı güvenlik önlemleri bir araya gelirse toplumsal kabul artacaktır
DeepMind'in Project Genie'si, Waymo'nun temel teknolojisi gibi görünüyor
İlgili yazı: Genie 3: A new frontier for world models
Hacker News tartışmaları: Genie 3, Project Genie
Otonom sürüş öğreniminin çan eğrisi memesini hatırlatıyor
İlk başta fizik tabanlı simülatörlerle başlanıyor, sonra gerçek veri toplanıyor ve ardından yeniden fizik bilgisi içeren derin öğrenme simülatörlerine dönülüyor
Bu desen, neredeyse isim verilmesi gereken kadar doğal bir gelişim aşaması gibi görünüyor