- Mekânsal zekâ (spatial intelligence), yapay zekânın gerçek ve sanal dünyayı anlama ve onunla etkileşime girme biçimini kökten değiştiren temel bir alan
- Mevcut büyük dil modelleri (LLM) dil işlemede çok başarılı olsa da, mesafe, yön ve fiziksel tutarlılık gibi mekânsal akıl yürütme yeteneklerinde insan seviyesine ulaşamıyor
- Bunu çözmek için yeni bir yaklaşım olarak 'world model' öneriliyor; bu, üretken, çok modlu ve etkileşimli özelliklere sahip yeni nesil üretken model mimarisi
- World Labs bu tür modeller geliştiriyor; 'Marble' adlı ilk sürüm, çoklu girdilere dayanarak tutarlı 3D ortamlar üretme ve bunları sürdürme yeteneğini sergiliyor
- Mekânsal zekâ, yaratıcılık, robotik, bilim, tıp ve eğitim gibi çeşitli alanlarda insan yeteneklerini artıracak yapay zekâ gelişiminin bir sonraki aşaması
Mekânsal zekâ kavramı ve önemi
- İnsan zekâsı, algı-eylem döngüsü (perception-action loop) temelinde evrimleşti ve mekânsal zekâ bunu mümkün kılan temel unsurlardan biri
- Arabayı park etme, bir nesneyi kavrama, karmaşık bir ortamda hareket etme gibi gündelik davranışların tümü mekânsal akıl yürütmeye dayanır
- Dil öncesi çocuk gelişiminde de çocuklar çevreyle etkileşim kurarak mekân hissi edinir
- Yaratıcılık ve hayal gücü de mekânsal zekâya dayanır
- Mağara resimlerinden filmlere, oyunlara ve sanal gerçekliğe (VR) kadar insanlar dünyayı mekânsal düşünce aracılığıyla ifade etti
- Endüstriyel tasarım, dijital ikizler ve robot eğitimi gibi alanlarda da mekânsal simülasyon kilit rol oynar
- Tarihsel olarak da mekânsal zekâ uygarlığın gelişimini iten güçlerden biriydi
- Eratosthenes'in Dünya'nın çevresini hesaplaması, Spinning Jenny'nin yapısal yeniliği ve DNA yapısının keşfi, mekânsal düşüncenin sonuçlarıydı
- Günümüz yapay zekâsı görsel algı ve üretim yeteneklerinde ilerleme kaydetmiş olsa da, mesafe, yön ve fizik yasalarını anlama konusunda hâlâ eksik
- En yeni çok modlu modeller bile nesne döndürme, labirentte gezinme ve fiziksel tahmin gibi görevlerde düşük performans gösteriyor
- Bu sınırlama nedeniyle robot kontrolü, otonom sürüş ve sürükleyici öğrenme gibi gerçek dünya uygulamaları kısıtlanıyor
World model: mekânsal zekâyı hayata geçiren yeni yapay zekâ mimarisi
- Mekânsal zekâyı gerçekleştirmek için LLM'lerden daha karmaşık bir world model gerekiyor
- Gerçek ve sanal dünyanın anlamsal, fiziksel, geometrik ve dinamik karmaşıklığını bütüncül biçimde anlaması, üretmesi ve onunla etkileşmesi gerekir
- World model'in üç temel yeteneği
- Üretken (Generative): algısal, geometrik ve fiziksel olarak tutarlı dünyalar üretmek
- Gerçek ya da sanal mekânları simüle ederken mevcut durum ile geçmiş durum arasındaki sürekliliği korumalı
- Çok modlu (Multimodal): görüntü, video, metin ve jest gibi farklı girdileri bütünleşik biçimde işlemek
- Aynı anda hem görsel doğruluk hem de anlamsal yorumlama yeteneğine sahip olmalı
- Etkileşimli (Interactive): verilen eylemlere göre bir sonraki durumu tahmin edip üretmek
- Hedef durum verildiğinde, buna uygun dünya değişimlerini ve eylemleri de öngörebilmeli
- Dil üretiminden çok daha karmaşık olan fizik yasaları, geometrik yapı ve dinamikleri tutarlı biçimde yansıtması gerektiği için teknik zorluk seviyesi çok yüksek
World Labs'in araştırmaları ve teknik zorluklar
- World Labs, 2024'ün başında kuruldu ve mekânsal zekâ odaklı world model araştırmaları yürütüyor
- Başlıca araştırma konuları
- Evrensel öğrenme işlevinin tanımlanması: LLM'lerdeki 'sonraki token tahmini' kadar basit ama fizik ve geometri yasalarını yansıtan bir öğrenme hedefi oluşturmak
- Büyük ölçekli eğitim verisi: internet görselleri ve videoları, sentetik veri, derinlik ve dokunsal bilgi gibi çoklu kaynaklardan yararlanmak
- Yeni model mimarileri: 3D/4D algı tabanlı tokenization ve bellek yapıları üzerine araştırmalar
- Örneğin RTFM (Real-Time Frame-based Model), mekânsal çerçeveleri bellek olarak kullanarak gerçek zamanlı üretim ve tutarlılık sağlıyor
- İlk sonuçlardan biri olan Marble, çoklu girdilerle tutarlı 3D ortamlar üretip sürdürüyor ve bazı kullanıcılara gösterildi
- Gelecekte herkese açık olarak sunulması hedefleniyor
Mekânsal zekânın uygulama alanları
Yaratıcılık ve içerik üretimi
- Marble, film yapımcıları, oyun tasarımcıları ve mimarlar gibi kullanıcılara tam keşfedilebilir 3D dünyalar üretme olanağı sunuyor
- Bütçe ve coğrafi kısıtlar olmadan farklı sahneler ve bakış açıları denenebilir
- Hikâye anlatımı, sanat, eğitim ve tasarımda sürükleyici deneyimler yaratılabilir
- Mekânsal anlatı tasarımı sayesinde mimarlık, endüstri ve moda tasarımındaki görselleştirme süreci kısalabilir
- VR/XR tabanlı sürükleyici deneyimlerin genişlemesiyle bireysel üreticiler de kendi dünyalarını kurabilir
Robotik
- Robot eğitimindeki darboğaz eğitim verisi eksikliği ve world model bunu telafi edebilir
- Simülasyon ile gerçeklik arasındaki farkı azaltarak çeşitli ortamlarda öğrenmeyi mümkün kılar
- İnsanla iş birliği yapan robotlar için mekânsal zekâ vazgeçilmez
- Laboratuvarlarda ve evlerde insanların hedef ve davranışlarını anlayıp onlarla iş birliği yapan robotların geliştirilmesine yardımcı olur
- Farklı robot biçimleri — nanobotlar, yumuşak robotlar, derin deniz ve uzay robotları — için eğitim ortamları ve benchmark'lar oluşturmada da kullanılabilir
Bilim, tıp, eğitim
- Bilimsel araştırma: çok boyutlu simülasyonlarla deneyleri hızlandırmak, iklim ve malzeme araştırmaları gibi alanlarda hesaplama maliyetini düşürmek
- Tıp: ilaç keşfi, görüntü tabanlı tanı ve hasta izleme gibi alanlarda mekânsal zekâ tabanlı yapay zekânın kullanımını genişletmek
- Eğitim: karmaşık kavramları görselleştirmek ve öğrenciye uyarlanmış sürükleyici öğrenme ortamları sunmak
- Öğrenciler hücre yapısını veya tarihî olayları keşfedebilir, uzmanlar ise gerçekçi simülasyonlarla beceri pratiği yapabilir
İnsan merkezli yapay zekâ gelişimi vizyonu
- Yapay zekâ geliştirmenin amacı insan yeteneklerini artırmak, onların yerini almak değil
- Gelişim, yaratıcılığı, üretkenliği, bağlantılılığı ve yaşam memnuniyetini artıracak yönde ilerlemeli
- Mekânsal zekâ, insanın hayal gücünü, bakım verme ve keşfetme kapasitesini genişleten bir teknoloji olarak sunuluyor
- Bu vizyonun hayata geçmesi için araştırmacılar, şirketler ve politika yapıcılar dâhil tüm yapay zekâ ekosisteminin iş birliği gerekiyor
Sonuç
- Yapay zekâ zaten toplumun genelinde dönüşüm yarattı, ancak mekânsal zekâ bir sonraki yenilik aşaması olarak öne çıkıyor
- World model sayesinde gerçek dünyayla uyum içinde etkileşime girebilen mekânsal olarak akıllı makineler geliştirmek mümkün hâle geliyor
- Bu, hastalık araştırmalarından hikâye anlatımına ve bakıma kadar insanın temel faaliyetlerini geliştirecek bir teknolojik dönüm noktası olarak değerlendiriliyor
- İnsan zekâsının evrimi mekânsal zekâ ile başladıysa, yapay zekânın tamamlanışı da mekânsal zekâ ile mümkün olacak vizyonu ortaya konuyor
1 yorum
Hacker News görüşleri
Yazıyı okuyunca bunların gerçekte neyi anladığını pek çıkaramadım
Notlarda kayda değer somut bilgi neredeyse yok; sadece “ImageNet gibi mekânsal veri topluyoruz” düzeyinde
mekânsal zeka üzerine çalışanlar çoğunlukla sinirbilim tarafında
Yazdığım özet makalede entorhinal cortex, grid cell ve koordinat dönüşümünün kilit olabileceğini anlatmıştım
Tüm hayvanlar dünyayı gerçek zamanlı koordinat dönüşümleriyle keşfeder ve insanlar bunların içinde en fazla koordinat temsiline sahip
İnsan düzeyinde zeka dediğimiz şeyin, koordinat sistemlerini ne zaman ve nasıl dönüştürüp faydalı bilgi çıkaracağını bilmek olduğunu düşünüyorum
Bunu LLM patlamasından önce yazmıştım ama hâlâ yönün doğru olduğuna inanıyorum
Bu, çarpışma tespiti, fizik tabanlı animasyon, doğrusal olmayan denklem çözümü ve engebeli arazide bacaklı hareket araştırmalarına uzandı ama AI değildi
Bugünlerde yaklaşım, devasa hesaplama gücü yükleyip öğrenen sistemlerin mekânsal dünyanın iç temsillerini kendilerinin bulmasını beklemek gibi
Robot yürümesi epey ilerledi ama yapılandırılmamış ortamlarda manipülasyon hâlâ çok zayıf
1960'lardaki Stanford McCarthy laboratuvarı videolarıyla kıyaslayınca bile büyük fark yok
Eskiden önce insan düzeyinden ziyade fare ya da sincap düzeyinde zekaya ulaşmamız gerektiğini düşünürdüm ama soyut AI'nin önce gelmesine şaşırdım
Son dönemde kısa videoları izleyip bir sonraki sahneyi tahmin eden video üretimi araştırmaları ilgimi çekiyor
Sağduyunun temelinin, tam da “sonra ne olacağını” kısa bir zaman ufkunda tahmin edebilme yeteneği olduğunu düşünüyorum
İlgili Nobel basın duyurusu da bakmaya değer
“transform”, “revolutionize”, “next frontier”, “North Star” gibi VC tarzı moda sözcükler o kadar fazla ki güven vermiyor
Nature 2018'deki "Vector-based navigation using grid-like representations in artificial agents",
Nature 2024'teki "Modeling hippocampal spatial cells in rodents navigating in 3D environments",
ve DeepMind'in grid-cell simülasyonu da birlikte bakmaya değer
Sinirbilim tarafında mekânsal algı üzerine çalışmalar epeydir yapılıyor
Biyolojik sistemleri olduğu gibi kopyalamak neredeyse hep başarısız oluyor
CNN'ler beyinden ilham aldı ama yapısal olarak farklı, LLM'ler ise insan beynine neredeyse hiç benzemiyor
LLM'lerin işlevsel benzerliği beyin yapısını taklit etmelerinden değil, eğitim sürecinden kaynaklanıyor
Bu, sadece dar bir sanal dünyada çalışan bir simülasyon sistemi
Bu tür sistemler gerçek dünyanın karmaşık dinamiklerini öğrenmede neredeyse hiç yardımcı olmuyor
Sanal dünya modelleri, fiziksel dünya modellerinin sadece basitleştirilmiş özel bir durumu ve bu şirketin mekânsal zeka alanında kayda değer ilerleme kaydettiğine dair bir kanıt görünmüyor
Son dönemde agentic coding'i CAD'e uygulayıp şaşırtıcı bir deneyim yaşadım
3D baskı modeline vida dişi eklemem gerekiyordu; hesaplamalı geometri kullanarak ajanı modeli adeta ‘hissedebilir’ hâle getirdim
Küre yarıçapını tüm model boyunca konvolüsyon uygulayarak port konumunu buldu ve vida dişlerini ekledi
Birkaç denemeden sonra başardı ve bu deneyim bana modelin ‘dokunsal bir duyusu’ olması gerektiğini fark ettirdi
Sonunda 3D modelin kod olarak uygulanmış ve doğrulanabilir olması gerekiyordu
OpenSCAD ile denedim ama mevcut modellerde şekil bağlantısına dair sağduyu eksik
Kod tabanlı CAD veri setleri arttıkça çok daha kullanışlı olacaktır
Aksi takdirde sonunda fizik simülasyonu tabanlı öğrenme gerekecek
“onu oraya değil de buraya koy” düzeyinde bir muğlaklık oluşuyor
Genie 3, onun sözünü ettiği hedefe, yani tutarlı fizik yasalarına sahip kontrol edilebilir dünya modeline bir ölçüde ulaştı
Kardeş model Veo 3 de mekânsal problem çözme becerisi gösteriyor
Genie ve Veo, World Labs'den çok onun vizyonuna daha yakın
Ama yazıda Google modellerinden hiç söz edilmemesi bunu şirket tanıtımı amaçlı bir yazı gibi hissettiriyor
DeepMind Gemini Robotics ER bağlantısına bakılabilir
Bugünkü AI yalnızca web'den öğreniyor ve insanlarla etkileşimden öğrenemiyor
İnsanlar ömür boyu biriken bağlam ve hafızayla öğrenirken AI'de konuşma bittiğinde o bağlam kayboluyor
Kişiselleştirilmiş devasa bir bağlam hafızası olsaydı çok daha değerli olurdu
Mevcut yöntemlerde ek eğitim sırasında catastrophic forgetting yaşanıyor ama Nested Learning, bunu birçok küçük modele bölerek yeniden eğitimde diğer bölümlerin bozulmasını engelliyor
Sahip olduğumuz mekânsal anlayış, kozmik ölçekte bir kuantum simülasyonu kadar büyük
Buna karşılık bugün tam olarak simüle edebildiğimiz şeyler en fazla atom ya da hücre düzeyinde
Bu yazıyı okurken, insanın doğayı ‘önceden düşünüp aşmasının’ ilk örneğinin tekerlek olabileceğini düşündüm
Doğa engebeli ama insanlar düz yollar yaparak yuvarlanmayı mümkün kıldı
Bilim ve teknolojinin ilerlemesi, kuşaklar arasında örüntü sezgisinin aktarımını mümkün kılan başka bir örnek
‘Süperzeka’nın hız dışında başka bir biçimde mümkün olup olmadığını bilmiyorum ama üç boyutlu düşünebilme yeteneği AI'nin insanı ve doğayı aşması için gerekli olacak gibi görünüyor
Kan damarları nasıl besin ve sinyal taşıyorsa yollar da kaynak taşıyor
Belki de doğa o örgütleme yeteneğini yalnızca tür ölçeğine genişletti; bu yüzden insanın doğanın üstünde olduğunu söylemek için zayıf bir dayanak var
İnsan bilişi, mekânsal zeka üzerine inşa edilmiş bir yapı
Yalnızca soyut düşünceden oluşmuyor; duyu temelli bütünleşik bir deneyim
Evrim genellemeyi simgesel bir beyinle değil, duyuların birleşimiyle gerçekleştirdi
Zeka bir algoritmadan değil, duyular arasındaki tutarlı uyumdan doğuyor
İlerisi için asıl yön, duyuların bütünlüğü
LLM'lerde mekânsal akıl yürütme durumunu özetleyen şu blog yazısını takip ediyorum
Sonuç şu… daha gidilecek çok yol var
Spatial token yardımcı olabilir ama şart değil
Pek çok fizik problemi hâlâ kâğıt kalemle çözülebiliyor
512×512 bir görüntünün 85 token'la, videonun ise saniyede 263 token'la temsil edilebilmesi şaşırtıcı
Bu, hafıza ile embedding arasında yeni bir denge problemi gibi görünüyor
“Aklında bir elmayı döndürebiliyor musun?” sorusunda olduğu gibi, mekânsal embedding'ler sezgisel dinamik anlayışı mümkün kılacaktır
FlyShirley ekibimizde biz de bu alanı pilot eğitim simülasyonu üzerinden araştırıyoruz ve Fei-Fei'nin modelini denemeyi planlıyoruz
Video tabanlı öğrenme ve akıl yürütme muazzam hesaplama kaynakları gerektirdiğinden,
bu yaklaşımın ajan asistanlara (kodlama, pazarlama, takvim yönetimi vb.) pratikte yardımcı olup olmayacağı şüpheli
Bana kalırsa bu hesaplama yapısı robotik alanında daha avantajlı olacaktır