Mekânsal zekâ, yapay zekânın bir sonraki sınırı

(drfeifei.substack.com)

14 puan yazan GN⁺ 2025-11-12 | 1 yorum | WhatsApp'ta paylaş

Mekânsal zekâ (spatial intelligence), yapay zekânın gerçek ve sanal dünyayı anlama ve onunla etkileşime girme biçimini kökten değiştiren temel bir alan
Mevcut büyük dil modelleri (LLM) dil işlemede çok başarılı olsa da, mesafe, yön ve fiziksel tutarlılık gibi mekânsal akıl yürütme yeteneklerinde insan seviyesine ulaşamıyor
Bunu çözmek için yeni bir yaklaşım olarak 'world model' öneriliyor; bu, üretken, çok modlu ve etkileşimli özelliklere sahip yeni nesil üretken model mimarisi
World Labs bu tür modeller geliştiriyor; 'Marble' adlı ilk sürüm, çoklu girdilere dayanarak tutarlı 3D ortamlar üretme ve bunları sürdürme yeteneğini sergiliyor
Mekânsal zekâ, yaratıcılık, robotik, bilim, tıp ve eğitim gibi çeşitli alanlarda insan yeteneklerini artıracak yapay zekâ gelişiminin bir sonraki aşaması

Mekânsal zekâ kavramı ve önemi

İnsan zekâsı, algı-eylem döngüsü (perception-action loop) temelinde evrimleşti ve mekânsal zekâ bunu mümkün kılan temel unsurlardan biri
- Arabayı park etme, bir nesneyi kavrama, karmaşık bir ortamda hareket etme gibi gündelik davranışların tümü mekânsal akıl yürütmeye dayanır
- Dil öncesi çocuk gelişiminde de çocuklar çevreyle etkileşim kurarak mekân hissi edinir
Yaratıcılık ve hayal gücü de mekânsal zekâya dayanır
- Mağara resimlerinden filmlere, oyunlara ve sanal gerçekliğe (VR) kadar insanlar dünyayı mekânsal düşünce aracılığıyla ifade etti
- Endüstriyel tasarım, dijital ikizler ve robot eğitimi gibi alanlarda da mekânsal simülasyon kilit rol oynar
Tarihsel olarak da mekânsal zekâ uygarlığın gelişimini iten güçlerden biriydi
- Eratosthenes'in Dünya'nın çevresini hesaplaması, Spinning Jenny'nin yapısal yeniliği ve DNA yapısının keşfi, mekânsal düşüncenin sonuçlarıydı
Günümüz yapay zekâsı görsel algı ve üretim yeteneklerinde ilerleme kaydetmiş olsa da, mesafe, yön ve fizik yasalarını anlama konusunda hâlâ eksik
- En yeni çok modlu modeller bile nesne döndürme, labirentte gezinme ve fiziksel tahmin gibi görevlerde düşük performans gösteriyor
- Bu sınırlama nedeniyle robot kontrolü, otonom sürüş ve sürükleyici öğrenme gibi gerçek dünya uygulamaları kısıtlanıyor

World model: mekânsal zekâyı hayata geçiren yeni yapay zekâ mimarisi

Mekânsal zekâyı gerçekleştirmek için LLM'lerden daha karmaşık bir world model gerekiyor
- Gerçek ve sanal dünyanın anlamsal, fiziksel, geometrik ve dinamik karmaşıklığını bütüncül biçimde anlaması, üretmesi ve onunla etkileşmesi gerekir
World model'in üç temel yeteneği
1. Üretken (Generative): algısal, geometrik ve fiziksel olarak tutarlı dünyalar üretmek
  - Gerçek ya da sanal mekânları simüle ederken mevcut durum ile geçmiş durum arasındaki sürekliliği korumalı
2. Çok modlu (Multimodal): görüntü, video, metin ve jest gibi farklı girdileri bütünleşik biçimde işlemek
  - Aynı anda hem görsel doğruluk hem de anlamsal yorumlama yeteneğine sahip olmalı
3. Etkileşimli (Interactive): verilen eylemlere göre bir sonraki durumu tahmin edip üretmek
  - Hedef durum verildiğinde, buna uygun dünya değişimlerini ve eylemleri de öngörebilmeli
Dil üretiminden çok daha karmaşık olan fizik yasaları, geometrik yapı ve dinamikleri tutarlı biçimde yansıtması gerektiği için teknik zorluk seviyesi çok yüksek

World Labs'in araştırmaları ve teknik zorluklar

World Labs, 2024'ün başında kuruldu ve mekânsal zekâ odaklı world model araştırmaları yürütüyor
Başlıca araştırma konuları
- Evrensel öğrenme işlevinin tanımlanması: LLM'lerdeki 'sonraki token tahmini' kadar basit ama fizik ve geometri yasalarını yansıtan bir öğrenme hedefi oluşturmak
- Büyük ölçekli eğitim verisi: internet görselleri ve videoları, sentetik veri, derinlik ve dokunsal bilgi gibi çoklu kaynaklardan yararlanmak
- Yeni model mimarileri: 3D/4D algı tabanlı tokenization ve bellek yapıları üzerine araştırmalar
  - Örneğin RTFM (Real-Time Frame-based Model), mekânsal çerçeveleri bellek olarak kullanarak gerçek zamanlı üretim ve tutarlılık sağlıyor
İlk sonuçlardan biri olan Marble, çoklu girdilerle tutarlı 3D ortamlar üretip sürdürüyor ve bazı kullanıcılara gösterildi
- Gelecekte herkese açık olarak sunulması hedefleniyor

Mekânsal zekânın uygulama alanları

Yaratıcılık ve içerik üretimi

Marble, film yapımcıları, oyun tasarımcıları ve mimarlar gibi kullanıcılara tam keşfedilebilir 3D dünyalar üretme olanağı sunuyor
- Bütçe ve coğrafi kısıtlar olmadan farklı sahneler ve bakış açıları denenebilir
- Hikâye anlatımı, sanat, eğitim ve tasarımda sürükleyici deneyimler yaratılabilir
Mekânsal anlatı tasarımı sayesinde mimarlık, endüstri ve moda tasarımındaki görselleştirme süreci kısalabilir
VR/XR tabanlı sürükleyici deneyimlerin genişlemesiyle bireysel üreticiler de kendi dünyalarını kurabilir

Robotik

Robot eğitimindeki darboğaz eğitim verisi eksikliği ve world model bunu telafi edebilir
- Simülasyon ile gerçeklik arasındaki farkı azaltarak çeşitli ortamlarda öğrenmeyi mümkün kılar
İnsanla iş birliği yapan robotlar için mekânsal zekâ vazgeçilmez
- Laboratuvarlarda ve evlerde insanların hedef ve davranışlarını anlayıp onlarla iş birliği yapan robotların geliştirilmesine yardımcı olur
Farklı robot biçimleri — nanobotlar, yumuşak robotlar, derin deniz ve uzay robotları — için eğitim ortamları ve benchmark'lar oluşturmada da kullanılabilir

Bilim, tıp, eğitim

Bilimsel araştırma: çok boyutlu simülasyonlarla deneyleri hızlandırmak, iklim ve malzeme araştırmaları gibi alanlarda hesaplama maliyetini düşürmek
Tıp: ilaç keşfi, görüntü tabanlı tanı ve hasta izleme gibi alanlarda mekânsal zekâ tabanlı yapay zekânın kullanımını genişletmek
Eğitim: karmaşık kavramları görselleştirmek ve öğrenciye uyarlanmış sürükleyici öğrenme ortamları sunmak
- Öğrenciler hücre yapısını veya tarihî olayları keşfedebilir, uzmanlar ise gerçekçi simülasyonlarla beceri pratiği yapabilir

İnsan merkezli yapay zekâ gelişimi vizyonu

Yapay zekâ geliştirmenin amacı insan yeteneklerini artırmak, onların yerini almak değil
- Gelişim, yaratıcılığı, üretkenliği, bağlantılılığı ve yaşam memnuniyetini artıracak yönde ilerlemeli
Mekânsal zekâ, insanın hayal gücünü, bakım verme ve keşfetme kapasitesini genişleten bir teknoloji olarak sunuluyor
Bu vizyonun hayata geçmesi için araştırmacılar, şirketler ve politika yapıcılar dâhil tüm yapay zekâ ekosisteminin iş birliği gerekiyor

Sonuç

Yapay zekâ zaten toplumun genelinde dönüşüm yarattı, ancak mekânsal zekâ bir sonraki yenilik aşaması olarak öne çıkıyor
World model sayesinde gerçek dünyayla uyum içinde etkileşime girebilen mekânsal olarak akıllı makineler geliştirmek mümkün hâle geliyor
Bu, hastalık araştırmalarından hikâye anlatımına ve bakıma kadar insanın temel faaliyetlerini geliştirecek bir teknolojik dönüm noktası olarak değerlendiriliyor
İnsan zekâsının evrimi mekânsal zekâ ile başladıysa, yapay zekânın tamamlanışı da mekânsal zekâ ile mümkün olacak vizyonu ortaya konuyor

1 yorum

GN⁺ 2025-11-12

Hacker News görüşleri

Yazıyı okuyunca bunların gerçekte neyi anladığını pek çıkaramadım
Notlarda kayda değer somut bilgi neredeyse yok; sadece “ImageNet gibi mekânsal veri topluyoruz” düzeyinde
mekânsal zeka üzerine çalışanlar çoğunlukla sinirbilim tarafında
Yazdığım özet makalede entorhinal cortex, grid cell ve koordinat dönüşümünün kilit olabileceğini anlatmıştım
Tüm hayvanlar dünyayı gerçek zamanlı koordinat dönüşümleriyle keşfeder ve insanlar bunların içinde en fazla koordinat temsiline sahip
İnsan düzeyinde zeka dediğimiz şeyin, koordinat sistemlerini ne zaman ve nasıl dönüştürüp faydalı bilgi çıkaracağını bilmek olduğunu düşünüyorum
Bunu LLM patlamasından önce yazmıştım ama hâlâ yönün doğru olduğuna inanıyorum
- 1990'larda ben de benzer şeyler düşünüyordum
  Bu, çarpışma tespiti, fizik tabanlı animasyon, doğrusal olmayan denklem çözümü ve engebeli arazide bacaklı hareket araştırmalarına uzandı ama AI değildi
  Bugünlerde yaklaşım, devasa hesaplama gücü yükleyip öğrenen sistemlerin mekânsal dünyanın iç temsillerini kendilerinin bulmasını beklemek gibi
  Robot yürümesi epey ilerledi ama yapılandırılmamış ortamlarda manipülasyon hâlâ çok zayıf
  1960'lardaki Stanford McCarthy laboratuvarı videolarıyla kıyaslayınca bile büyük fark yok
  Eskiden önce insan düzeyinden ziyade fare ya da sincap düzeyinde zekaya ulaşmamız gerektiğini düşünürdüm ama soyut AI'nin önce gelmesine şaşırdım
  Son dönemde kısa videoları izleyip bir sonraki sahneyi tahmin eden video üretimi araştırmaları ilgimi çekiyor
  Sağduyunun temelinin, tam da “sonra ne olacağını” kısa bir zaman ufkunda tahmin edebilme yeteneği olduğunu düşünüyorum
- Sizin de Moser çiftiyle (Nobel ödüllü) birlikte grid cell'lerin hayvanların dünyadaki konumlarını anlamasında merkezi rol oynadığına inanmanız ilginç
  İlgili Nobel basın duyurusu da bakmaya değer
- Birkaç paragraf okuduktan sonra “mekânsal zeka”nın tanımı gelmeyince bıraktım
  “transform”, “revolutionize”, “next frontier”, “North Star” gibi VC tarzı moda sözcükler o kadar fazla ki güven vermiyor
- Makaleyi keyifle okudum, özellikle kaynakçası çok ilginçti
  Nature 2018'deki "Vector-based navigation using grid-like representations in artificial agents",
  Nature 2024'teki "Modeling hippocampal spatial cells in rodents navigating in 3D environments",
  ve DeepMind'in grid-cell simülasyonu da birlikte bakmaya değer
  Sinirbilim tarafında mekânsal algı üzerine çalışmalar epeydir yapılıyor
- Sonuçta önemli olan, bu tür araştırmalardan gerçek içgörü elde edip edemeyeceğimiz
  Biyolojik sistemleri olduğu gibi kopyalamak neredeyse hep başarısız oluyor
  CNN'ler beyinden ilham aldı ama yapısal olarak farklı, LLM'ler ise insan beynine neredeyse hiç benzemiyor
  LLM'lerin işlevsel benzerliği beyin yapısını taklit etmelerinden değil, eğitim sürecinden kaynaklanıyor
Bu, sadece dar bir sanal dünyada çalışan bir simülasyon sistemi
Bu tür sistemler gerçek dünyanın karmaşık dinamiklerini öğrenmede neredeyse hiç yardımcı olmuyor
Sanal dünya modelleri, fiziksel dünya modellerinin sadece basitleştirilmiş özel bir durumu ve bu şirketin mekânsal zeka alanında kayda değer ilerleme kaydettiğine dair bir kanıt görünmüyor
Son dönemde agentic coding'i CAD'e uygulayıp şaşırtıcı bir deneyim yaşadım
3D baskı modeline vida dişi eklemem gerekiyordu; hesaplamalı geometri kullanarak ajanı modeli adeta ‘hissedebilir’ hâle getirdim
Küre yarıçapını tüm model boyunca konvolüsyon uygulayarak port konumunu buldu ve vida dişlerini ekledi
Birkaç denemeden sonra başardı ve bu deneyim bana modelin ‘dokunsal bir duyusu’ olması gerektiğini fark ettirdi
Sonunda 3D modelin kod olarak uygulanmış ve doğrulanabilir olması gerekiyordu
- Generative CAD'in potansiyeli muazzam
  OpenSCAD ile denedim ama mevcut modellerde şekil bağlantısına dair sağduyu eksik
  Kod tabanlı CAD veri setleri arttıkça çok daha kullanışlı olacaktır
  Aksi takdirde sonunda fizik simülasyonu tabanlı öğrenme gerekecek
- Acaba CadQuery kullandınız mı, çıkardığınız dersleri topladığınız bir yazı varsa görmek isterim
- Uygulama sürecini daha ayrıntılı duymak isterim; bunu yazıya dökme planınız var mı merak ediyorum
- Ben de üretken 3D nesne yaklaşımını deniyorum, o yüzden daha fazlasını duymak isterim
- LLM prompt'larının aksine geometrik nesneleri metinle tarif etmek gerçekten çok zor
  “onu oraya değil de buraya koy” düzeyinde bir muğlaklık oluşuyor
Genie 3, onun sözünü ettiği hedefe, yani tutarlı fizik yasalarına sahip kontrol edilebilir dünya modeline bir ölçüde ulaştı
Kardeş model Veo 3 de mekânsal problem çözme becerisi gösteriyor
Genie ve Veo, World Labs'den çok onun vizyonuna daha yakın
Ama yazıda Google modellerinden hiç söz edilmemesi bunu şirket tanıtımı amaçlı bir yazı gibi hissettiriyor
- Gemini ER de gerçek dünyada mekânsal olarak çalışan bir model
  DeepMind Gemini Robotics ER bağlantısına bakılabilir
Bugünkü AI yalnızca web'den öğreniyor ve insanlarla etkileşimden öğrenemiyor
İnsanlar ömür boyu biriken bağlam ve hafızayla öğrenirken AI'de konuşma bittiğinde o bağlam kayboluyor
Kişiselleştirilmiş devasa bir bağlam hafızası olsaydı çok daha değerli olurdu
- Google Research'ün Nested Learning yaklaşımı bu soruna bir çözüm olabilir
  Mevcut yöntemlerde ek eğitim sırasında catastrophic forgetting yaşanıyor ama Nested Learning, bunu birçok küçük modele bölerek yeniden eğitimde diğer bölümlerin bozulmasını engelliyor
- İnsandaki ‘bağlam’, milyarlarca yıllık evrimsel birikimin sonucu
  Sahip olduğumuz mekânsal anlayış, kozmik ölçekte bir kuantum simülasyonu kadar büyük
  Buna karşılık bugün tam olarak simüle edebildiğimiz şeyler en fazla atom ya da hücre düzeyinde
Bu yazıyı okurken, insanın doğayı ‘önceden düşünüp aşmasının’ ilk örneğinin tekerlek olabileceğini düşündüm
Doğa engebeli ama insanlar düz yollar yaparak yuvarlanmayı mümkün kıldı
Bilim ve teknolojinin ilerlemesi, kuşaklar arasında örüntü sezgisinin aktarımını mümkün kılan başka bir örnek
‘Süperzeka’nın hız dışında başka bir biçimde mümkün olup olmadığını bilmiyorum ama üç boyutlu düşünebilme yeteneği AI'nin insanı ve doğayı aşması için gerekli olacak gibi görünüyor
- İnsan bedeni, hücrelerin iş birliği yaptığı örgütlü bir sistem
  Kan damarları nasıl besin ve sinyal taşıyorsa yollar da kaynak taşıyor
  Belki de doğa o örgütleme yeteneğini yalnızca tür ölçeğine genişletti; bu yüzden insanın doğanın üstünde olduğunu söylemek için zayıf bir dayanak var
İnsan bilişi, mekânsal zeka üzerine inşa edilmiş bir yapı
Yalnızca soyut düşünceden oluşmuyor; duyu temelli bütünleşik bir deneyim
Evrim genellemeyi simgesel bir beyinle değil, duyuların birleşimiyle gerçekleştirdi
Zeka bir algoritmadan değil, duyular arasındaki tutarlı uyumdan doğuyor
İlerisi için asıl yön, duyuların bütünlüğü
LLM'lerde mekânsal akıl yürütme durumunu özetleyen şu blog yazısını takip ediyorum
Sonuç şu… daha gidilecek çok yol var
Spatial token yardımcı olabilir ama şart değil
Pek çok fizik problemi hâlâ kâğıt kalemle çözülebiliyor
512×512 bir görüntünün 85 token'la, videonun ise saniyede 263 token'la temsil edilebilmesi şaşırtıcı
Bu, hafıza ile embedding arasında yeni bir denge problemi gibi görünüyor
“Aklında bir elmayı döndürebiliyor musun?” sorusunda olduğu gibi, mekânsal embedding'ler sezgisel dinamik anlayışı mümkün kılacaktır
FlyShirley ekibimizde biz de bu alanı pilot eğitim simülasyonu üzerinden araştırıyoruz ve Fei-Fei'nin modelini denemeyi planlıyoruz
Video tabanlı öğrenme ve akıl yürütme muazzam hesaplama kaynakları gerektirdiğinden,
bu yaklaşımın ajan asistanlara (kodlama, pazarlama, takvim yönetimi vb.) pratikte yardımcı olup olmayacağı şüpheli
Bana kalırsa bu hesaplama yapısı robotik alanında daha avantajlı olacaktır

Mekânsal zekâ, yapay zekânın bir sonraki sınırı

Mekânsal zekâ kavramı ve önemi

World model: mekânsal zekâyı hayata geçiren yeni yapay zekâ mimarisi

World Labs'in araştırmaları ve teknik zorluklar

Mekânsal zekânın uygulama alanları

Yaratıcılık ve içerik üretimi

Robotik

Bilim, tıp, eğitim

İnsan merkezli yapay zekâ gelişimi vizyonu

Sonuç

İlgili okumalar

1 yorum

Hacker News görüşleri