14 puan yazan GN⁺ 2025-11-12 | 1 yorum | WhatsApp'ta paylaş
  • Mekânsal zekâ (spatial intelligence), yapay zekânın gerçek ve sanal dünyayı anlama ve onunla etkileşime girme biçimini kökten değiştiren temel bir alan
  • Mevcut büyük dil modelleri (LLM) dil işlemede çok başarılı olsa da, mesafe, yön ve fiziksel tutarlılık gibi mekânsal akıl yürütme yeteneklerinde insan seviyesine ulaşamıyor
  • Bunu çözmek için yeni bir yaklaşım olarak 'world model' öneriliyor; bu, üretken, çok modlu ve etkileşimli özelliklere sahip yeni nesil üretken model mimarisi
  • World Labs bu tür modeller geliştiriyor; 'Marble' adlı ilk sürüm, çoklu girdilere dayanarak tutarlı 3D ortamlar üretme ve bunları sürdürme yeteneğini sergiliyor
  • Mekânsal zekâ, yaratıcılık, robotik, bilim, tıp ve eğitim gibi çeşitli alanlarda insan yeteneklerini artıracak yapay zekâ gelişiminin bir sonraki aşaması

Mekânsal zekâ kavramı ve önemi

  • İnsan zekâsı, algı-eylem döngüsü (perception-action loop) temelinde evrimleşti ve mekânsal zekâ bunu mümkün kılan temel unsurlardan biri
    • Arabayı park etme, bir nesneyi kavrama, karmaşık bir ortamda hareket etme gibi gündelik davranışların tümü mekânsal akıl yürütmeye dayanır
    • Dil öncesi çocuk gelişiminde de çocuklar çevreyle etkileşim kurarak mekân hissi edinir
  • Yaratıcılık ve hayal gücü de mekânsal zekâya dayanır
    • Mağara resimlerinden filmlere, oyunlara ve sanal gerçekliğe (VR) kadar insanlar dünyayı mekânsal düşünce aracılığıyla ifade etti
    • Endüstriyel tasarım, dijital ikizler ve robot eğitimi gibi alanlarda da mekânsal simülasyon kilit rol oynar
  • Tarihsel olarak da mekânsal zekâ uygarlığın gelişimini iten güçlerden biriydi
    • Eratosthenes'in Dünya'nın çevresini hesaplaması, Spinning Jenny'nin yapısal yeniliği ve DNA yapısının keşfi, mekânsal düşüncenin sonuçlarıydı
  • Günümüz yapay zekâsı görsel algı ve üretim yeteneklerinde ilerleme kaydetmiş olsa da, mesafe, yön ve fizik yasalarını anlama konusunda hâlâ eksik
    • En yeni çok modlu modeller bile nesne döndürme, labirentte gezinme ve fiziksel tahmin gibi görevlerde düşük performans gösteriyor
    • Bu sınırlama nedeniyle robot kontrolü, otonom sürüş ve sürükleyici öğrenme gibi gerçek dünya uygulamaları kısıtlanıyor

World model: mekânsal zekâyı hayata geçiren yeni yapay zekâ mimarisi

  • Mekânsal zekâyı gerçekleştirmek için LLM'lerden daha karmaşık bir world model gerekiyor
    • Gerçek ve sanal dünyanın anlamsal, fiziksel, geometrik ve dinamik karmaşıklığını bütüncül biçimde anlaması, üretmesi ve onunla etkileşmesi gerekir
  • World model'in üç temel yeteneği
    1. Üretken (Generative): algısal, geometrik ve fiziksel olarak tutarlı dünyalar üretmek
      • Gerçek ya da sanal mekânları simüle ederken mevcut durum ile geçmiş durum arasındaki sürekliliği korumalı
    2. Çok modlu (Multimodal): görüntü, video, metin ve jest gibi farklı girdileri bütünleşik biçimde işlemek
      • Aynı anda hem görsel doğruluk hem de anlamsal yorumlama yeteneğine sahip olmalı
    3. Etkileşimli (Interactive): verilen eylemlere göre bir sonraki durumu tahmin edip üretmek
      • Hedef durum verildiğinde, buna uygun dünya değişimlerini ve eylemleri de öngörebilmeli
  • Dil üretiminden çok daha karmaşık olan fizik yasaları, geometrik yapı ve dinamikleri tutarlı biçimde yansıtması gerektiği için teknik zorluk seviyesi çok yüksek

World Labs'in araştırmaları ve teknik zorluklar

  • World Labs, 2024'ün başında kuruldu ve mekânsal zekâ odaklı world model araştırmaları yürütüyor
  • Başlıca araştırma konuları
    • Evrensel öğrenme işlevinin tanımlanması: LLM'lerdeki 'sonraki token tahmini' kadar basit ama fizik ve geometri yasalarını yansıtan bir öğrenme hedefi oluşturmak
    • Büyük ölçekli eğitim verisi: internet görselleri ve videoları, sentetik veri, derinlik ve dokunsal bilgi gibi çoklu kaynaklardan yararlanmak
    • Yeni model mimarileri: 3D/4D algı tabanlı tokenization ve bellek yapıları üzerine araştırmalar
      • Örneğin RTFM (Real-Time Frame-based Model), mekânsal çerçeveleri bellek olarak kullanarak gerçek zamanlı üretim ve tutarlılık sağlıyor
  • İlk sonuçlardan biri olan Marble, çoklu girdilerle tutarlı 3D ortamlar üretip sürdürüyor ve bazı kullanıcılara gösterildi
    • Gelecekte herkese açık olarak sunulması hedefleniyor

Mekânsal zekânın uygulama alanları

Yaratıcılık ve içerik üretimi

  • Marble, film yapımcıları, oyun tasarımcıları ve mimarlar gibi kullanıcılara tam keşfedilebilir 3D dünyalar üretme olanağı sunuyor
    • Bütçe ve coğrafi kısıtlar olmadan farklı sahneler ve bakış açıları denenebilir
    • Hikâye anlatımı, sanat, eğitim ve tasarımda sürükleyici deneyimler yaratılabilir
  • Mekânsal anlatı tasarımı sayesinde mimarlık, endüstri ve moda tasarımındaki görselleştirme süreci kısalabilir
  • VR/XR tabanlı sürükleyici deneyimlerin genişlemesiyle bireysel üreticiler de kendi dünyalarını kurabilir

Robotik

  • Robot eğitimindeki darboğaz eğitim verisi eksikliği ve world model bunu telafi edebilir
    • Simülasyon ile gerçeklik arasındaki farkı azaltarak çeşitli ortamlarda öğrenmeyi mümkün kılar
  • İnsanla iş birliği yapan robotlar için mekânsal zekâ vazgeçilmez
    • Laboratuvarlarda ve evlerde insanların hedef ve davranışlarını anlayıp onlarla iş birliği yapan robotların geliştirilmesine yardımcı olur
  • Farklı robot biçimleri — nanobotlar, yumuşak robotlar, derin deniz ve uzay robotları — için eğitim ortamları ve benchmark'lar oluşturmada da kullanılabilir

Bilim, tıp, eğitim

  • Bilimsel araştırma: çok boyutlu simülasyonlarla deneyleri hızlandırmak, iklim ve malzeme araştırmaları gibi alanlarda hesaplama maliyetini düşürmek
  • Tıp: ilaç keşfi, görüntü tabanlı tanı ve hasta izleme gibi alanlarda mekânsal zekâ tabanlı yapay zekânın kullanımını genişletmek
  • Eğitim: karmaşık kavramları görselleştirmek ve öğrenciye uyarlanmış sürükleyici öğrenme ortamları sunmak
    • Öğrenciler hücre yapısını veya tarihî olayları keşfedebilir, uzmanlar ise gerçekçi simülasyonlarla beceri pratiği yapabilir

İnsan merkezli yapay zekâ gelişimi vizyonu

  • Yapay zekâ geliştirmenin amacı insan yeteneklerini artırmak, onların yerini almak değil
    • Gelişim, yaratıcılığı, üretkenliği, bağlantılılığı ve yaşam memnuniyetini artıracak yönde ilerlemeli
  • Mekânsal zekâ, insanın hayal gücünü, bakım verme ve keşfetme kapasitesini genişleten bir teknoloji olarak sunuluyor
  • Bu vizyonun hayata geçmesi için araştırmacılar, şirketler ve politika yapıcılar dâhil tüm yapay zekâ ekosisteminin iş birliği gerekiyor

Sonuç

  • Yapay zekâ zaten toplumun genelinde dönüşüm yarattı, ancak mekânsal zekâ bir sonraki yenilik aşaması olarak öne çıkıyor
  • World model sayesinde gerçek dünyayla uyum içinde etkileşime girebilen mekânsal olarak akıllı makineler geliştirmek mümkün hâle geliyor
  • Bu, hastalık araştırmalarından hikâye anlatımına ve bakıma kadar insanın temel faaliyetlerini geliştirecek bir teknolojik dönüm noktası olarak değerlendiriliyor
  • İnsan zekâsının evrimi mekânsal zekâ ile başladıysa, yapay zekânın tamamlanışı da mekânsal zekâ ile mümkün olacak vizyonu ortaya konuyor

1 yorum

 
GN⁺ 2025-11-12
Hacker News görüşleri
  • Yazıyı okuyunca bunların gerçekte neyi anladığını pek çıkaramadım
    Notlarda kayda değer somut bilgi neredeyse yok; sadece “ImageNet gibi mekânsal veri topluyoruz” düzeyinde
    mekânsal zeka üzerine çalışanlar çoğunlukla sinirbilim tarafında
    Yazdığım özet makalede entorhinal cortex, grid cell ve koordinat dönüşümünün kilit olabileceğini anlatmıştım
    Tüm hayvanlar dünyayı gerçek zamanlı koordinat dönüşümleriyle keşfeder ve insanlar bunların içinde en fazla koordinat temsiline sahip
    İnsan düzeyinde zeka dediğimiz şeyin, koordinat sistemlerini ne zaman ve nasıl dönüştürüp faydalı bilgi çıkaracağını bilmek olduğunu düşünüyorum
    Bunu LLM patlamasından önce yazmıştım ama hâlâ yönün doğru olduğuna inanıyorum

    • 1990'larda ben de benzer şeyler düşünüyordum
      Bu, çarpışma tespiti, fizik tabanlı animasyon, doğrusal olmayan denklem çözümü ve engebeli arazide bacaklı hareket araştırmalarına uzandı ama AI değildi
      Bugünlerde yaklaşım, devasa hesaplama gücü yükleyip öğrenen sistemlerin mekânsal dünyanın iç temsillerini kendilerinin bulmasını beklemek gibi
      Robot yürümesi epey ilerledi ama yapılandırılmamış ortamlarda manipülasyon hâlâ çok zayıf
      1960'lardaki Stanford McCarthy laboratuvarı videolarıyla kıyaslayınca bile büyük fark yok
      Eskiden önce insan düzeyinden ziyade fare ya da sincap düzeyinde zekaya ulaşmamız gerektiğini düşünürdüm ama soyut AI'nin önce gelmesine şaşırdım
      Son dönemde kısa videoları izleyip bir sonraki sahneyi tahmin eden video üretimi araştırmaları ilgimi çekiyor
      Sağduyunun temelinin, tam da “sonra ne olacağını” kısa bir zaman ufkunda tahmin edebilme yeteneği olduğunu düşünüyorum
    • Sizin de Moser çiftiyle (Nobel ödüllü) birlikte grid cell'lerin hayvanların dünyadaki konumlarını anlamasında merkezi rol oynadığına inanmanız ilginç
      İlgili Nobel basın duyurusu da bakmaya değer
    • Birkaç paragraf okuduktan sonra “mekânsal zeka”nın tanımı gelmeyince bıraktım
      “transform”, “revolutionize”, “next frontier”, “North Star” gibi VC tarzı moda sözcükler o kadar fazla ki güven vermiyor
    • Makaleyi keyifle okudum, özellikle kaynakçası çok ilginçti
      Nature 2018'deki "Vector-based navigation using grid-like representations in artificial agents",
      Nature 2024'teki "Modeling hippocampal spatial cells in rodents navigating in 3D environments",
      ve DeepMind'in grid-cell simülasyonu da birlikte bakmaya değer
      Sinirbilim tarafında mekânsal algı üzerine çalışmalar epeydir yapılıyor
    • Sonuçta önemli olan, bu tür araştırmalardan gerçek içgörü elde edip edemeyeceğimiz
      Biyolojik sistemleri olduğu gibi kopyalamak neredeyse hep başarısız oluyor
      CNN'ler beyinden ilham aldı ama yapısal olarak farklı, LLM'ler ise insan beynine neredeyse hiç benzemiyor
      LLM'lerin işlevsel benzerliği beyin yapısını taklit etmelerinden değil, eğitim sürecinden kaynaklanıyor
  • Bu, sadece dar bir sanal dünyada çalışan bir simülasyon sistemi
    Bu tür sistemler gerçek dünyanın karmaşık dinamiklerini öğrenmede neredeyse hiç yardımcı olmuyor
    Sanal dünya modelleri, fiziksel dünya modellerinin sadece basitleştirilmiş özel bir durumu ve bu şirketin mekânsal zeka alanında kayda değer ilerleme kaydettiğine dair bir kanıt görünmüyor

  • Son dönemde agentic coding'i CAD'e uygulayıp şaşırtıcı bir deneyim yaşadım
    3D baskı modeline vida dişi eklemem gerekiyordu; hesaplamalı geometri kullanarak ajanı modeli adeta ‘hissedebilir’ hâle getirdim
    Küre yarıçapını tüm model boyunca konvolüsyon uygulayarak port konumunu buldu ve vida dişlerini ekledi
    Birkaç denemeden sonra başardı ve bu deneyim bana modelin ‘dokunsal bir duyusu’ olması gerektiğini fark ettirdi
    Sonunda 3D modelin kod olarak uygulanmış ve doğrulanabilir olması gerekiyordu

    • Generative CAD'in potansiyeli muazzam
      OpenSCAD ile denedim ama mevcut modellerde şekil bağlantısına dair sağduyu eksik
      Kod tabanlı CAD veri setleri arttıkça çok daha kullanışlı olacaktır
      Aksi takdirde sonunda fizik simülasyonu tabanlı öğrenme gerekecek
    • Acaba CadQuery kullandınız mı, çıkardığınız dersleri topladığınız bir yazı varsa görmek isterim
    • Uygulama sürecini daha ayrıntılı duymak isterim; bunu yazıya dökme planınız var mı merak ediyorum
    • Ben de üretken 3D nesne yaklaşımını deniyorum, o yüzden daha fazlasını duymak isterim
    • LLM prompt'larının aksine geometrik nesneleri metinle tarif etmek gerçekten çok zor
      “onu oraya değil de buraya koy” düzeyinde bir muğlaklık oluşuyor
  • Genie 3, onun sözünü ettiği hedefe, yani tutarlı fizik yasalarına sahip kontrol edilebilir dünya modeline bir ölçüde ulaştı
    Kardeş model Veo 3 de mekânsal problem çözme becerisi gösteriyor
    Genie ve Veo, World Labs'den çok onun vizyonuna daha yakın
    Ama yazıda Google modellerinden hiç söz edilmemesi bunu şirket tanıtımı amaçlı bir yazı gibi hissettiriyor

  • Bugünkü AI yalnızca web'den öğreniyor ve insanlarla etkileşimden öğrenemiyor
    İnsanlar ömür boyu biriken bağlam ve hafızayla öğrenirken AI'de konuşma bittiğinde o bağlam kayboluyor
    Kişiselleştirilmiş devasa bir bağlam hafızası olsaydı çok daha değerli olurdu

    • Google Research'ün Nested Learning yaklaşımı bu soruna bir çözüm olabilir
      Mevcut yöntemlerde ek eğitim sırasında catastrophic forgetting yaşanıyor ama Nested Learning, bunu birçok küçük modele bölerek yeniden eğitimde diğer bölümlerin bozulmasını engelliyor
    • İnsandaki ‘bağlam’, milyarlarca yıllık evrimsel birikimin sonucu
      Sahip olduğumuz mekânsal anlayış, kozmik ölçekte bir kuantum simülasyonu kadar büyük
      Buna karşılık bugün tam olarak simüle edebildiğimiz şeyler en fazla atom ya da hücre düzeyinde
  • Bu yazıyı okurken, insanın doğayı ‘önceden düşünüp aşmasının’ ilk örneğinin tekerlek olabileceğini düşündüm
    Doğa engebeli ama insanlar düz yollar yaparak yuvarlanmayı mümkün kıldı
    Bilim ve teknolojinin ilerlemesi, kuşaklar arasında örüntü sezgisinin aktarımını mümkün kılan başka bir örnek
    ‘Süperzeka’nın hız dışında başka bir biçimde mümkün olup olmadığını bilmiyorum ama üç boyutlu düşünebilme yeteneği AI'nin insanı ve doğayı aşması için gerekli olacak gibi görünüyor

    • İnsan bedeni, hücrelerin iş birliği yaptığı örgütlü bir sistem
      Kan damarları nasıl besin ve sinyal taşıyorsa yollar da kaynak taşıyor
      Belki de doğa o örgütleme yeteneğini yalnızca tür ölçeğine genişletti; bu yüzden insanın doğanın üstünde olduğunu söylemek için zayıf bir dayanak var
  • İnsan bilişi, mekânsal zeka üzerine inşa edilmiş bir yapı
    Yalnızca soyut düşünceden oluşmuyor; duyu temelli bütünleşik bir deneyim
    Evrim genellemeyi simgesel bir beyinle değil, duyuların birleşimiyle gerçekleştirdi
    Zeka bir algoritmadan değil, duyular arasındaki tutarlı uyumdan doğuyor
    İlerisi için asıl yön, duyuların bütünlüğü

  • LLM'lerde mekânsal akıl yürütme durumunu özetleyen şu blog yazısını takip ediyorum
    Sonuç şu… daha gidilecek çok yol var

  • Spatial token yardımcı olabilir ama şart değil
    Pek çok fizik problemi hâlâ kâğıt kalemle çözülebiliyor
    512×512 bir görüntünün 85 token'la, videonun ise saniyede 263 token'la temsil edilebilmesi şaşırtıcı
    Bu, hafıza ile embedding arasında yeni bir denge problemi gibi görünüyor
    “Aklında bir elmayı döndürebiliyor musun?” sorusunda olduğu gibi, mekânsal embedding'ler sezgisel dinamik anlayışı mümkün kılacaktır
    FlyShirley ekibimizde biz de bu alanı pilot eğitim simülasyonu üzerinden araştırıyoruz ve Fei-Fei'nin modelini denemeyi planlıyoruz

  • Video tabanlı öğrenme ve akıl yürütme muazzam hesaplama kaynakları gerektirdiğinden,
    bu yaklaşımın ajan asistanlara (kodlama, pazarlama, takvim yönetimi vb.) pratikte yardımcı olup olmayacağı şüpheli
    Bana kalırsa bu hesaplama yapısı robotik alanında daha avantajlı olacaktır