14 puan yazan GN⁺ 2026-02-06 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Yazılım tabanlı yapay zeka sıçramalı biçimde ilerlemiş olsa da fiziksel dünyadaki robotlar hâlâ çamaşır katlama ya da bulaşık makinesini yerleştirme gibi temel görevlerde bile zorlanıyor
  • Fiziksel dünya sürtünme, örtülme (occlusion), öngörülemez dinamikler ve rastlantısallık ile dolu; bu da onu metin merkezli yapay zeka ortamlarından özsel olarak farklı kılıyor
  • World Model, fizik kurallarını doğrudan programlamak yerine gerçek deneyimlerden öğrenerek eylemlere bağlı gelecekteki durumları tahmin etme şeklinde çalışır
  • JEPA (Joint-Embedding Predictive Architecture), piksel düzeyinde tahmin yerine soyut temsilleri tahmin ederek gürültüyü ayıklar, ancak temsil çökmesi (collapse) sorunu yaşamıştır
  • LeJEPA, bu sorunu matematiksel bir düzenlileştirme tekniğiyle çözer ve robotiğin elle yazılmış kural tabanlı yaklaşımdan öğrenme tabanlı yaklaşıma geçişi için teorik bir temel sunar

Dijital yapay zeka ile fiziksel robotlar arasındaki uçurum

  • LLM'ler kod yazma, yeni ilaç ve protein tasarlama, hukuki belgeleri özetleme, öğrencilere özel ders verme, müzik ve sanat üretme, hatta onlarca yıldır klasik yapay zekanın çözemediği matematiksel akıl yürütme problemlerini çözme gibi görevleri yerine getirebiliyor
  • Buna karşılık fiziksel dünyadaki robotlar, kontrollü depo ortamlarının dışına çıktıklarında çamaşır katlama, dağınık oda temizleme, düzensiz nesneleri kavrama, bulaşık makinesini yerleştirme, yemek yapma ve sofra hazırlama gibi temel işlerde sürekli başarısız oluyor
  • Otonom ev içi yardımcı robotlar, öngörülemez ortamlarda güvenle hareket edebilen sistemler veya küçük çocuk seviyesinde esnek nesne manipülasyonu yeteneği henüz hayata geçirilebilmiş değil; fabrika ve araştırma laboratuvarı robotları ise hâlâ yüksek maliyetli, kırılgan, betik bağımlı ve dar uzmanlaşmış durumda
  • Rodney Brooks gibi robotik araştırmacıları “yalnızca görmeye dayalı” yaklaşımlara kuşkuyla bakıyor; çünkü manipülasyon büyük ölçüde dokunma, kuvvet geri bildirimi ve proprioception (özduyum) sinyallerine dayanıyor, ancak mevcut sistemlerde bu sinyaller ya yok ya da çok kaba
  • Dil modelleri, metin gibi yapısı tutarlı ve istikrarlı bir dünyada çalışır ve dijital eylemler geri alınabilir; oysa fiziksel dünya sürtünme, örtülme, öngörülemez dinamikler ve sürekli rastlantısallıkla doludur

World Model'in tanımı ve rolü

  • İnsanlar gerçek dünyada karar verirken ve plan yaparken çevreye dair içsel temsillere (internal representation) dayanır; plan yapmak, eylemlere göre ortaya çıkabilecek gelecekteki durumları zihinde canlandırma sürecidir
  • Bu içsel temsil, problem çözmek için gerekli bilgiyi tutar ve gereksiz ayrıntıları ayıklar; örneğin işe gidiş güzergâhını planlarken yolları, zamanı ve trafik yoğunluğunu hesaba katarsınız, ama her aracın çıkardığı belirli ses gibi ilgisiz bilgileri içermezsiniz
  • Daha üst düzeyde bu içsel temsiller dünyanın yapısını yansıtır ve yeni durumları mevcut tanıdık örüntülere hızla yerleştirmeyi mümkün kılar
    • Örnek: İlk kez gördüğünüz biçimde bir kapı kolu olsa bile, şekli ve konumundan bunun bir kol olduğunu anlayabilir ve “kapılar kola kuvvet uygulanarak açılır” yönündeki genel anlayışa dayanarak nasıl çalıştığını çıkarabilirsiniz
  • World Model, gözlemleri doğrudan eyleme dönüştüren policy'den farklıdır; kendi başına karar vermek yerine, olası farklı eylemler altında dünyanın nasıl değişeceğini tahmin ederek gelecekteki durumların sıkıştırılmış temsillerini üretir
  • Böyle bir tahmin modeli olduğunda planner (veya alt policy), hayal edilen farklı gelecekleri karşılaştırıp değerlendirerek en iyi sonuca götüren eylem dizisini seçebilir

Faydalı bir World Model'in 4 özelliği

  • Dünyanın yapısını yansıtma: Ham duyusal veriyi değil, dünyanın yapısını ortaya koyan temsilleri içermelidir
  • Çoklu görev genellemesi: Her seferinde sıfırdan öğrenmeden yeni görevlere uyum sağlayabilmelidir
  • İlgisiz ayrıntıları filtreleme: Yalnızca sonucu etkileyen bilgiye odaklanmalı, gereksiz unsurları ayıklamalıdır
  • Eylemlere bağlı dünya değişimini tahmin etme: Gerçekten hareket etmeden önce olası sonuçları önceden canlandırabilmelidir

Anlamlı dünya temsili öğrenmenin tarihi

  • Derin öğrenmenin algı (perception) alanındaki başlıca atılımları, amaçlanmamış olsa bile dünya hakkında yapılandırılmış temsiller içsel olarak üretmiştir
  • Bilgisayarlı görüde görüntüleri kedi, köpek, fil gibi sınıflara ayırmak üzere eğitilen modeller iyi organize edilmiş ve yeniden kullanılabilir iç temsiller oluşturmuştur
  • Görüntünün içeriğini doğru tahmin etmeyi amaçlayan basit hedefleri optimize ederken, öğrenilen özellikler şekil, doku, duruş ve anlambilim gibi bilgileri doğal olarak kodlamıştır
  • Bu şekilde elde edilen temsiller, ek bir eğitim olmadan nesne tespiti, izleme ve segmentasyon gibi görevlerde durum girdisi olarak kullanılabilir
  • Ardından sınıflandırma merkezli yaklaşımdan uzaklaşılıp, verilen bağlama göre eksik parçaları tamamlama amaçlı görüntü yeniden oluşturma temelli öğrenmeye geçildi ve daha zengin, daha genellenebilir temsiller ortaya çıktı
  • Ancak temel bir sınıra da ulaşıldı: duyusal girdiler her zaman sonraki görevlerle ilgisiz, tahmin edilmesi imkânsız ayrıntılar içerir
    • Örnek: Kaynayan bir tencerenin yüzeyindeki ince dalga desenleri özünde rastlantısaldır ve karar verme açısından neredeyse hiçbir katkı sağlamaz
    • Yeniden oluşturma tabanlı modeller bu ayrıntıları da tahmin hedefi haline getirerek World Model için anlamsız rastlantısallığı birlikte kodlamaya çalışır
    • Sonuçta dünya temsili, temel yapı yerine gürültüyle iç içe geçmiş bir biçimde oluşur

JEPA'nın yaklaşımı

  • Görüntü yeniden oluşturma, örüntü tamamlama problemi olarak düşünülebilirken (görüntünün bir kısmı verildiğinde eksik pikselleri tahmin etmek), World Model ise zamana yayılan bir örüntü tamamlama problemi olarak görülebilir
    • Mevcut dünya durumu ve eylem dizisi verildiğinde gelecekteki durumu tahmin etme problemi
  • JEPA (Joint-Embedding Predictive Architecture), görüntü yeniden oluşturma ya da piksel düzeyinde gelecekteki video karelerini tahmin etmek yerine, gizil değişkenlere koşullanan geleceğin soyut temsillerini tahmin etmeye odaklanır
  • Gizil değişkenler, robotun gerçekleştirdiği eylemler ya da gelecekteki değişimi etkileyen bağımsız etkenler olarak düşünülebilir
  • Tam piksel düzeyindeki görünümü değil, sahnenin soyut durumunu tahmin edecek şekilde eğitilerek, ilgisiz görsel ayrıntılara model kapasitesini harcamadan düzenli ve uygulanabilir temsiller oluşturur
  • JEPA, kararlı ve anlamlı öğeleri yakalarken yüksek derecede rastlantısal ayrıntıları doğal olarak dışlayan temsiller inşa eder
  • Eğitim hedefinin kendisi, çaydanlıktan yükselen buharın tam biçimini ya da buruşuk bir kumaşın ince dokusunu kodlamamaya yönlendirir
    • Bu tür ayrıntılar doğaları gereği öngörülemezdir ve gelecekteki dünya durumunu tahmin etmeyi daha da zorlaştırır
  • Yüksek performans elde etmek için modelin, dünyanın nasıl değişeceğini anlamada önemli olan tahmin edilebilir yönleri temsil etmesi gerekir
  • Bu mimari seçimin özü, modelin hedefini basit yeniden oluşturmadan çıkarıp dünyanın tahmin edilebilir dinamiklerini öğrenmeye yöneltmiş olmasıdır

JEPA'nın sınırları ve temsil çökmesi sorunu

  • JEPA'nın son yıllarda geniş ölçekte yaygınlaşmamasının nedeni, gürültülü ve öngörülemez ayrıntılarla anlamlı yapıyı net biçimde ayırmanın zor olmasıdır
  • Uygun kısıtlar olmadığında model, önemsiz temsillere (trivial representation) çökme eğilimi gösterir
  • Bu, fazla bilgi sorununu çözmek için bir dosyalama sisteminin belge kategorilerini toptan ortadan kaldırmasına benzer
    • JEPA modeli, öngörülemez gürültüden kaçmak için kestirme bir yol seçerken, süreç içinde yararlı yapıyı da birlikte siler

LeJEPA: matematiksel çözüm

  • Randall Balestriero ve Yann LeCun tarafından önerilen LeJEPA, JEPA'da ortaya çıkan temsil çökmesini önlemek için matematiksel olarak temellendirilmiş bir regularizer sunar
  • Temel fikir, iç temsil uzayının yalnızca bazı özelliklerde aşırı varyans biriktirip geri kalanını ihmal etmesini engellemek; bunun yerine her yönde eşit çözünürlüğü korumasını sağlamaktır
  • Bunun için embedding dağılımı izotropik Gauss (isotropic Gaussian) biçimine yönlendirilir
  • Bu kısıt, modelin kapasitesini temsil boyutları boyunca dengeli biçimde kullanmasını teşvik ederek zengin ve iyi koşullanmış iç temsilleri korumasını sağlar
  • Görünüşte basit bir geometrik kısıt gibi dursa da şu güçlü etkileri gösterir
    • Eğitim sürecinde istikrar artışı
    • Anlamlı yapının korunması
    • Veri artırma ya da kontrastif negatifler gibi sezgisel yöntemlere ihtiyaç duymadan zengin ve tahmin edilebilir temsiller öğrenebilme
  • Bu, model çökmesini önlemek için geçici tekniklerden çıkıp, gürültüye kapılmadan dünyanın yapısını bizzat öğrenmeye yönlendiren teorik bir yaklaşıma geçiş anlamına gelir

World Model'in sunduğu yeni yol

  • Bu fikirler, robotiğe bakışımızda temelden bir değişime işaret ediyor
  • Robotik onlarca yıl boyunca şu döngüye sıkışıp kaldı
    • Belirli bir görev için çözümü elle tasarlama
    • Kenar durumlarda başarısızlığı gözleme
    • Sürekli yeni kurallar ve istisnalar ekleme
  • World Model, bu döngüden çıkmak için bir yol sunuyor
    • Fizik kurallarını makineye doğrudan programlamak yerine
    • Gelecekteki dünya durumlarını tahmin edip bunlar üzerinde akıl yürütebilen sistemlere geçmek mümkün olabilir

Hâlâ çözülmemiş sorular

  • Modeli anlamlı ve faydalı eylemleri keşfetmeye verimli biçimde nasıl yönlendireceğimiz
  • Yapılandırılmamış ortamların taşıdığı genel karmaşıklığa nasıl ölçekleneceğimiz
  • Otonomi arttıkça güvenliği nasıl koruyacağımız ve insan niyetleriyle nasıl hizalayacağımız
  • Bu sorunlar asla basit değil, ancak son 50 yıldır robotiği tıkayan problemlerden niteliksel olarak farklı bir karaktere sahip
  • Değişen şey, artık problemin yapısıyla uyumlu bir teorik çerçevenin ortaya çıkmış olması

Sonuç

  • LeJEPA ve ilgili yaklaşımlar, yalnızca kademeli bir iyileştirme değil; gerçek dünyanın belirsizliğini ele alabilecek World Model öğrenimi için matematiksel bir temel sunuyor
  • Dijital zeka ile fiziksel yetenek arasındaki uçurum ilk kez bilimkurgu değil, araştırma yoluyla aşılabilecek bir sorun gibi görünmeye başlıyor

Henüz yorum yok.

Henüz yorum yok.