7 puan yazan GN⁺ 2025-05-21 | 1 yorum | WhatsApp'ta paylaş
  • Derin öğrenme, veriyi anlamlı biçimde dönüştüren topolojik dönüşümlerin bir dizisi olarak anlaşılabilir
  • Sinir ağları, veriyi yüksek boyutlu uzaylarda dönüştürerek, başlangıçta ayrılamayan veriyi ayırt edilebilir hale getiren topoloji üreticileri gibi çalışır
  • Veri, yüksek boyutlu manifoldlar üzerinde bulunur ve sinir ağları anlamlı sınıflandırma, çeviri ve çıkarım görevleri için bu manifold yapısını öğrenir
  • Güncel yapay zeka araştırmalarında, çıkarım manifoldunda daha iyi noktalara ilerlemek için çeşitli gözetimli öğrenme ve pekiştirmeli öğrenme (RLHF vb.) teknikleri kullanılmaktadır
  • Sinir ağlarının kendisi, görüntüler, metinler, çıkarım mantığı gibi tüm bilgiler manifoldlarla ifade edilebilir ve sinir ağları evrensel topoloji keşfedicileri olarak çalışır

Derin öğrenme ile topoloji arasındaki ilişki

  • Topoloji, nesnelerin dönüşüm süreçlerinde değişmeyen özelliklerini inceleyen matematik dalıdır
  • Derin öğrenme sinir ağları, giriş verisine farklı boyutlarda doğrusal ve doğrusal olmayan dönüşümleri (ör. matris çarpımı, tanh) tekrar tekrar uygulayarak verinin dağılımını ve yapısını kademeli olarak değiştirir
  • Sinir ağı katmanlarındaki her işlem, geometrik bir dönüşüm olarak yorumlanabilir ve bu dönüşümler biriktikçe karmaşık veri yapıları ayrılabilir ve sınıflandırılabilir hale gelir
  • Bu özellik, farklı veri kümelerinde başlangıçta tek bir çizgi ya da düzlemle ayrılamayan karmaşık sınıfların ayırt edilmesini mümkün kılar

Boyut genişletme ve veri ayrımı

  • İki boyutlu düzlemde üst üste geldiği için ayırt edilemeyen veri bile, üst boyuta (yüksek boyuta) taşındığında kolayca ayrılabilir
  • Sinir ağları, insanlardan farklı olarak keyfi derecede yüksek boyutlarda işlem yapabildiği için çok karmaşık veri örüntülerine de karşılık verebilir
  • Örneğin fotoğraflardaki köpek ve kedi sınıflandırma problemi de, yüksek boyutta matematiksel olarak ayrıştırılabilir bir yapı (manifold) olarak yeniden kurulabilir

Derin sinir ağlarının anlamı ve rolü

  • Sinir ağları, "topoloji üreten araçlar" olarak giriş verisini anlamlı bir yapıya yeniden yerleştirir
  • Kayıp fonksiyonu (loss function), verinin hangi özelliklerinin öğrenileceğini tanımlar ve sınıflandırma, çeviri, tahmin gibi farklı görevlere uygun bir yüzey (topology) oluşturulmasını sağlar
  • Anlam taşıyan tüm veriler (metin, görüntü, ses vb.) yüksek boyutlu sayısal vektörler (embedding vector) olarak saklanır; bu da bu uzay içinde esnek matematiksel işlemleri mümkün kılar

Manifold ve anlamın temsili

  • Renkler, görüntüler, kelimeler, hatta mobilya sınıflandırmaları dahil tüm bilgi ve kavramlar, belirli bir yüksek boyutlu manifold üzerinde bulunur
  • Örneğin bir RGB görüntünün tüm piksel değerleri devasa bir vektör olarak ifade edilebilir; böylece görüntü manifoldu üzerinde anlamlı dönüşümler ve benzerlikler analiz edilebilir
  • Embedding işlemleri sayesinde, anlamsal olarak ilişkili kavramlar (ör. "king" - "man" + "woman" = "queen") birbirine yakın konumlara yerleştirilebilir

Sinir ağları, çıkarım ve öğrenme stratejilerine manifoldu temel alan yaklaşım

  • İnsan çıkarımı da yüksek boyutlu bir manifold üzerindeki kümeler olarak modellenebilir ve sinir ağları bu yapı boyunca giderek daha iyi çıkarıma doğru ilerler
  • Günümüz büyük dil modellerinin (LLM) sınırlılığı, yalnızca saf dil istatistiğiyle (next-token prediction) insan düzeyinde çıkarıma ulaşılamamasıdır
  • Bunu aşmak için gözetimli öğrenme, RLHF, Chain-of-Thought, yüksek kaliteli reasoning trace toplama gibi çeşitli pekiştirmeli öğrenme temelli yaklaşımlar kullanılmaktadır
  • Daha dayanıklı çıkarım modelleri için Deepseek R1 gibi çalışmalarda, nesnel ölçütlerle (ör. unit test, matematik sorusunun doğru çözülüp çözülmediği) 'iyi çıkarım' otomatik olarak seçilerek mevcut insan değerlendirmesinin sınırlamaları ve maliyet sorunları aşılmaya çalışılmaktadır

Sinir ağları ve modelin kendisindeki manifold yapısından yararlanma

  • Sinir ağlarının tüm parametreleri (ağırlıkları) de devasa bir vektör olarak ifade edilebilir ve bu yapı, farklı anlam uzayları (semantic space) üzerindeki bir manifold olarak yorumlanabilir
  • Görüntü üretimi için kullanılan diffusion modeli kavramı, sinir ağı parametre uzayına da genişletilerek mevcut pretrained modellerin çeşitli özelliklerinin verimli biçimde yeniden kullanılmasına, hızlı başlatmaya ve yeni model üretimine olanak sağlayabilir
  • Model embedding uzayını keşfetmeye yönelik tekniklerdeki ilerleme, gelecekte daha hızlı ve daha etkili yapay zeka geliştirmeyi mümkün kılabilir

Sonuç ve çıkarımlar

  • Derin öğrenme alanı hâlâ gayriresmî ve sezgiye dayalı olma eğilimindedir; ancak topolojik düşünme, karmaşık modellerin çalışma prensibini anlamada büyük fayda sağlar
  • Embedding uzayları ve manifold yapıları konusundaki farkındalık arttıkça, daha pratik ve daha sistematik yapay zeka geliştirme ve analizi mümkün olacaktır

1 yorum

 
GN⁺ 2025-05-21
Hacker News görüşleri
  • 2014’te blogumda yazdığım bu yazıya dayanarak, sinir ağlarını anlamanın bir yolu olarak topolojiyi çok ciddi biçimde kullanmaya çalıştım. Sonuçlarını aşağıdaki iki devam yazısında paylaşmıştım

    • “doğrusal temsil hipotezi” — sinir ağlarında kavramların (özelliklerin) belirli yönlere karşılık geldiği fikri
    • “devreler” kavramı — bu özelliklerin birbirine bağlanarak oluşturduğu ağ yapısı
      İlgili olarak şu yazıları öneririm
    • Sinir ağlarını nasıl anladığımızla ilgili olarak, sık sık şu tür yanlış anlamaları düşünüyorum

      • LLM’lerin yalnızca mevcut n-gram modellerinden biraz daha iyi olduğu iddiası
      • “sadece bir sonraki token’ı tahmin ediyor” ifadesinin, bunun modeli basit gösteren bir izlenim yaratması
        Karpathy’nin RNN yazısına verilen popüler tepkilerde ya da “stochastic parrot” makalesinde, LLM’lerle n-gram modellerini aynılaştıran bir tona sık sık rastlanabiliyor. Geçmişte iki yaklaşım biraz daha benzer görülüyordu ama son modeller çok ilerledikten sonra bu eşitleme artık pek tutmuyor
    • Topolojiyi gerçek dünyada uygulamaya çalışma deneyimlerimi hatırladım. 2011’de topolojiyi ilk öğrendiğimden beri bugüne kadar aralıklı olarak denedim, ancak “gerçek verinin düzgün ve düşük boyutlu manifoldlara yakınsadığı” yönündeki yaygın iddiaya şüpheyle yaklaşıyorum. Bu özelliğin gerçek veride gerçekten geçerli olup olmadığını ya da verimlilik uğruna boyut indirgeme yöntemleri kullandığımız için bunu bilinçli olarak çarpıtıp çarpıtmadığımızı daha derin araştırmak isterdim, ama zamanım olmaması üzücü

    • Uzun süredir “circuits” yazılarını sürdürmeni ilgiyle takip ediyorum. Doğrusal temsil hipotezi özellikle ikna edici geliyor; hatta Toy Models of Superposition üzerine bir ön inceleme taslağı da yazmıştım. Ama “circuits” analizinin Transformer mimarisine fazla odaklandığını hissettiğim için bana biraz daha az çekici geliyor.
      GAN, VAE, CLIP gibi modeller açıkça manifoldları modelliyormuş gibi görünüyor. Basit modeller de optimizasyon sırasında benzer özellikleri aynı yönlerde toplayabilir, ama bazen benzer özelliklerin dik yönlere yerleştiğine dair deneysel gözlemler de var. Bu muhtemelen optimize edilen kayıp fonksiyonuyla daha çok ilgili
      Toy Models of Superposition MSE kullandığı için bir otoenkoder regresyonu/sıkıştırma görevi gibi davranıyor. Birlikte ortaya çıkan özelliklerin karşılıklı girişim örüntülerinin önemli olması kolaylaşıyor. Ama amaç contrastive loss olsaydı, bu girişimi en aza indirme davranışının farklı olacağını düşünüyorum

    • Geçmişte yazım hakkında Hacker News tartışmaları da olduğunu paylaşmak isterim
      Neural Networks, Manifolds, and Topology (2014)

    • Fizikte, farklı küresel simetrilere sahip (topolojik manifoldlar) yapılar üzerinde aynı metrik yapının (yerel geometri) geçerli olabilmesi ilginçtir. Örneğin Einstein alan denklemlerinde aynı metrik tensör çözümü topolojik olarak farklı manifoldlarda da bulunabilir.
      Tersine, Ising Model çözümlerine bakınca aynı kafes topolojik yapısında birden çok çözüm olabilir ve kritik nokta yakınında kafesin topolojik yapısı fiilen önemsiz hale gelebilir.
      Bu elbette kaba bir analoji, ama dinamiğin önemli ayrıntılarının sistemin topolojisinde yatmadığını düşündürüyor. Hikâye bundan çok daha karmaşık

  • Eğer gerçekten asıl mesele topoloji olsaydı, manifoldları benzerlik aramasını kolaylaştırmak için düzleştirmeye çalışmazdık. Aslında asıl mesele “geometri” ve ona uygun ölçüdür. Gerçek hayatta da biz nesneleri karşılaştırabileceğimiz bir yapı isteriz
    Sinir ağları eğitilirken manifoldlar topolojik olarak dönüşür. Bu süreçte “eğitim sırasında topoloji nasıl değişiyor?” sorusu akla geliyor. Ben şahsen başta topolojinin şiddetle dalgalandığını, sonra giderek kararlı hale geldiğini ve sonrasında geometrik ince ayarların yapıldığını hayal ediyorum. Bakılabilecek bazı makaleler şunlar

    • GAN ya da VAE kullandıysanız, bu topolojik değişim sürecini gerçekten gözlemleyebilirsiniz. Eğitim sırasında farklı checkpoint’lerde UMAP, TSNE gibi araçlarla yüksek boyutlu uzaydaki noktaların nasıl hareket ettiğini görebilirsiniz
      Senin hayal ettiğin “başta şiddetli değişim, sonra kararlılık ve ardından geometrik ince ayar” süreci gerçekten doğru. Bu sırada başlangıçtaki şiddetli değişimde öğrenme oranı, optimizer seçimi gibi etkenlerin de payı büyük

    • Teknik olarak bakarsak burada ele alınan şey uygulamalı lineer cebir denebilir, ama bunu böyle söyleyince biraz havası kaçıyor

  • Şu anki başlık klişe ve pek doğru değil. Yine de metni keyifle okudum
    Topoloji; mesafe, açı, yön gibi geometrinin çeşitli kısıtları silinince geriye kalan en asgari yapıyı inceleyen matematik dalıdır. Yani bu kadar sert deformasyonlar altında bile özünde kalan ilişkilerle ilgilenmek topolojik bakış açısıdır
    Makine öğreniminde topolojik kavramlar yararlı olabilir, ama pratikte ölçek, mesafe, açı gibi geometrik bilgiler verinin özünde çok daha önemli rol oynar. Örneğin bir sekme, kedi ile kaplanı ayırırken ölçeği yok sayarsa saçma sonuçlar üretir
    Topolojik yaklaşım ancak güvenilmez bilgilerin çok olduğu durumda işe yarar; derin öğrenmenin topolojiye dayandığını söylemek ise fazla iddialı

    • Dediğin gibi, topolojinin yararlı olması için mesafe, açı, uzunluk gibi şeylerin güvenilmez olması gerekir; ama biz gerçekten de güvenilmez verilerle uğraşıyoruz. Görüntülerin piksel uzayında bir kola kutusu ile bir dur işaretinin makul ölçüde yakın olması anlamsızdır. Sinir ağları da senin sözünü ettiğin bu “sert deformasyonları” gerçekten yapıyor

    • Gerçek uygulama aşamasına gelince, “eğer mesele gerçekten topoloji olsaydı önemsememiz gerekmeyecek” ayrıntılar — örneğin katman sayısı, quantization, floating-point çözünürlüğü — önemli rol oynuyor

    • “Topoloji” teriminin sözlükte iki farklı tanımı var. Senin öncül olarak sunduğun özellikleri topoloji kavramının tamamı saymak, yalnızca bazı tanımlarla sınırlı bir yaklaşım

  • Bu yazıda ayırıcı yüzey bulma fikrine neden “topoloji” dendiğini pek anlamıyorum.
    Örneğin “çeviriyi öğrenirse model bread ile pan’ı, kedi fotoğrafı ile cat kelimesini birbirine yakın konumlandıran bir topology öğrenir” deniyor; oysa bu tür “yakın” ve “uzak” dili tam da topolojiden uzak bir şey
    Topolojik bir uzayda iki nokta yakın olsa bile, uzayı esnetirseniz aynı topolojik uzay içinde bu iki noktayı yeterince uzağa taşıyabilirsiniz (“kahve fincanı ile donut aynı topolojidedir” esprisinin özü budur)
    Aslında cebirsel geometri yaklaşımı — noktaların belirli bir cebirsel variety yakınında konumlandığı yapı — daha uygun görünüyor. Sonuçta önemli olan geometri ve mesafe

    • Topolojiye gevşek bir tanım verecek olursam, “mesafe” olmasa bile “yakınlık ve uzaklık” kavramını (komşuluk, neighborhood) ele alan matematiksel uzayların incelenmesini topoloji olarak görürüm. Açık kümelere dair farklı tanımların her biri bir topology seçmek anlamına gelir ve bunun sonucunda süreklilik, kompaktlık, bağlantılılık gibi özellikler belirlenir.
      Metrik uzaylar topolojik uzayların bir örneğidir.
      Tabii bu, topolojinin sinir ağlarını anlamak için her zaman en iyi bakış açısı olduğu anlamına gelmiyor. Zaten asıl yazar da bugün farklı düşünüyor
      Sadece yanlış anlaşılmayı düzeltmek istedim. https://en.wikipedia.org/wiki/General_topology bağlantısına bakabilirsiniz

    • Bunun topology ile hiçbir ilgisi olmadığına %100 katılıyorum. Bir yazı topology ve derin öğrenmeyle ilgiliyse, umarım kafa karışıklığı sadece topology tarafında kalır

    • Az önce “topology” kelimesini biraz mecazi kullandım. Aslında daha doğru ifade “ayırıcı yüzey” olurdu

  • Öğrenmeye manifold perspektifinden bakmanın güçlü bir ifade biçimi olduğunu düşünüyorum
    Yüksek boyutlu uzaylarda reasoning’in kendisinin de neredeyse veriden ayırt edilemez hale geldiği hissine sık sık kapılıyorum
    Bu tür “olasılıksal akıl yürütme manifoldları” hakkında günlüklerde ve haber yorumlarında epey yazdım.
    Örüntü uzaylarından oluşan manifoldlar özünde olasılıksal öğrenme yoluyla şekilleniyor ve gerçek akıl yürütme önermeler üzerinden değil, olasılıksal biçimde işliyor diye düşünüyorum. Sabit noktaları ya da attractor’ları bularak bazı “aksiyomları” çıkarabilirsiniz, ama sonunda yine girdilerden oluşmuş olasılıksal manifoldları analiz etmiş olursunuz
    Akıl yürütme ile veri birbirine dolanmıştır; bunları tamamen ayırmak mümkün değildir
    Bağlam dışı ilişkileri öğrenmek (ayrıştırmak) — işte buna “decontextualization” diyorum. Ama bunun yanında, yeni durumlarda ya da alanlarda anlamlı analiz yapılabilmesi için mutlaka “recontextualization” da gerekir.
    Daha uzun açıklama için https://news.ycombinator.com/item?id=42871894

    • “Akıl yürütme”yi genel olarak, yani önermelerin temsilleri üzerinde zihinsel işlemler olarak ele alırsak, “gerçek akıl yürütme olasılıklarla değil aksiyomlarla ifade edilir” demek bana zor geliyor
      Eğer hayvanlar önermesel ifadeleri hiç olasılıksız bir şekilde ele alamıyorsa, o zaman mantıksal akıl yürütme tamamen imkânsız olur ve bu da gerçek hayattaki hayvanların akıl yürütme kapasitesini açıklayamaz
      Örnek: “Örümcek A kutusundaysa diğer kutuda değildir” gibi basit mantıksal yapıdaki çıkarımlar
  • Gerçek veri gerçekten manifoldlar üzerinde bulunmaz. Bu sadece veriyi düşünmeyi kolaylaştıran yaklaşık bir kavramdır
    Derin öğrenmedeki faydalı başarıların neredeyse tamamı topology ile ilgisiz şekilde ortaya çıktı. Derin öğrenme; deney, deneme-yanılma ve çok az miktarda matematiksel sezgiyle (ki bu da topology değildi) hızla ilerleyen ampirik bir alan

    • Buna tamamen katılmıyorum. Evet, deneme-yanılma çok var ama topology, geometri, game theory, calculus, statistics gibi pek çok matematik kuramının birleşik etkisi söz konusu. Sadece backpropagation bile chain rule’dur
      Alan, teorik köklerini bilmeyen pek çok uygulayıcının bile rahatça kullanabileceği kadar popülerleşti ve kârlı hale geldi
      Sonuçta teori ve teknikler icat edilirken, aslında başka alanlardaki mevcut teorilerin farkında olmadan yeniden keşfedilip kullanılması sık görülüyor

    • “Bunların ilhamı zaten topology değildi” iddiasına gelirsek, bence bu tür “matematiksel sezgiler” çoğu zaman sonradan uygulanıyor. Derin öğrenmede bir atılım olduktan sonra fizikçiler ya da matematikçiler kendi alanlarındaki yöntemlerle benzerliği fark ediyor
      Örnek olarak GPT’nin, geçmişte fizik problemi çözerken kullandığım algoritmaya çok benzediğini anlatan bir yazı var
      https://ondrejcertik.com/blog/2023/…

    • 10 yıldan uzun süredir derin öğrenme alanındayım ve “veri manifoldlar üzerinde bulunmaz” iddiası yanlış. Embedding uzayına “uzay” denmesinin bir nedeni var. GAN, VAE, contrastive loss gibi yaklaşımlar gerçekten üzerinde yürünebilen ya da manipüle edilebilen vektör manifold yapıları kuruyor

    • Yaklaşım hatasını da kapsayan bir tanım kabul edilirse, gerçek verinin manifoldlar üzerinde bulunduğu söylenebilir. İlgili makale: Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning(https://aclanthology.org/2021.acl-long.568.pdf)

    • Bence derin öğrenme şu aşamada simyaya benziyor
      Tıpkı arkasındaki teorik temel olan kimya ortaya çıkmadan önceki simya gibi. Gelecekte insanlar belki de “deep learning” ifadesini sadece geçmiş bir dilin kalıntısı gibi anacak

  • “Bu noktada AGI’ye ulaştık” ifadesini görünce güvenim ciddi biçimde düştü
    Genel olarak yazının fikri ilginçti ama reasoning ile bağlama kısmı ve daha derin teknik tartışmalar açısından biraz fluffy kaldığını düşündüm. Bundan çok daha somut çalışmalar zaten var (ör. https://arxiv.org/abs/1402.1869)

  • DNN’lerde çok konuşulan başka bir topology türü de ağ topology’si, yani düğümlerin nasıl bağlandığı ve verinin nasıl aktığıyla ilgili yapı
    Otoenkoderler, CNN’ler, GAN’lar hep biyolojik ilham taşıyor
    Beynin topology’si ve işlevsel bağlantısallığı hakkında hâlâ öğrenecek çok şeyimiz var
    Gelecekte tekil katman/düğüm içindeki yapı ya da uzmanlaşmış ağlar arasındaki bağlantı ve etkileşim düzeni açısından tamamen yeni mimariler çıkabilir
    İnsan beyni de aslında tek bir ağ değil; “Big 7” gibi birden çok ağ paralel ve karşılıklı etkileşim içinde çalışıyor. DMN(Default Mode Network), CEN(Central Executive Network), Limbic Network gibi çeşitli ağlar var ve tek bir nöronun aynı anda birden fazla ağa ait olması da sık görülen bir durum
    Yapay zekâda henüz bu karmaşıklığı tam yeniden üretemediğimiz için network topologies’den alınacak ilham sınırsız
    “Topology is all you need” sözüne katılıyorum

  • Matematiksel topology geometrik nesneleri ve dönüşümleri inceler, ama bilgisayar biliminde soyut nesneler arasındaki ilişkileri tanımlayan “topology” kavramı da önemlidir
    Örneğin graph veri yapısında nesneler kümesi (köşeler) ve bunlar arasındaki ilişkiler kümesi (kenarlar) saklanır; bu sayede graph’ın kendisi ayrık bir topology yapısına dönüşür
    Network veri yapısı da benzerdir, fakat her kenarda ek olarak bir değer tutulur. Yani bir tepe/nokta (nesne) kümesi, aralarındaki ilişkiler (kenarlar) ve her kenar için bir değer (ağırlık) bulunabilir. Sonuçta yapay sinir ağları da bu yönde anlaşılabilir; ayrık bir topology üzerine kurulmuş yapılardır

  • Yazarın diyagramında AGI/ASI’nin, next token prediction, chat ve CoT modelleriyle aynı manifold üzerindeki bir nokta gibi çizilmesi kafamı karıştırıyor. Son üçü kesinlikle bağlantılı ve aynı ailenin parçası gibi görülebilir, ama AGI/ASI’yi de buna katmak için yeterli dayanak var mı emin değilim
    Diyelim ki CoT tabanlı modeller ne kadar topolojik manipülasyon yaparsa yapsın AGI’nin sahip olduğu “zekâ”ya yapısal olarak asla ulaşamayacak olsun; o zaman ne olacak diye merak ediyorum
    Örneğin insan zekâsı yüksek derecede duyusal/içsel geri bildirim ve sürekli işlem gerektiriyor olabilirken, GPT türü otoregresif modeller özünde süreksiz
    Uzman olmayan biri olarak sezgim, LLM’lerin “zekâ” ya da “bilinç” üreten sistemlerle aynı soydan bile gelmediği yönünde

    • Bu mümkün olabilir. AGI/ASI tanımı zaten belirsiz
      Hatta ben şahsen AGI’ye çoktan ulaştığımızı düşünüyorum ama birçok kişi buna katılmıyor
      İnsan zekâsının özünün ileri düzey duyusal/geri bildirim döngüleri ya da sürekli işleme dayandığı söylenmişti; ama connectomics alanındaki epey deneyimime göre biyolojik ve yapay sinir ağları arasındaki benzerlik de hafife alınmamalı
      Örneğin farelerin koku sisteminde belirli bir nöron kümesi etkinleştiğinde belirli bir koku (“çikolata”, “limon” vb.) algılanıyor. Bu, feature vector yapısına oldukça benziyor
      Beyindeki nöral temsiller de embedding temsillerine benzer yanlar taşıyor. Sanki hangi nöronların aktif olduğuna bağlı olarak bir embedding space oluşuyor gibi.
      Embedding üzerinde yapılan her şey de “daha fazlası” değil, tamamen ek işlemden ibaret