- Derin öğrenme, veriyi anlamlı biçimde dönüştüren topolojik dönüşümlerin bir dizisi olarak anlaşılabilir
- Sinir ağları, veriyi yüksek boyutlu uzaylarda dönüştürerek, başlangıçta ayrılamayan veriyi ayırt edilebilir hale getiren topoloji üreticileri gibi çalışır
- Veri, yüksek boyutlu manifoldlar üzerinde bulunur ve sinir ağları anlamlı sınıflandırma, çeviri ve çıkarım görevleri için bu manifold yapısını öğrenir
- Güncel yapay zeka araştırmalarında, çıkarım manifoldunda daha iyi noktalara ilerlemek için çeşitli gözetimli öğrenme ve pekiştirmeli öğrenme (RLHF vb.) teknikleri kullanılmaktadır
- Sinir ağlarının kendisi, görüntüler, metinler, çıkarım mantığı gibi tüm bilgiler manifoldlarla ifade edilebilir ve sinir ağları evrensel topoloji keşfedicileri olarak çalışır
Derin öğrenme ile topoloji arasındaki ilişki
- Topoloji, nesnelerin dönüşüm süreçlerinde değişmeyen özelliklerini inceleyen matematik dalıdır
- Derin öğrenme sinir ağları, giriş verisine farklı boyutlarda doğrusal ve doğrusal olmayan dönüşümleri (ör. matris çarpımı, tanh) tekrar tekrar uygulayarak verinin dağılımını ve yapısını kademeli olarak değiştirir
- Sinir ağı katmanlarındaki her işlem, geometrik bir dönüşüm olarak yorumlanabilir ve bu dönüşümler biriktikçe karmaşık veri yapıları ayrılabilir ve sınıflandırılabilir hale gelir
- Bu özellik, farklı veri kümelerinde başlangıçta tek bir çizgi ya da düzlemle ayrılamayan karmaşık sınıfların ayırt edilmesini mümkün kılar
Boyut genişletme ve veri ayrımı
- İki boyutlu düzlemde üst üste geldiği için ayırt edilemeyen veri bile, üst boyuta (yüksek boyuta) taşındığında kolayca ayrılabilir
- Sinir ağları, insanlardan farklı olarak keyfi derecede yüksek boyutlarda işlem yapabildiği için çok karmaşık veri örüntülerine de karşılık verebilir
- Örneğin fotoğraflardaki köpek ve kedi sınıflandırma problemi de, yüksek boyutta matematiksel olarak ayrıştırılabilir bir yapı (manifold) olarak yeniden kurulabilir
Derin sinir ağlarının anlamı ve rolü
- Sinir ağları, "topoloji üreten araçlar" olarak giriş verisini anlamlı bir yapıya yeniden yerleştirir
- Kayıp fonksiyonu (loss function), verinin hangi özelliklerinin öğrenileceğini tanımlar ve sınıflandırma, çeviri, tahmin gibi farklı görevlere uygun bir yüzey (topology) oluşturulmasını sağlar
- Anlam taşıyan tüm veriler (metin, görüntü, ses vb.) yüksek boyutlu sayısal vektörler (embedding vector) olarak saklanır; bu da bu uzay içinde esnek matematiksel işlemleri mümkün kılar
Manifold ve anlamın temsili
- Renkler, görüntüler, kelimeler, hatta mobilya sınıflandırmaları dahil tüm bilgi ve kavramlar, belirli bir yüksek boyutlu manifold üzerinde bulunur
- Örneğin bir RGB görüntünün tüm piksel değerleri devasa bir vektör olarak ifade edilebilir; böylece görüntü manifoldu üzerinde anlamlı dönüşümler ve benzerlikler analiz edilebilir
- Embedding işlemleri sayesinde, anlamsal olarak ilişkili kavramlar (ör. "king" - "man" + "woman" = "queen") birbirine yakın konumlara yerleştirilebilir
Sinir ağları, çıkarım ve öğrenme stratejilerine manifoldu temel alan yaklaşım
- İnsan çıkarımı da yüksek boyutlu bir manifold üzerindeki kümeler olarak modellenebilir ve sinir ağları bu yapı boyunca giderek daha iyi çıkarıma doğru ilerler
- Günümüz büyük dil modellerinin (LLM) sınırlılığı, yalnızca saf dil istatistiğiyle (next-token prediction) insan düzeyinde çıkarıma ulaşılamamasıdır
- Bunu aşmak için gözetimli öğrenme, RLHF, Chain-of-Thought, yüksek kaliteli reasoning trace toplama gibi çeşitli pekiştirmeli öğrenme temelli yaklaşımlar kullanılmaktadır
- Daha dayanıklı çıkarım modelleri için Deepseek R1 gibi çalışmalarda, nesnel ölçütlerle (ör. unit test, matematik sorusunun doğru çözülüp çözülmediği) 'iyi çıkarım' otomatik olarak seçilerek mevcut insan değerlendirmesinin sınırlamaları ve maliyet sorunları aşılmaya çalışılmaktadır
Sinir ağları ve modelin kendisindeki manifold yapısından yararlanma
- Sinir ağlarının tüm parametreleri (ağırlıkları) de devasa bir vektör olarak ifade edilebilir ve bu yapı, farklı anlam uzayları (semantic space) üzerindeki bir manifold olarak yorumlanabilir
- Görüntü üretimi için kullanılan diffusion modeli kavramı, sinir ağı parametre uzayına da genişletilerek mevcut pretrained modellerin çeşitli özelliklerinin verimli biçimde yeniden kullanılmasına, hızlı başlatmaya ve yeni model üretimine olanak sağlayabilir
- Model embedding uzayını keşfetmeye yönelik tekniklerdeki ilerleme, gelecekte daha hızlı ve daha etkili yapay zeka geliştirmeyi mümkün kılabilir
Sonuç ve çıkarımlar
- Derin öğrenme alanı hâlâ gayriresmî ve sezgiye dayalı olma eğilimindedir; ancak topolojik düşünme, karmaşık modellerin çalışma prensibini anlamada büyük fayda sağlar
- Embedding uzayları ve manifold yapıları konusundaki farkındalık arttıkça, daha pratik ve daha sistematik yapay zeka geliştirme ve analizi mümkün olacaktır
1 yorum
Hacker News görüşleri
2014’te blogumda yazdığım bu yazıya dayanarak, sinir ağlarını anlamanın bir yolu olarak topolojiyi çok ciddi biçimde kullanmaya çalıştım. Sonuçlarını aşağıdaki iki devam yazısında paylaşmıştım
Sinir ağlarının içini anlamaya çalışırken topolojik bakış açısının faydalı olduğu yerler oldu, ancak neredeyse 10 yıllık araştırmanın ardından topolojik yaklaşımın çok büyük bir yardım sağlamadığını hissediyorum
Daha etkili bulduğum şeyler şunlardı
İlgili olarak şu yazıları öneririm
Sinir ağlarını nasıl anladığımızla ilgili olarak, sık sık şu tür yanlış anlamaları düşünüyorum
Karpathy’nin RNN yazısına verilen popüler tepkilerde ya da “stochastic parrot” makalesinde, LLM’lerle n-gram modellerini aynılaştıran bir tona sık sık rastlanabiliyor. Geçmişte iki yaklaşım biraz daha benzer görülüyordu ama son modeller çok ilerledikten sonra bu eşitleme artık pek tutmuyor
Topolojiyi gerçek dünyada uygulamaya çalışma deneyimlerimi hatırladım. 2011’de topolojiyi ilk öğrendiğimden beri bugüne kadar aralıklı olarak denedim, ancak “gerçek verinin düzgün ve düşük boyutlu manifoldlara yakınsadığı” yönündeki yaygın iddiaya şüpheyle yaklaşıyorum. Bu özelliğin gerçek veride gerçekten geçerli olup olmadığını ya da verimlilik uğruna boyut indirgeme yöntemleri kullandığımız için bunu bilinçli olarak çarpıtıp çarpıtmadığımızı daha derin araştırmak isterdim, ama zamanım olmaması üzücü
Uzun süredir “circuits” yazılarını sürdürmeni ilgiyle takip ediyorum. Doğrusal temsil hipotezi özellikle ikna edici geliyor; hatta Toy Models of Superposition üzerine bir ön inceleme taslağı da yazmıştım. Ama “circuits” analizinin Transformer mimarisine fazla odaklandığını hissettiğim için bana biraz daha az çekici geliyor.
GAN, VAE, CLIP gibi modeller açıkça manifoldları modelliyormuş gibi görünüyor. Basit modeller de optimizasyon sırasında benzer özellikleri aynı yönlerde toplayabilir, ama bazen benzer özelliklerin dik yönlere yerleştiğine dair deneysel gözlemler de var. Bu muhtemelen optimize edilen kayıp fonksiyonuyla daha çok ilgili
Toy Models of Superposition MSE kullandığı için bir otoenkoder regresyonu/sıkıştırma görevi gibi davranıyor. Birlikte ortaya çıkan özelliklerin karşılıklı girişim örüntülerinin önemli olması kolaylaşıyor. Ama amaç contrastive loss olsaydı, bu girişimi en aza indirme davranışının farklı olacağını düşünüyorum
Geçmişte yazım hakkında Hacker News tartışmaları da olduğunu paylaşmak isterim
Neural Networks, Manifolds, and Topology (2014)
Fizikte, farklı küresel simetrilere sahip (topolojik manifoldlar) yapılar üzerinde aynı metrik yapının (yerel geometri) geçerli olabilmesi ilginçtir. Örneğin Einstein alan denklemlerinde aynı metrik tensör çözümü topolojik olarak farklı manifoldlarda da bulunabilir.
Tersine, Ising Model çözümlerine bakınca aynı kafes topolojik yapısında birden çok çözüm olabilir ve kritik nokta yakınında kafesin topolojik yapısı fiilen önemsiz hale gelebilir.
Bu elbette kaba bir analoji, ama dinamiğin önemli ayrıntılarının sistemin topolojisinde yatmadığını düşündürüyor. Hikâye bundan çok daha karmaşık
Eğer gerçekten asıl mesele topoloji olsaydı, manifoldları benzerlik aramasını kolaylaştırmak için düzleştirmeye çalışmazdık. Aslında asıl mesele “geometri” ve ona uygun ölçüdür. Gerçek hayatta da biz nesneleri karşılaştırabileceğimiz bir yapı isteriz
Sinir ağları eğitilirken manifoldlar topolojik olarak dönüşür. Bu süreçte “eğitim sırasında topoloji nasıl değişiyor?” sorusu akla geliyor. Ben şahsen başta topolojinin şiddetle dalgalandığını, sonra giderek kararlı hale geldiğini ve sonrasında geometrik ince ayarların yapıldığını hayal ediyorum. Bakılabilecek bazı makaleler şunlar
GAN ya da VAE kullandıysanız, bu topolojik değişim sürecini gerçekten gözlemleyebilirsiniz. Eğitim sırasında farklı checkpoint’lerde UMAP, TSNE gibi araçlarla yüksek boyutlu uzaydaki noktaların nasıl hareket ettiğini görebilirsiniz
Senin hayal ettiğin “başta şiddetli değişim, sonra kararlılık ve ardından geometrik ince ayar” süreci gerçekten doğru. Bu sırada başlangıçtaki şiddetli değişimde öğrenme oranı, optimizer seçimi gibi etkenlerin de payı büyük
Teknik olarak bakarsak burada ele alınan şey uygulamalı lineer cebir denebilir, ama bunu böyle söyleyince biraz havası kaçıyor
Şu anki başlık klişe ve pek doğru değil. Yine de metni keyifle okudum
Topoloji; mesafe, açı, yön gibi geometrinin çeşitli kısıtları silinince geriye kalan en asgari yapıyı inceleyen matematik dalıdır. Yani bu kadar sert deformasyonlar altında bile özünde kalan ilişkilerle ilgilenmek topolojik bakış açısıdır
Makine öğreniminde topolojik kavramlar yararlı olabilir, ama pratikte ölçek, mesafe, açı gibi geometrik bilgiler verinin özünde çok daha önemli rol oynar. Örneğin bir sekme, kedi ile kaplanı ayırırken ölçeği yok sayarsa saçma sonuçlar üretir
Topolojik yaklaşım ancak güvenilmez bilgilerin çok olduğu durumda işe yarar; derin öğrenmenin topolojiye dayandığını söylemek ise fazla iddialı
Dediğin gibi, topolojinin yararlı olması için mesafe, açı, uzunluk gibi şeylerin güvenilmez olması gerekir; ama biz gerçekten de güvenilmez verilerle uğraşıyoruz. Görüntülerin piksel uzayında bir kola kutusu ile bir dur işaretinin makul ölçüde yakın olması anlamsızdır. Sinir ağları da senin sözünü ettiğin bu “sert deformasyonları” gerçekten yapıyor
Gerçek uygulama aşamasına gelince, “eğer mesele gerçekten topoloji olsaydı önemsememiz gerekmeyecek” ayrıntılar — örneğin katman sayısı, quantization, floating-point çözünürlüğü — önemli rol oynuyor
“Topoloji” teriminin sözlükte iki farklı tanımı var. Senin öncül olarak sunduğun özellikleri topoloji kavramının tamamı saymak, yalnızca bazı tanımlarla sınırlı bir yaklaşım
Bu yazıda ayırıcı yüzey bulma fikrine neden “topoloji” dendiğini pek anlamıyorum.
Örneğin “çeviriyi öğrenirse model bread ile pan’ı, kedi fotoğrafı ile cat kelimesini birbirine yakın konumlandıran bir topology öğrenir” deniyor; oysa bu tür “yakın” ve “uzak” dili tam da topolojiden uzak bir şey
Topolojik bir uzayda iki nokta yakın olsa bile, uzayı esnetirseniz aynı topolojik uzay içinde bu iki noktayı yeterince uzağa taşıyabilirsiniz (“kahve fincanı ile donut aynı topolojidedir” esprisinin özü budur)
Aslında cebirsel geometri yaklaşımı — noktaların belirli bir cebirsel variety yakınında konumlandığı yapı — daha uygun görünüyor. Sonuçta önemli olan geometri ve mesafe
Topolojiye gevşek bir tanım verecek olursam, “mesafe” olmasa bile “yakınlık ve uzaklık” kavramını (komşuluk, neighborhood) ele alan matematiksel uzayların incelenmesini topoloji olarak görürüm. Açık kümelere dair farklı tanımların her biri bir topology seçmek anlamına gelir ve bunun sonucunda süreklilik, kompaktlık, bağlantılılık gibi özellikler belirlenir.
Metrik uzaylar topolojik uzayların bir örneğidir.
Tabii bu, topolojinin sinir ağlarını anlamak için her zaman en iyi bakış açısı olduğu anlamına gelmiyor. Zaten asıl yazar da bugün farklı düşünüyor
Sadece yanlış anlaşılmayı düzeltmek istedim. https://en.wikipedia.org/wiki/General_topology bağlantısına bakabilirsiniz
Bunun topology ile hiçbir ilgisi olmadığına %100 katılıyorum. Bir yazı topology ve derin öğrenmeyle ilgiliyse, umarım kafa karışıklığı sadece topology tarafında kalır
Az önce “topology” kelimesini biraz mecazi kullandım. Aslında daha doğru ifade “ayırıcı yüzey” olurdu
Öğrenmeye manifold perspektifinden bakmanın güçlü bir ifade biçimi olduğunu düşünüyorum
Yüksek boyutlu uzaylarda reasoning’in kendisinin de neredeyse veriden ayırt edilemez hale geldiği hissine sık sık kapılıyorum
Bu tür “olasılıksal akıl yürütme manifoldları” hakkında günlüklerde ve haber yorumlarında epey yazdım.
Örüntü uzaylarından oluşan manifoldlar özünde olasılıksal öğrenme yoluyla şekilleniyor ve gerçek akıl yürütme önermeler üzerinden değil, olasılıksal biçimde işliyor diye düşünüyorum. Sabit noktaları ya da attractor’ları bularak bazı “aksiyomları” çıkarabilirsiniz, ama sonunda yine girdilerden oluşmuş olasılıksal manifoldları analiz etmiş olursunuz
Akıl yürütme ile veri birbirine dolanmıştır; bunları tamamen ayırmak mümkün değildir
Bağlam dışı ilişkileri öğrenmek (ayrıştırmak) — işte buna “decontextualization” diyorum. Ama bunun yanında, yeni durumlarda ya da alanlarda anlamlı analiz yapılabilmesi için mutlaka “recontextualization” da gerekir.
Daha uzun açıklama için https://news.ycombinator.com/item?id=42871894
Eğer hayvanlar önermesel ifadeleri hiç olasılıksız bir şekilde ele alamıyorsa, o zaman mantıksal akıl yürütme tamamen imkânsız olur ve bu da gerçek hayattaki hayvanların akıl yürütme kapasitesini açıklayamaz
Örnek: “Örümcek A kutusundaysa diğer kutuda değildir” gibi basit mantıksal yapıdaki çıkarımlar
Gerçek veri gerçekten manifoldlar üzerinde bulunmaz. Bu sadece veriyi düşünmeyi kolaylaştıran yaklaşık bir kavramdır
Derin öğrenmedeki faydalı başarıların neredeyse tamamı topology ile ilgisiz şekilde ortaya çıktı. Derin öğrenme; deney, deneme-yanılma ve çok az miktarda matematiksel sezgiyle (ki bu da topology değildi) hızla ilerleyen ampirik bir alan
Buna tamamen katılmıyorum. Evet, deneme-yanılma çok var ama topology, geometri, game theory, calculus, statistics gibi pek çok matematik kuramının birleşik etkisi söz konusu. Sadece backpropagation bile chain rule’dur
Alan, teorik köklerini bilmeyen pek çok uygulayıcının bile rahatça kullanabileceği kadar popülerleşti ve kârlı hale geldi
Sonuçta teori ve teknikler icat edilirken, aslında başka alanlardaki mevcut teorilerin farkında olmadan yeniden keşfedilip kullanılması sık görülüyor
“Bunların ilhamı zaten topology değildi” iddiasına gelirsek, bence bu tür “matematiksel sezgiler” çoğu zaman sonradan uygulanıyor. Derin öğrenmede bir atılım olduktan sonra fizikçiler ya da matematikçiler kendi alanlarındaki yöntemlerle benzerliği fark ediyor
Örnek olarak GPT’nin, geçmişte fizik problemi çözerken kullandığım algoritmaya çok benzediğini anlatan bir yazı var
https://ondrejcertik.com/blog/2023/…
10 yıldan uzun süredir derin öğrenme alanındayım ve “veri manifoldlar üzerinde bulunmaz” iddiası yanlış. Embedding uzayına “uzay” denmesinin bir nedeni var. GAN, VAE, contrastive loss gibi yaklaşımlar gerçekten üzerinde yürünebilen ya da manipüle edilebilen vektör manifold yapıları kuruyor
Yaklaşım hatasını da kapsayan bir tanım kabul edilirse, gerçek verinin manifoldlar üzerinde bulunduğu söylenebilir. İlgili makale: Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning(https://aclanthology.org/2021.acl-long.568.pdf)
Bence derin öğrenme şu aşamada simyaya benziyor
Tıpkı arkasındaki teorik temel olan kimya ortaya çıkmadan önceki simya gibi. Gelecekte insanlar belki de “deep learning” ifadesini sadece geçmiş bir dilin kalıntısı gibi anacak
“Bu noktada AGI’ye ulaştık” ifadesini görünce güvenim ciddi biçimde düştü
Genel olarak yazının fikri ilginçti ama reasoning ile bağlama kısmı ve daha derin teknik tartışmalar açısından biraz fluffy kaldığını düşündüm. Bundan çok daha somut çalışmalar zaten var (ör. https://arxiv.org/abs/1402.1869)
DNN’lerde çok konuşulan başka bir topology türü de ağ topology’si, yani düğümlerin nasıl bağlandığı ve verinin nasıl aktığıyla ilgili yapı
Otoenkoderler, CNN’ler, GAN’lar hep biyolojik ilham taşıyor
Beynin topology’si ve işlevsel bağlantısallığı hakkında hâlâ öğrenecek çok şeyimiz var
Gelecekte tekil katman/düğüm içindeki yapı ya da uzmanlaşmış ağlar arasındaki bağlantı ve etkileşim düzeni açısından tamamen yeni mimariler çıkabilir
İnsan beyni de aslında tek bir ağ değil; “Big 7” gibi birden çok ağ paralel ve karşılıklı etkileşim içinde çalışıyor. DMN(Default Mode Network), CEN(Central Executive Network), Limbic Network gibi çeşitli ağlar var ve tek bir nöronun aynı anda birden fazla ağa ait olması da sık görülen bir durum
Yapay zekâda henüz bu karmaşıklığı tam yeniden üretemediğimiz için network topologies’den alınacak ilham sınırsız
“Topology is all you need” sözüne katılıyorum
Matematiksel topology geometrik nesneleri ve dönüşümleri inceler, ama bilgisayar biliminde soyut nesneler arasındaki ilişkileri tanımlayan “topology” kavramı da önemlidir
Örneğin graph veri yapısında nesneler kümesi (köşeler) ve bunlar arasındaki ilişkiler kümesi (kenarlar) saklanır; bu sayede graph’ın kendisi ayrık bir topology yapısına dönüşür
Network veri yapısı da benzerdir, fakat her kenarda ek olarak bir değer tutulur. Yani bir tepe/nokta (nesne) kümesi, aralarındaki ilişkiler (kenarlar) ve her kenar için bir değer (ağırlık) bulunabilir. Sonuçta yapay sinir ağları da bu yönde anlaşılabilir; ayrık bir topology üzerine kurulmuş yapılardır
Yazarın diyagramında AGI/ASI’nin, next token prediction, chat ve CoT modelleriyle aynı manifold üzerindeki bir nokta gibi çizilmesi kafamı karıştırıyor. Son üçü kesinlikle bağlantılı ve aynı ailenin parçası gibi görülebilir, ama AGI/ASI’yi de buna katmak için yeterli dayanak var mı emin değilim
Diyelim ki CoT tabanlı modeller ne kadar topolojik manipülasyon yaparsa yapsın AGI’nin sahip olduğu “zekâ”ya yapısal olarak asla ulaşamayacak olsun; o zaman ne olacak diye merak ediyorum
Örneğin insan zekâsı yüksek derecede duyusal/içsel geri bildirim ve sürekli işlem gerektiriyor olabilirken, GPT türü otoregresif modeller özünde süreksiz
Uzman olmayan biri olarak sezgim, LLM’lerin “zekâ” ya da “bilinç” üreten sistemlerle aynı soydan bile gelmediği yönünde
Hatta ben şahsen AGI’ye çoktan ulaştığımızı düşünüyorum ama birçok kişi buna katılmıyor
İnsan zekâsının özünün ileri düzey duyusal/geri bildirim döngüleri ya da sürekli işleme dayandığı söylenmişti; ama connectomics alanındaki epey deneyimime göre biyolojik ve yapay sinir ağları arasındaki benzerlik de hafife alınmamalı
Örneğin farelerin koku sisteminde belirli bir nöron kümesi etkinleştiğinde belirli bir koku (“çikolata”, “limon” vb.) algılanıyor. Bu, feature vector yapısına oldukça benziyor
Beyindeki nöral temsiller de embedding temsillerine benzer yanlar taşıyor. Sanki hangi nöronların aktif olduğuna bağlı olarak bir embedding space oluşuyor gibi.
Embedding üzerinde yapılan her şey de “daha fazlası” değil, tamamen ek işlemden ibaret