Derin öğrenme uygulamalı topolojidir

(theahura.substack.com)

7 puan yazan GN⁺ 2025-05-21 | 1 yorum | WhatsApp'ta paylaş

Derin öğrenme, veriyi yüksek boyutlu bir uzaydaki manifold üzerine yerleştirip, sinir ağı katmanlarının dönüşümleriyle bu yüzeyi bükerek veya gererek ayrılabilir bir yapı bulma süreci olarak görülebilir
tanh(Wx+b) gibi bir katman; matris dönüşümü, vektör kaydırma ve doğrusal olmayan fonksiyonun birbirine eklenmesinden oluşan sürekli bir dönüşümdür; birden çok katman üst üste konduğunda karmaşık veri kümeleri de başka bir forma dönüşebilir
Düşük boyutta tek bir çizgiyle ayrılamayan dairesel veriler de daha yüksek bir boyuta çıkarıldığında ayrılabilir hale gelir; sinir ağları bu tür temsil uzaylarını öğrenebilir
Embedding vektörleri metinleri, görüntüleri ve kavramları sayısal uzaydaki noktalar olarak temsil eder; iyi oluşmuş bir yüzeyde king - man + woman = queen gibi kavram işlemleri mümkün hale gelir
Günümüzde çıkarım modeli eğitimi, iyi reasoning trace’leri seçerek çıkarım manifoldunu hareket ettirme süreci olarak yorumlanır; DeepSeek R1 tarzı pekiştirmeli öğrenme de insanların doğrudan seçim yapma maliyetini azaltan bir yöntem olarak ele alınır

Sinir ağlarına topoloji açısından bakmak

Topoloji, bir yüzey yırtılmadığı veya delinmediği sürece; bükme, kıvırma ve germe gibi dönüşümlerde korunan özellikleri ele alan matematik dalıdır
Kil bir yüzeye çizilmiş bir çember döndürüldüğünde veya büküldüğünde birdenbire çizgiye dönüşmez, iki çembere ayrılmaz ya da kendi kendisiyle kesişmez
Veri sınıflandırma problemi de benzer şekilde görülebilir
- 2B düzlemdeki veri tek bir çizgiyle temiz biçimde ayrılamasa bile, yüzey uygun şekilde dönüştürüldüğünde ayrılabilir bir yapı ortaya çıkabilir
- Bu tür uzay manipülasyonunun derin öğrenmenin merkezinde olduğu bakış açısıdır

Sinir ağı katmanları yüzeyi dönüştüren sürekli dönüşümlerdir

Sinir ağlarını lineer cebir yığını olarak açıklamak genel olarak doğrudur; matrisler, geometrik yüzeyleri dönüştüren işlemler olarak yorumlanabilir
Chris Olah’ın 2014 tarihli yazısı da derin öğrenme manifoldlarını bu şekilde ele alır
tanh(Wx+b) katmanı üç aşamadan oluşur
- W ile yapılan lineer dönüşüm
- b vektörüyle yapılan kaydırma
- tanh’in nokta bazlı uygulanmasıyla oluşan doğrusal olmayan çarpıtma
Bu tür dönüşümler birden fazla katman halinde üst üste konduğunda karmaşık veri kümeleri de ayrılabilir bir forma dönüşebilir
Ancak bir çemberin içindeki noktalar ve onun dışını çevreleyen noktalar gibi, topolojik olarak tek bir çizgiyle ayrılması zor durumlar da vardır
- Bu durumda 2 boyuttan 3 boyuta çıkarıldığında veri temiz biçimde ayrılabilir
- Düşük boyutta imkânsız olan bir ayrım, yüksek boyutta kolaylaşabilir

Embedding’ler ve anlamsal manifold

Büyük sinir ağları bir topoloji üreteci (topology generator) gibi görülebilir
- Girdi verisini alır ve kayıp fonksiyonunun talep ettiği özellikleri karşılayan bir yüzey bulur
- Sınıflandırma görevlerinde köpeklerin ve kedilerin uzayın farklı bölgelerine yerleşmesini öğrenir
- Çeviri görevlerinde bread ile pan, kedi fotoğrafı ile cat gibi öğelerin yakın konumlara yerleşmesini öğrenir
- Sonraki token tahmininde, token’ların kullanım biçimlerine göre kümelendiği bir yüzeyi öğrenir
Veri, yüksek boyutlu ve anlamsal olarak ilişkili manifoldlar üzerindedir; manifold oluşturmak, veri kümesini anlamsal olarak temsil etmekle yakından bağlantılıdır
Renk örneği, bu yapının verinin kendisinde içkin olabileceğini gösterir
- [128, 0, 0] kırmızıyı, [0, 0, 128] maviyi temsil eder
- İki vektörü topladığınızda mor renk oluşturulabilir
- Renklerin boyutsallığı, renkler arası benzerlik ve renkleri karıştırma biçimi, veriye içkin bir yapı olarak görülebilir
Görüntüler de manifold üzerindeki noktalar olarak ele alınabilir
- Görüntü, Height x Width x 3 boyutunda RGB piksel değerleriyle temsil edilir
- Bu tek bir vektöre açıldığında, belirli boyuttaki tüm görüntüler yüksek boyutlu uzaydaki noktalar olarak görülebilir
- Brad Pitt’in sandviç yediği görüntü bölgesi ile Mona Lisa görüntüsü, aynı görüntü uzayı içindeki farklı noktalar olabilir
Görüntü uzayının büyük bölümü gürültüdür; yalnızca piksel benzerliğine göre gruplamak yararlı değildir
- Derin öğrenme modelleri görüntü yüzeyini büküp gererek ilgilenilen görüntüleri yakına, gürültüyü uzağa yerleştirebilir
Model içinde metin ve görüntü gibi bilgiler embedding vektörü adı verilen sayı listeleriyle temsil edilir
- Her embedding bir kavramla bağlantılıdır ve aynı zamanda uzaydaki bir noktadır
- İyi oluşmuş bir yüzeyde king - man + woman = queen gibi matematiksel kavram işlemleri mümkün olur

Çıkarım eğitimini manifold üzerinde hareket olarak görmek

Her şeyin manifold üzerinde yer aldığı bakış açısından, çıkarım da bir manifold olarak düşünülebilir
- İyi çıkarımların uzayın bir tarafında, kötü çıkarımların başka bir tarafında kümelendiği hayal edilebilir
- iyi ve kötü kavramlarını katı matematiksel terimlerle tanımlayamasak bile, ikisini ayırt edebiliyorsak bir sinir ağını eğitebiliriz
Google, Anthropic, OAI ve DeepSeek gibi önde gelen yapay zeka şirketlerinin de bu yönde ilerlediği şeklinde yorumlanır
Yapay zeka sektöründe, salt dil istatistikleriyle elde edilebileceklerin büyük ölçüde çıkarıldığı yönünde bir uzlaşma olduğu düşünülür
- Çoğu LLM trilyonlarca token ile eğitilir
- Bunu katrilyonlarca token’a çıkarmak ek faydayı çok büyütmeyebilir
- Sonraki token tahmini çıkarıma benzer, ancak kendi başına çıkarıma ulaşmaktan çok, sonraki token tahminini iyi yapmayı sağlar
instruction tuning ve RLHF, sonraki token tahmini alanından soru-cevap çıkarımı alanına geçmenin yolları olarak yorumlanır
Chain of Thought, çıkarım manifoldunun çıkarım bölgesine daha açık biçimde geçme yöntemidir
- o3 veya Gemini 2.5 gibi modellerde Thinking… olarak görülen düşünme süreci reasoning trace olarak adlandırılır
- Çok sayıda sorgu çalıştırıldığında iyi reasoning trace’ler ile kötü reasoning trace’ler ayırt edilebilir
- Örneğin 1 milyon sorgudan 10 bin çok iyi trace elde edilirse, bunlar kullanılarak yalnızca daha iyi trace’ler üreten yeni bir model eğitilebilir
Bu süreç tekrarlandığında, önceki modelle sonraki modeli bootstrap etmek mümkün olur
- İki reasoning trace’ten hangisinin daha iyi olduğuna karar vermenin bir yolu varsa, çıkarım manifoldu üzerinde hareket etmeye devam edilebilir
- 10 bin iyi örneği, varsayımsal olarak daha gelişmiş bir modelden çıkmış gibi görüp mevcut modeli distill-train etme yöntemi olarak da görülebilir
Bu yaklaşımın AGI’ye ulaşmak için yeterli olduğu ifadesi geçer, ancak halihazırda AGI olduğu iddiasına tartışmalı olduğu yönünde bir dipnot eklenir
ASI için yeterli olmadığı düşünülür
- En iyi çıkarımı seçebilme yeteneği sınır haline gelir
- İyi reasoning trace toplamak çok para ve zaman gerektirir
- Birçok zeki insan tüm gün seçim yapsa bile sonuç öznel ve gürültülü olabilir

DeepSeek R1, pekiştirmeli öğrenme ve model üreten model

DeepSeek R1 ve diğer pekiştirmeli öğrenme yöntemleri, iyi çıkarımı insanların doğrudan seçmemesi yönünde ortaya çıkmıştır
DeepSeek yaklaşımı, iyi çıkarım için nicel sezgiseller oluşturmaya odaklanır
- Yapay zekanın geçmesi gereken unit test’ler veya matematik problemleri oluşturulabilir
- Kod testleri geçerse veya matematik problemi doğru çözülürse, o çıktıyı üreten reasoning trace’in yanlış çıktıyı üreten trace’ten daha iyi olduğu düşünülebilir
- Reasoning trace’in kendisi hakkında öznel analiz yapmak gerekmez
Yalnızca RL ile reasoning task kümelerinde oldukça iyi performans gösteren bir model eğitmeyi başardığı düşünülür
Ancak yalnızca RL yaklaşımıyla ASI’ye ulaşılamaz
- RL modeli de sonunda asimptotik sınırlara çarpar
- Sonrasında RL modelinin ürettiği reasoning trace’ler kürasyonla seçilerek tamamen farklı ikinci bir model fine-tune edilir
- Sonuç olarak DeepSeek, RL’nin kendisinden ziyade, insanların doğrudan üretmesine kıyasla daha ucuza çok sayıda yüksek kaliteli reasoning trace üretme yöntemine yakındır
Kötü çıkarım ile iyi çıkarımı ayırt eden bir sistem kurmanın, en baştan iyi çıkarım yapan bir sistem kurmaktan daha kolay olduğu bakış açısıdır
Sinir ağının kendisi de manifold olarak temsil edilebilir
- Sinir ağı, belirli bir şekilde düzenlenmiş ağırlık sayıları listesidir
- Tüm parametreler açılıp vektör haline getirildiğinde, bir yüzey üzerindeki noktaya eşlenebilir
- Bazı bölgeler semantic segmentation’a, diğer bölgeler text translation’a, başka bölgeler ise autoencoding’e karşılık gelebilir
- Nihai çıktı ağırlıkları tensör olarak kolayca temsil edilebildiğinden, çıktıya doğrudan backprop uygulanabilir
Görüntü üretimindeki diffusion yönteminin model üretimine de uygulanabileceği öne sürülür
- Diffusion, görüntüye kademeli olarak gürültü ekler ve ardından modeli bu gürültü ekleme sürecini tersine çevirmeyi öğrenecek şekilde eğitir
- Hugging Face’teki çeşitli pretrained transformer layer checkpoint’lerine gürültü ekleyerek diffusion eğitim seti oluşturulabilir
- Pretrained model açıklaması metin koşulu olarak verildiğinde, metin açıklamasından diffusion ile başka pretrained modeller üreten bir model hayal edilebilir
- "Spanish to English" gibi bir prompt verildiğinde, ayrı bir eğitim olmadan tamamen eğitilmiş bir model çıkarması gibi bir olasılık dile getirilir
Günümüzde çoğu model rastgele başlatmayla başlar; ancak başka modeller üreten bir diffusion modeli, rastgele başlatmadan daha iyi olabilir ve eğitim süresini önemli ölçüde azaltabilir
Derin öğrenme, modellerin ne yaptığı ve neden çalıştığına dair iyi bir işleyiş teorisi eksik olduğu için gayriresmî bir alan olarak kalır; embedding uzayını topolojik olarak anlamak birçok kavramı birbirine bağlar

1 yorum

GN⁺ 2025-05-21

Hacker News yorumları

Bu yazı 2014’teki blog yazıma (https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/) dayandığı için bir not düşeyim.
Sinir ağlarını anlamanın bir yolu olarak topolojiyi gerçekten yoğun biçimde kullanmaya çalıştım ve devam yazıları da yazdım: https://colah.github.io/posts/2014-10-Visualizing-MNIST/, https://colah.github.io/posts/2015-01-Visualizing-Representa...
Topolojik bakış açısının faydalı olduğu noktalar vardı, ama sinir ağlarının içinde neler olup bittiğine 10 yılı aşkın süre kafa yorunca bundan çok büyük kazanımlar elde edemedim.
Çok daha verimli olan taraf, “kavramların/özelliklerin sinir ağındaki yönlere karşılık geldiği” doğrusal temsil hipotezi ve bu bağlantılı kavram ağları olan devreler fikriydi.
İlgili yazılar: https://distill.pub/2020/circuits/zoom-in/, https://transformer-circuits.pub/2022/mech-interp-essay/inde..., https://transformer-circuits.pub/2025/attribution-graphs/bio...
- Sinir ağlarını anlama biçimiyle ilgili sık görülen bir yanlış kanı var: LLM’lerin aslında biraz geliştirilmiş n-gram modellerinden ibaret olduğu düşüncesi ve yalnızca sonraki token tahmini yaptıkları için modellerin aptal olması gerektiği fikri.
  Karpathy’nin RNN yazısına[2] verilen ünlü tepkinin[1], dil sinir ağlarının n-gram modelleriyle özdeşleştirilmesine kısmen yol açıp açmadığını merak ediyorum.
  Stochastic Parrots makalesi[3] de “akılda esas olarak n-gram modelleri vardı, ama sonuçlar hâlâ uygun ve ilgili” gibi bir yaklaşımla LLM’leri ve n-gram modellerini bir ölçüde özdeşleştiriyor.
  Sinir ağları gerçekten iyi hâle gelmeden önce ikisinin birbirine daha çok benzediği bir dönem varmış gibi görünüyor.
  [1] https://nbviewer.org/gist/yoavg/d76121dfde2618422139
  [2] https://karpathy.github.io/2015/05/21/rnn-effectiveness/
  [3] https://dl.acm.org/doi/pdf/10.1145/3442188.3445922
- Birkaç yıldır circuits akımını takip ediyorum ve doğrusal temsil hipotezi çok ikna edici görünüyor.
  Toy Models of Superposition inceleme taslağını da notlarımda tutuyorum.
  Ancak circuits, analizinin özellikle Transformer mimarisine fazla bağlı olduğu izlenimini verdiği için bana daha az ikna edici geliyor.
  Doğrusal temsil hipotezinin mimariye göre değişiyor olabileceğini düşünüyorum. GAN, VAE, CLIP gibi modeller manifoldları açıkça modelliyor gibi görünüyor.
  Basit bir model bile optimizasyon baskısı nedeniyle yeterince benzer özellikleri aynı doğrusal yöne katlayacaktır.
  Basit bir modelin benzer özellikleri dik yönlere yerleştirdiğine dair ampirik kanıtlarla manifold hipotezini bağdaştırmak zor; ama bu sonuçta optimize edilen kayıp fonksiyonuyla daha ilgili görünüyor.
  Toy Models of Superposition’da MSE kullanılarak modelin fiilen bir otomatik kodlayıcı regresyon/sıkıştırma görevini öğrenmesi sağlanıyor; bu yüzden birlikte ortaya çıkan özellikler arasındaki girişim desenlerinin önemli hâle gelmesi doğal.
  Buna karşılık, kontrastif kayıp gibi başka hedeflerde aynı girişimi en aza indirme davranışının ortaya çıkacağını sanmıyorum.
- 2011’de topolojiyi ilk kez öğrendikten sonra topolojiyi gerçek dünya problemlerine “uygulamaya” birkaç kez çalıştım; benim deneyimim de benzerdi.
  Artık “gerçek dünya verileri pürüzsüz ve düşük boyutlu bir manifolda yakındır” şeklindeki yaygın ifadeye bile temkinli yaklaşıyorum.
  Bu önermenin gerçek verilere ne ölçüde uyduğunu ve doğal veri kümelerini verimli biçimde işlemek için kullanılan boyut indirgeme yöntemleri yüzünden ne kadar çarpıtıldığını düzgünce araştırmak isterdim, ama zamanım yok.
- Fizikte farklı küresel simetrilerin veya topolojik manifoldların aynı metrik yapıyı, yani yerel geometriyi sağlayabilmesi ilginçtir.
  Örneğin Einstein alan denklemlerinin aynı metrik tensör çözümü, topolojik olarak farklı manifoldlar üzerinde var olabilir.
  Buna karşılık Ising Model’in çözümlerine bakarsak aynı kafes topolojisi birçok farklı çözüme sahip olabilir; sistem kritik noktanın yakınındaysa kafes topolojisinin kendisi de önemli olmayabilir.
  Bu yalnızca bir benzetme, ama dinamiklerin ilginç ayrıntılarının sistemin topolojisine gömülü olmadığını ima ediyor. Daha karmaşık bir problem.
- Eski yazı hakkında birkaç küçük HN tartışması olmuştu.
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=19132702 - Şubat 2019, 25 yorum
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=9814114 - Temmuz 2015, 7 yorum
  Neural Networks, Manifolds, and Topology - https://news.ycombinator.com/item?id=7557964 - Nisan 2014, 29 yorum
Gerçekten topoloji olsaydı, benzerlik araması yapmak için manifoldu bükmeye gerek kalmazdı. Bu, metriği olan geometriye daha yakın
Gerçekte de olduğu gibi, nesneleri karşılaştırabilmemiz gerekir
Öğrenme sırasında manifoldda topolojik dönüşümler de gerçekleştiği için, öğrenme sırasında topolojinin nasıl evrildiğini merak ediyorum
Başta şiddetli biçimde değişip sonra kararlı hale gelecek, ardından geometrik ince ayarlar sürecek gibi geliyor
İlgili makaleler arasında Topology and geometry of data manifold in deep learning(https://arxiv.org/abs/2204.08624), Topology of Deep Neural Networks(https://jmlr.org/papers/v21/20-345.html), Persistent Topological Features in Large Language Models(https://arxiv.org/abs/2410.11042), Deep learning as Ricci flow(https://www.nature.com/articles/s41598-024-74045-9) var
- GAN ya da VAE ile uğraştıysanız bu soruya gerçekten cevap verebilirsiniz. Cevap çoğunlukla “evet”e yakındır
  Öğrenme sırasında farklı kontrol noktalarındaki GAN’lara bakıp, yüksek boyutlu uzaydaki farklı noktaların nasıl hareket ettiğini UMAP veya t-SNE gibi araçlarla görebilirsiniz
  Başlardaki şiddetli değişimden sonra kararlı hale gelmesi ve geometrik ince ayarın gerçekleşmesi de doğru; ancak ilk değişimler öğrenme oranı ve optimizatör seçiminden de etkilenir
- İlla ad koymak gerekirse uygulamalı lineer cebire daha yakın görüyorum. Sadece böyle söyleyince daha az egzotik duyuluyor
Yazının kendisi iyiydi, ama iki nokta kümesini ayıran bir ayırma yüzeyi bulma fikrine neden “topoloji” dendiğini anlamıyorum
“İngilizce-İspanyolca çeviri ya da görsel-metin dönüşümü öğrenildiğinde, bread’in pan’a yakın, kedi fotoğrafının da cat kelimesine yakın olduğu bir topoloji öğrenilir” türünde bir cümle geçiyor; bu, topolojinin ele aldığı şeylerden çok farklı
Noktaların “yakın” ya da “uzak” olması kavramı topoloji değil, metrik alanına girer
Bir topolojik uzayda iki nokta yakınsa, uzayı esneterek aynı topolojik uzayı korurken o iki noktayı uzak hale getirebilirsiniz
Kahve fincanı ile donut’ın aynı olduğu esprisinin özü tam da budur
Genel olarak bu, noktaların birbirine yakın konumlandığı bir cebirsel manifold gibi bir şeyi bulmaya, yani cebirsel geometrinin gerçek dünyadaki uygulamasına daha yakın görünüyor. Sonuçta mesele geometri ve noktalar arası mesafe gibi duruyor
- “Bu, topolojinin ele aldığı bir şey değil” sözü %100 doğru
  Yine de yazı hem topolojiyi hem de derin öğrenmeyi ele aldığı için, belirgin karışıklığın bu ikisinden yalnızca birinde, yani topolojide kalmasını umuyorum
- O cümlede “topology” daha gündelik anlamıyla kullanılmış. Doğrusu “surface” demek olurdu
- Gevşek bir tanımla topoloji, gerçekten de bir tür yakınlık ve uzaklık kavramı olan uzayları inceleyen alan olarak görülebilir. Metrik olmasa bile bu böyledir
  Nokta-küme topolojisindeki komşuluk temel kavramı, bir noktanın yakınında olma fikrini yakalar ve süreklilik ya da dizilerin yakınsaması gibi yakınlık kavramına ihtiyaç duyan şeyleri tanımlamamızı sağlar
  Wikipedia [0] da açık küme kavramı üzerinden “yakında”, “keyfi ölçüde küçük” ve “uzakta” kavramlarının kesinleştirilebildiğini açıklar
  Açık küme tanımı değişirse sürekli fonksiyonlar, kompakt kümeler ve bağlantılı kümeler de değişir; açık küme tanımı için yapılan her seçime topoloji denir
  Metrik uzaylar, nokta çiftleri arasında negatif olmayan gerçek sayı değerli bir mesafe, yani metrik tanımlanabilen önemli bir topolojik uzay sınıfıdır
  Topolojinin sinir ağlarını anlamak için en iyi mercek olduğunu söylemiyorum; yazar da yorumlarda fikrinin değiştiğini söyledi. Burada sadece yanlış anlamayı düzeltmek istedim
  [0] https://en.wikipedia.org/wiki/General_topology
Başlık mevcut haliyle klişe ve yanlış; yazının kendisi ise okunması keyifliydi
Topoloji, geometride mesafe, açı, yön ve yırtmadan yapılabilen her tür esnetme çıkarıldıktan sonra geriye kalan çok küçük yapıdır
Böylesine sert deformasyonlardan sonra bile geçerli kalan asgari şeydir
Makine öğrenmesinde topoloji kavramlarının yararlı olduğu doğru, ancak ölçek, mesafe ve açı gibi şeyler genellikle veri hakkında çok fazla temel bilgi sağlar
Tekir kediyle kaplanı ayırt etmeye çalışırken boyutu yok saymak aptalca olur
Topoloji özellikle uzunluk, mesafe, açı ve keyfi deformasyonlara güvenemediğinizde işe yarar
Böyle durumlar var, ama derin öğrenmenin uygulamalı topoloji olduğunu iddia etmek saçma ve neredeyse aptalca bir söz
- Girdi verisi güvenilmez bir manifold üzerindedir. Piksel uzayında bir Coca-Cola kutusu görüntüsüyle dur işareti görüntüsünün yakın olması önsel olarak hiçbir anlam taşımaz
  Sinir ağları tam da bu tür şiddetli dönüşümlerin hepsini uygular
- Ayrıntıya girince, saf topoloji olsaydı önemsiz olacak pek çok şey önemli hale gelir. Katman sayısından nicemleme/fp çözünürlüğüne kadar her şey etkiler
- “topology” kelimesinin, şu anda talep ettiğiniz koşulların hiçbirini içermeyen meşru bir sözlük tanımı da var. İki tanım olduğunu kaçırmış gibisiniz
Paylaştığın için teşekkürler; ben de öğrenmeye manifold perspektifinden bakma eğilimindeyim. Güçlü bir ifade biçimi
“Yeterince yüksek boyutlu bir uzayda bunun akıl yürütmeden ayırt edilemeyeceği” kısmı hakkında epey günlük yazdım ve HN’de “olasılıksal akıl yürütme manifoldu” adıyla bir yazı da yayımladım
Bu manifold, verilen girdi kümesinden bağlamdan arındırılmış bir örüntü uzayı öğrenilerek oluşturulur
Örneklemenin doğasındaki olasılıksallık nedeniyle gerçek akıl yürütme aksiyomlarla değil, olasılıkla ifade edilir
Manifold üzerindeki sabit noktaları ya da çekicileri bularak aksiyomlar keşfedilebilir; ancak nihayetinde girdi kümesinden oluşturulmuş olasılıksal bir manifolda bakıyoruz
Yine de bu “akıl yürütme”yi girdi verisinden ayırabileceğimizi düşünmüyorum
Yeterince gelişmiş bir akıl yürütme manifoldunda, her yerde bulunan “meta akıl yürütme” gibi yapılar bulunabilir; fakat bu kadar yüksek düzeyde bağlamdan arındırılmış yapılar, uygun şekilde yeniden bağlama oturtulmazsa tamamen işe yaramaz olabilir
Sonuçta bir manifoldun belirli tür girdileri işlemekte yararlı olabilmesi için, o girdinin örüntülerinin öğrenilebilir bir underlying rule izlemesi gerekir

Bağlamdan çıkarma öğrenmeyse, yani girdinin yönlerini bağlamdan bağımsız ilişkilere ayrıştırmaksa; yeniden bağlamlandırma da bunun diğer yarısı olarak, çok soyut ve bazen ifade edilemeyen bağlamdan bağımsız ilişkileri yeni bir alanda işe yarar analizlere dönüştürme yeteneğidir.
Yorumun tamamı: https://news.ycombinator.com/item?id=42871894

Genel akıl yürütmeden, yani önermelerin temsili üzerinde işleyen zihinsel süreç olarak akıl yürütmeden mi söz ettiğini merak ediyorum.
Öyleyse “gerçek akıl yürütme aksiyomlarla değil olasılıklarla temsil edilir” sözünü anlamak zor.
Akıl yürütmenin özelliklerinden biri de bu şekilde işlememesidir.
Hayvanların kendi temsil ettikleri önermeler üzerinde olasılıksal olmayan biçimde işleyebilme yeteneğine hiç sahip olmamış olmaları çok düşük bir olasılık. Bu, doğru akıl yürütme için gereklidir ve sağlanması da görece önemsiz bir yetenektir.
Örneğin “örümcek boxA'nın içindeyse başka hiçbir yerde değildir” gibi.
Veri aslında bir manifold üzerinde değildir. Bu sadece veriyi düşünmek için bir yaklaşımdır.
Derin öğrenmede işe yaramış şeylerin neredeyse tamamı, belki de %100'ü, topolojiyi hiç düşünmeden ortaya çıktı.
Derin öğrenme bir şeyin uygulaması olmaktan çok, büyük ölçüde deneme-yanılma ve deneylerle gelişmiş ampirik bir alandır.
Teoriden gelen biraz sezgi vardı, ama o teori topoloji değildi.
- Hiç katılmıyorum. Deneme-yanılmanın çok olduğu doğru, ama derin öğrenme daha çok topoloji, geometri, oyun teorisi, kalkülüs, istatistik vb. birçok matematik alanındaki teorilerin iç içe geçmesine benziyor.
  En temel şey olan geri yayılım bile ağırlıklara zincir kuralının uygulanmasından ibaret.
  Fark, derin öğrenmenin çok erişilebilir ve daha doğrusu kârlı bir alan hâline gelmesiyle, birçok uygulayıcının biçimciliğin kökenlerini öğrenmeden konuyu öğrenebilmesinde.
  Sonuçta başka alanlarda uzun zamandır var olan teori ve teknikler, kökenleri bilinmeden kullanılıyor ya da “yeniden icat” ediliyor.
- Teoriden gelen “sezgiler” bana sonradan kurulmuş gibi geliyor. Derin öğrenme bir yöntem ortaya koyduktan sonra, başka bilim alanlarındaki araştırmacıların derin öğrenme yaklaşımıyla kendi eski yöntemleri arasındaki benzerlikleri fark etmesi gibi.
  Örneğin GPT'nin aslında fizikte daha önce çözdüğü hesaplama problemiyle aynı olduğunu fark eden bir yazı var: https://ondrejcertik.com/blog/2023/03/fastgpt-faster-than-py...
- Derin öğrenmeyle 10 yıldan fazla uğraşmış biri olarak, bu söz epey yanlış. Verinin manifold üzerinde yaşadığı aşikâr ve bu derin öğrenme uygulamaları için de geçerli.
  Örneğin yazımda bağlantı verdiğim Chris Olah'ın 2014 tarihli blog yazısı var: https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/
  Gömme uzayına “uzay” denmesinin bir nedeni var.
  GAN, VAE ve kontrastif kayıp; hepsi üzerinde dolaşıp farklı türde veriler üretebileceğiniz vektör manifoldları kurma problemidir.
- Bu simya.
  Bugünkü hâliyle derin öğrenmenin varsayımsal temel teoriyle ilişkisi, simyanın kimyayla ilişkisine benziyor.
  Birkaç yüz yıl sonra bizden sonraki uygarlığın İnuktitutça konuşan lise öğrencileri, “deep learning” denen garip ifadenin eski ortak dilin bir kalıntısı olduğunu öğrenecek.
- Yaklaşım hatasına izin verecek şekilde tanımı gevşetirseniz, verinin manifold üzerinde olduğu söylenebilir. Örneğin Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning(https://aclanthology.org/2021.acl-long.568.pdf) buna örnek gösterilebilir.
“Bu kadarı AGI'ye ulaşmak için yeterliydi” cümlesini okuduğum anda güvenilirlik keskin biçimde düştü.
Genel olarak fikirler fena değil ama yazı epey muğlak, özellikle de akıl yürütmeyle bağlantı kurduğu kısım.
Bu alanda https://arxiv.org/abs/1402.1869 gibi bu fikri genişletip daha somut hâle getiren ciddi teknik çalışmalar var.
Derin sinir ağlarında karşılaşılan bir başka topoloji de ağ topolojisidir. Bu, ağ yapısını; yani düğümlerin nasıl bağlandığını ve verinin nasıl aktığını ifade eder.
Otomatik kodlayıcılar, evrişimli sinir ağları(CNN) ve üretici çekişmeli ağlar(GAN) gibi biyolojiden ilham alan iyi bilinen örnekler zaten var.
Ancak beynin topolojisi ve işlevsel bağlantısallığı hakkında hâlâ öğrenecek çok şey var.
Gelecekte hem tekil katmanların/düğümlerin iç yapısında hem de özelleşmiş ağların birbirine bağlanma ve etkileşme biçimlerinde yeni yapılar keşfetmemiz çok olası.
Beyin tek bir ağa dayanmaz; genellikle “Big 7” denen birden çok ağı paralel çalıştırır ve bunları derin biçimde birbirine bağlar.
Default Mode Network(DMN), Central Executive Network(CEN), Limbic Network vb. buna dahildir.
Hatta tek bir nöron birden çok ağa ait olup farklı işlevler gerçekleştirebilir.
Yapay sistemlerde bu karmaşıklığı henüz yeterince kopyalayamadık; bu “ağ topolojisinden” öğrenilecek ve ilham alınacak hâlâ çok şey var.
O hâlde “Topology is all you need” :-)
“İyiyi kötüden ayırt edebildiğiniz sürece, sinir ağını eğitip topolojisini kendi kendine düzenlemesini sağlayabilirsiniz” varsayımı sorunlu.
Yaklaşık 10 yıl önce, yüz fotoğraflarından biyolojik cinsiyeti tahmin edecek bir ağ eğitme projesi görmüştüm.
Önyargıyı azaltmak için makyajı, bıyığı, saçı vb. dikkatle kaldırmışlardı ama doğruluk yaklaşık %70-80 civarındaydı.
O zaman bu harika bir sonuç gibi görünüyordu ve hedefleri %99'du.
Makaleyi okuduktan sonra ilk yaptığım şey, benzer fotoğraflarda insanların biyolojik cinsiyeti doğru tahmin etmesine dair makaleler aramak oldu.
İnsanlar da bundan çok daha iyi değildi; insanla makine arasındaki fark yaklaşık %1-2'ydi.
Projeyi yürütenlere, yalnızca fotoğraftan böyle bir ayrımın mümkün olduğunu nasıl kanıtladıklarını sordum; ama sorunun kendisini anlamadılar ve bunun mümkün olduğunu varsayıyorlardı.
Sonuçta sonuçları iyileştiremediler. Sinir ağına kötü öğretmiş olabilirler, ama cinsiyet işaretleri kaldırıldığında birçok yüz basitçe androjen olabilir.
Bu anekdotu anlatmamın nedeni, varsayımlarının bana oldukça makul görünmesiydi.

Çoğu durumda birinin yüzüne bakınca pantolonunun içinde ne olduğunu tahmin edebildiğiniz için, yüzde o bilginin bulunduğunu varsaymışlar
Ama ders kitaplarının her yıl yeniden yazıldığı, “bilginin yarı ömrü”nün hesaplanmaya çalışıldığı, felsefe disiplininin hâlâ sona ermediği ve her gün neyin en iyi olduğuna dair siyasi ve ideolojik tartışmaların yaşandığı bir durumda, iyi ile kötüyü bir şekilde ayırabileceğimiz varsayımı son derece, gerçekten son derece mantıksız

Sonuçta “iyi” ile “kötü” arasında böyle bir ayrımın var olduğunu varsaymak bile rasyonel değil
AGI/ASI’nin, sonraki token tahmini, sohbet modeli ve CoT modeli gibi bir manifold üzerindeki noktalar olduğunu iddia eden diyagram kafa karıştırıcı
Son üçü aynı manifoldun parçası olarak kanıtlanabilir olabilir, ama AGI/ASI’yi de oraya koymanın dayanağının ne olduğunu bilmiyorum
CoT yapabilen modeller, ne kadar topolojik işlem uygulanırsa uygulansın, AGI sayılabilecek bir sürece hiç ulaşamayabilir, değil mi
Örneğin bildiğimiz AGI’ye en yakın şey olan insan zekâsı, otoregresif modellerin ayrık işlemesinden farklı olarak son derece karmaşık duyusal ve iç geri bildirim döngüleri ile sürekli işlemeyi gerektiriyor
Bir dış gözlemci olarak sezgim, LLM’lerin zekâ ya da bilinç üretebilecek sistemlerle hiç aynı çizgide olmadığı yönünde
- Olabilir. AGI/ASI’nin tanımı zayıf. Kişisel olarak zaten AGI’ye ulaştığımızı düşünme eğilimindeyim; tabii birçok kişi buna katılmıyor
  İnsan zekâsının karmaşık duyusal ve iç geri bildirim döngüleri ile sürekli işlemeyi gerektirdiği açıklamasının, sinir ağları ile biyolojik ağların gerçekte oldukça benzer işleyen yönlerini perdelediğini düşünüyorum
  Connectomics üzerine epey çalışma yaptım; örneğin farenin koku alma sisteminde, hangi nöronların ateşlendiğine bağlı olarak bir tür özellik vektörü gibi bir şey ortaya çıkıyor
  Belirli bir nöron kümesi ateşlendiğinde bunun “çikolata” ya da “limon” gibi bir anlama gelmesi gibi
  Daha genel olarak nöron temsilleri embedding temsillerine bir ölçüde benziyor gibi görünüyor ve nerede hangi nöronların ateşlendiğine bakarak bir embedding uzayı kurmayı hayal etmek de mümkün
  Embedding üzerindeki her şey “sadece” işlemeden ibaret