Kolmogorov-Arnold ağıyla sinir ağlarını daha anlaşılır hale getirme olasılığı

(quantamagazine.org)

1 puan yazan GN⁺ 2024-09-14 | 1 yorum | WhatsApp'ta paylaş

Nisan 2024’te tanıtılan Kolmogorov-Arnold network (KAN), mevcut MLP tabanlı sinir ağlarına kıyasla iç işleyişi daha okunabilir bir alternatif olarak önerildi ve belirli problem sınıflarında genel sinir ağlarının yaptığı işlerin neredeyse tamamını yerine getirebiliyor
KAN, çıkışı hedefe uydurmak için kenarlara sayısal ağırlıklar yerine öğrenilebilir doğrusal olmayan fonksiyonlar yerleştiriyor; bu yapı köklerini 1957’deki Kolmogorov-Arnold teoreminden alıyor
MIT’den Ziming Liu ve Max Tegmark’ın araştırma ekibi, 2 katmanlı KAN’ın sınırlarıyla karşılaştıktan sonra 3 veya daha fazla katmanlı yapıları denedi ve 3 katmanlı KAN’ın, 2 katmanlı yapının tam olarak ifade edemediği fonksiyonları ifade edebildiğini gösterdi
Düğüm teorisi ve Anderson localization probleminde KAN yalnızca yanıt üretmekle kalmadı, ilgili formülleri ve ilişkileri de gösterdi; bu nedenle fizik gibi değişken sayısının az olduğu bilimsel problemler için özellikle yararlı olabilir
Sonraki çalışmalarda yorumlanabilirlik görevleri ve kısmi diferansiyel denklem çözümünde güçlü yönleri doğrulandı; ancak bilgisayarlı görü ve ses işlemede MLP daha başarılı oldu ve KAN 2.0 daha kullanışlı bir sürüm olarak yayımlandı

MLP kara kutusu ve KAN’ın ortaya çıkışı

Modern sinir ağlarının en yaygın temel yapı taşlarından biri multilayer perceptron (MLP)’dur ve büyük veri kümelerine ölçeklendiğinde güçlü performans gösterir
MLP tabanlı ağlar başarılı olsa da insanların sonuca nasıl ulaşıldığını anlaması zordur; ayrıca sonuçları açıklayan temel bir ilke olup olmadığını kavramak da kolay değildir
Nisan 2024 tarihli KAN makalesi, daha şeffaf olan ve belirli problem sınıflarında genel sinir ağlarının yaptığı işlerin neredeyse hepsini yapabilen Kolmogorov-Arnold network (KAN) yapısını önerdi
Johns Hopkins University’den Alan Yuille, KAN’ın daha yüksek yorumlanabilirlik sunduğunu ve özellikle veriden bilimsel kuralların çıkarılması gereken bilimsel uygulamalarda yararlı olabileceğini düşünüyor

KAN’ın fonksiyon uydurma yöntemi

Tipik bir sinir ağı, yapay nöron ya da düğüm katmanlarını kenarlarla bağlar ve her kenarın ağırlığını eğitim sürecinde ayarlayarak çıktıyı doğru yanıta yaklaştırır
Sinir ağlarının yaygın hedeflerinden biri, veri noktalarını en iyi şekilde birleştiren matematiksel fonksiyonu ya da eğriyi bulmaktır
- Eğer bir fiziksel süreci modelliyorsa, çıktı fonksiyonunun fiziği açıklayan denklem, yani fizik yasasına karşılık gelen bir biçimde olması beklenir
MLP için, olası en iyi fonksiyona ne kadar yaklaşılabileceğini gösteren matematiksel teoremler vardır; buna rağmen MLP bu fonksiyonu kusursuz biçimde ifade edemez
KAN, kenarlara basit sayısal ağırlıklar koymak yerine öğrenilebilir doğrusal olmayan fonksiyonlar yerleştirir
- Bu kenar fonksiyonları daha karmaşık eğrileri ifade edebilir
- MLP’deki sayısal ağırlıklardan daha ince ayarlanabilirler

1957 teoremi ve 35 yıllık kuşkuculuk

KAN’ın merkezinde, Andrey Kolmogorov ve Vladimir Arnold’un 1957’de ayrı ayrı ortaya koyduğu matematiksel sonuçlar bulunuyor
- Buna göre, çok değişkenli tek bir matematiksel fonksiyon, tek değişkenli fonksiyonların birleşimine dönüştürülebilir
Önemli bir kısıt, teoremin ürettiği tek değişkenli fonksiyonların pürüzsüz olmayabilmesidir
- V şeklindeki bir köşe gibi keskin noktalar içerebilirler
- Ağın eğitim sırasında hedef değere uyacak şekilde eğilip bükülebilmesi için basit tek değişkenli parçaların pürüzsüz olması gerekir
MIT’den Tomaso Poggio ve ekibinin 1989’da yayımladığı makale, KAN’ın temel matematik fikrinin “öğrenme için ağ bağlamında alakasız” olduğunu açıkça belirtiyordu
Ziming Liu ve Max Tegmark ise, tek değişkenli fonksiyonlar pürüzsüz olmasa bile ağın bunları pürüzsüz fonksiyonlarla yaklaştırabileceğine ve bilimde karşılaşılan fonksiyonların çoğunun zaten pürüzsüz olduğuna dikkat çekti
1989’dan bu yana yazılım ve donanım büyük ölçüde geliştiği için Liu, geçmişte ilgi görmeyen bu fikri yeniden denemeye karar verdi

2 katmandan çok katmanlı KAN’a geçiş

Liu yaklaşık bir hafta içinde en basit biçim olan 2 katmanlı KAN prototipini geliştirdi, ancak hedeflediği bilimsel görevlerde iyi performans elde edemedi
2 katmanlı KAN, Kolmogorov-Arnold teoreminin çok değişkenli fonksiyonları iç fonksiyonlar ve dış fonksiyonlar kümesine ayıran yapısıyla doğal biçimde örtüşüyor gibi görünüyordu
Tegmark, 2 katmandan daha fazla katmana sahip KAN’ların denenmesini önerdi ve bu yaklaşım sonuç verdi
Araştırma ekibi, MIT, California Institute of Technology ve Northeastern University’den matematikçileri ve uygulama alanı uzmanlarını içeren iş birlikleri kurdu
Araştırma ekibi, Nisan 2024 makalesinde 3 katmanlı KAN’ın mümkün olduğunu gösterdi ve 2 katmanlı KAN’la tam olarak ifade edilemeyen fonksiyonların 3 katmanlı KAN tarafından tam olarak ifade edilebildiği örnekler sundu
Daha sonra 6 katmana kadar deneyler yaptılar ve katman sayısı arttıkça daha karmaşık çıktı fonksiyonlarına uyum sağlanabildiğini doğruladılar

Gerçek problemlerde ortaya çıkan yorumlanabilirlik

Düğüm teorisi
- 2021’de bir DeepMind ekibi, belirli bir düğümün çeşitli özelliklerini girdi olarak alıp onun topolojik özelliklerini tahmin eden bir MLP geliştirmişti
- Yeni KAN bu başarıyı yeniden üretti ve tahmin edilen özelliğin diğer özelliklerle nasıl ilişkili olduğunu da gösterdi
- Liu, bunun MLP’nin hiç yapamadığı bir şey olduğunu söylüyor
Anderson localization
- İkinci problem, yoğun madde fiziğindeki Anderson localization olgusuyla ilgiliydi
- Amaç, belirli bir faz geçişinin gerçekleştiği sınırı tahmin etmek ve bu süreci açıklayan matematiksel formülü bulmaktı
- MLP bunu daha önce başaramamıştı; araştırma ekibinin KAN modeli ise başardı
- Tegmark’a göre KAN’ın en büyük avantajı ve son geliştirmelerin ana motivasyonu yorumlanabilirlik
- Verilen veriden tişörte yazılabilecek kadar kısa bir formül çıkarabilmeyi yorumlanabilirliğin bir türü olarak tanımlıyor
- Johns Hopkins’ten Brice Ménard, eğer bir problem gerçekten basit bir denklemle açıklanabiliyorsa KAN’ın bunu bulmada oldukça iyi olduğunu söylüyor
- Ancak KAN’ın en iyi çalıştığı alan, fizik gibi denklemdeki değişken sayısının çok az olduğu problemlerle sınırlı olabilir

Sonraki çalışmalar ve KAN 2.0

Liu ve Tegmark’ın KAN makalesi yaklaşık 3 ay içinde 75 atıf aldı ve diğer araştırma grupları da kendi KAN çalışmalarını başlattı
Tsinghua University’den Yizheng Wang ve ekibinin Haziran 2024’te çevrimiçi yayımladığı makale, Kolmogorov-Arnold tabanlı sinir ağlarının (KINN) kısmi diferansiyel denklemleri (PDE) çözmede MLP’yi açık ara geride bıraktığını bildirdi
- Wang, PDE’lerin bilimin her alanında bulunduğunu söylüyor
National University of Singapore araştırmacılarının Temmuz 2024 tarihli makalesi ise daha karma sonuçlar verdi
- KAN, yorumlanabilirlikle ilgili görevlerde MLP’den daha iyiydi
- Bilgisayarlı görü ve ses işlemede ise MLP daha iyi sonuç verdi
- Doğal dil işleme ve diğer makine öğrenimi görevlerinde iki ağ genel olarak benzerdi
Liu’ya göre bu sonuçlar şaşırtıcı değil
- Zaten KAN araştırmasının odağı, yorumlanabilirliğin birinci öncelik olduğu bilimsel görevlerdi
Ağustos 2024’te Liu ve çalışma arkadaşları KAN 2.0 makalesini yayımladı
- Liu bunu geleneksel bir makaleden çok bir kullanıcı kılavuzuna benzetiyor
- KAN 2.0 daha kolay kullanılabiliyor ve orijinal modelde bulunmayan çarpma araçları gibi ek özellikler sunuyor

Uygulama odaklılıktan anlama odaklılığa

Liu ve ortak yazarlarına göre KAN, yalnızca belirli bir hedefe ulaşmanın aracı değil; aynı zamanda merak odaklı bilimi teşvik ediyor
Makine öğreniminde uzun süredir baskın olan yaklaşım uygulama odaklı bilimdi
- Örneğin gök cisimlerinin hareketi gözlemlendiğinde, uygulama odaklı araştırmacı gelecekteki durumu tahmin etmeye odaklanır
- Merak odaklı araştırmacı ise o hareketin ardındaki fiziği ortaya çıkarmaya çalışır
KAN sayesinde araştırmacılar, zor hesaplama problemlerini çözmek için yardım almanın ötesine geçip sinir ağlarını bizzat anlamayı amaçlayan bir araç olarak kullanabilir

1 yorum

GN⁺ 2024-09-14

Hacker News yorumları

KAN’in başyazarı dün MLCAD’de bir eğitim oturumu yaptı; bu, donanım/yarı iletken tasarımı ile makine öğrenmesi/derin öğrenmenin kesişimini ele alan bir konferanstı.
Fiziksel sistemlere dair içgörü ve yorum, örneğin sembolik ifadeler, korunum nicelikleri ve simetriler elde etme amacı için gerçekten ilginç ve uygun görünüyordu.
Bilim ve matematikte faydalı olabilir; ancak mühendislikte bu tür yorumlanabilirlik, makine öğrenmesi/derin öğrenmenin birincil hedefi olmayabilir.
Daha zor görevleri öğrenme becerisi ya da öğrenme kapasitesi hâlâ belirsiz; KAN “aktivasyonunda” kullanılan baz fonksiyonlarının seçimi veya bu katmanın hangi mimariye eklendiğinde fayda sağladığı da henüz pek araştırılmış değil.
İnsanlar KAN üzerinde daha fazla deney yaptıkça bu sorulara daha çok yanıt çıkacağını düşünüyorum.
- Aynı yazarın 2 ay önce yaptığı bir sunum var: https://www.youtube.com/watch?v=FYYZZVV5vlY
- O oturumun herkese açık bir sürümü olup olmadığını merak ediyorum.
Bence mümkün değil.
İçerideki tek bir işlemin anlaşılabilir olması, tüm sinir ağını anlaşılabilir kılmaz.
Çok daha basit olan karar ağaçlarına bakınca bile, ders kitaplarında bunlar tek seferde bir özellikle karar veren ve yapraklarda çıktı üreten anlaşılabilir sistemler olarak tanıtılır.
90’larda bilgisayarlar yavaş ve ağaçlar küçükken bu doğruydu; ama bugün dev karar ağaçları ve rastgele ormanlar milyonlarca düğümlü ağaçlar oluşturabiliyor ve bunlar yorumlanabilir değil.
Karmaşık sistemleri anlamada temel bir matematiksel boşluk var ve bu, başka bir sinir ağı türüyle çözülmeyecek.
- “Newton bunu kullanarak analiz ettiği kuvvetin formülünü, örneğin yerçekimi = g m_1 m_2 / d^2 gibi bir şeyi bulabilir miydi?” diye düşünüyorum.
  Eskiden bir fizik profesörüne ilke olarak mümkün olup olmadığını sormuştum; mümkün olduğunu söylemişti.
  KAN’in, deney verileri verildiğinde böyle bir formülü bulabileceğini düşünüyorum; eğer bu doğruysa buna yorumlanabilirlik denmeyi hak eder.
- Karmaşık sistemler hakkında akıl yürütmemizi sağlayacak formüller veya denklemler en başta hiç var olmayabilir.
  Karmaşıklık hakkında çıkarım yapmak için gerçekten o karmaşıklığı olduğu gibi çalıştırmak gerekebilir.
- Genel olarak katılıyorum; yeterince karmaşık doğrusal olmayan modellerde yorumlanabilirlik arayışının boşa çaba olduğunu düşünüyorum.
  Yine de doğrusal olmayan dinamikler veya örüntü oluşumu alanında bir gün başarılı bir atılım gelmezse buna daha çok şaşırırım.
- Çok karmaşık karar ağaçları bile bir ölçüde yorumlanabilir.
  Çünkü ağacı takip ederek “bu koşul doğru olmasaydı sonuç değişir miydi?” gibi sorulara yanıt verebilirsiniz.
  Tüm ağacı tek seferde zihinde tutmak zor olabilir; ama gerçekten geçilen yolu anlamak gerektiğinde incelemek mümkündür.
- Birçok kişi ağaç topluluklarına kara kutu diyor.
  Bence gri kutuya ya da koyu gri kutuya daha yakınlar.
  İsterseniz yorumlayabilirsiniz; ama gerçekten kim 500 ağacın tamamını tek tek incelemek ister ki?
KAN makalesinde sunulan yarı otomatik sadeleştirme algoritması, https://arxiv.org/pdf/2112.04035 ile benzer bir problemi çözüyor gibi görünüyor.
Ancak genelleştirilmiş soyut bir sıkıştırıcı değil; ileri yayılım fonksiyonunun yorumlanabilirliğini hedefleme şeklinde ek bir kısıtı var.
Öyle değil.
Önemsiz fonksiyon uydurma problemlerinde KAN, her baz fonksiyonunun bir sonraki katmana ne kadar katkı yaptığını görselleştirmeyi sağlar.
Ama bu kadar sığ ve önemsiz sinir ağlarına zaten bakma ihtiyacı pek yoktur.
Derin sinir ağları bu yaklaşımla açıklanabilir hâle gelmez.
- Doğru.
  Milyonlarca ila milyarlarca parametreye sahip bir şeyin bizim istediğimiz anlamda “açıklanabilir” olup olamayacağını bilmiyorum.
  Milyarlarca terimi olan genel bir çok değişkenli fonksiyonu çok büyük bir beyaz tahtaya yazdığınızı hayal edin; neden o sayıyı ürettiğini gerçekten anlayabilir misiniz?
  KAN’in parametre sayısı bir büyüklük mertebesi kadar daha az olabilir, ama temel problem hâlâ aynı.
Bu konuyla doğrudan ilgili olmayabilir ama merak ettiğim bir şey var.
Sinir ağlarının güçlerinden biri, GPU’nun sunduğu devasa paralelliği kullanabilmesi; yalnızca skaler ağırlıklar kullanarak hesaplama kaynaklarını boşa bırakıyor olabilir miyiz?
Ağırlık matrisi yerine fonksiyon matrisi kullansak nasıl olur?
- Sinir ağlarının zaten fonksiyonlardan oluştuğunu düşünmek daha doğru.
  Katmanlar hâlinde dizilmiş düğüm kümeleri karmaşık bir doğrusal olmayan fonksiyona dönüşür.
  Örneğin küçük bir 3 katmanlı sinir ağı bile kübik spline fonksiyonunu modelleyecek şekilde eğitilebilir.
  Fonksiyonun içi her aşamada, her toplama ve çarpma işleminde öğrenilir.
  Sinir ağındaki fonksiyon sayısı, ağırlık sayısının bir parçası olarak görülebilir; bu yüzden teorik olarak daha karmaşık fonksiyonları doğrudan modellemekten daha esnek ve güçlüdür.
  Doğru fonksiyonu biliyorsanız, küçük sabit fonksiyonlu bir MLP’yi belirli bir fonksiyonla modelleyerek eğitim verimliliğini artırabilirsiniz; ancak dikkatli olmazsanız performans kaybedebilirsiniz.
  Asıl sorun hangi fonksiyonun kullanılacağını bilmememiz; doğrusal olmayan fonksiyonlar eklemek performans, hassasiyet, başlatma ve düzenlileştirme açısından yeni zorluklar doğurabilir.
  Doğrusal matematik kolay ve güçlüdür, ayrıca zaten karmaşık fonksiyonları modelleyebilir; ama doğrusal olmayan matematik de faydalı olabilir, bu yüzden daha fazla araştırma gerekiyor gibi görünüyor.
- GPU’lar kayan noktalı değer matrisleri için optimize edilmiştir; bu yüzden güncel sinir ağları skaler ağırlıklar içeren matrisleri temel alır.
- Bu açıklama derin Gauss süreçlerine çok benziyor.
- Ağırlıkların her satırına ya da sütununa doğrusal olmayanlık eklemek, tam da öğrenilebilir fonksiyon demektir.
Yakın zamanda https://news.ycombinator.com/item?id=40219205 üzerinde de tartışılmıştı.
Bilimsel uygulamalarda yorumlanabilirliğin özü sembolik regresyondadır.
MLP, herhangi bir veri kümesi için her zaman denklem üretemez; ama KAN üretebilir.
- MLP’nin evrensel fonksiyon yaklaştırıcısı olduğunu biliyordum: https://en.wikipedia.org/wiki/Universal_approximation_theorem
Sinir ağlarında tam olarak neyin “bilinmeyen” olduğunu açıklayabilir misin?
Onu biz yaptık; nelerden oluştuğunu ve nasıl çalıştığını da biliyoruz.
Bu “çok katmanlı algılayıcı”daki düğümler arasındaki tüm bağlantıları tek tek eşleyemeyebiliriz, ama bu bağlantıların nasıl oluştuğunu bilmiyor muyuz?
- GPT-4o gibi güncel LLM’ler b64 ile kodlanmış metni temelde anlayabiliyor.
  Bizim de b64 metni decode ve encode eden algoritmalarımız var, ama GPT-4o o algoritmayı aynen mi yürütüyor?
  Eğitim o algoritmayı mı öğrendi? Açıkça hayır, ya da en azından tamamen değil.
  Çünkü bizim algoritmamız açısından özgün anlamın çıkarılmasını imkânsız hâle getirecek b64 yazım hataları bile 4o için neredeyse sorun olmuyor.
  O hâlde b64’ü nasıl decode ediyor? Bilmiyoruz.
  Biz sinir ağlarını gerçekten “yapmıyoruz”; mimariyi kurup eğitiyoruz.
  Eğitim verisini sağlamak dışında ne öğreneceği insanın doğrudan kontrolünün dışında.
  Önemsiz oyuncak örnekler dışında ne öğrendiği büyük ölçüde bilinmiyor.
  Bağlantıların oluştuğunu biliyoruz, ağırlıkları görebiliyoruz, matris çarpımlarını da görebiliyoruz.
  Ama bu hesaplamaların ne yaptığını, ne anlama geldiğini bilmiyoruz.
  Bir uzaylının C kodunun çalışmasını görebilmesi, o kodu anladığı anlamına gelir mi?
- Her bağlantının ne anlama geldiğini, her ağırlığın içinde hangi bilginin kodlandığını bilmiyoruz.
  Milyonlarca ila trilyonlarca ağırlığın her birini değiştirince davranışın nasıl değişeceğini de bilmiyoruz.
  Bir sözlükle karşılaştırırsak, sözlükte her sayfada ve her satırda hangi bilginin olduğu açıktır.
- Ayrıntıları biraz atlayacak olursak, model girdiye birçok yüksek boyutlu fonksiyon uygular ve bu fonksiyonların sorunu neden çözdüğüne dair gerekçeyi bilmiyoruz.
  Ağırlıkların boyutunu insanların okuyabileceği değerlere indirmek önemsiz bir iş değildir; birden fazla nöron da öngörmesi zor biçimlerde etkileşir.
  Yorumlanabilirlik araştırmaları çok sayıda yararlı sonuç ve güzel görselleştirme[1][2] üretti; Transformer’ı anlamaya yönelik çabalar[3][4] da çok, ancak bugün kullanılan büyük modelleri tamamen açıklamaktan hâlâ uzağız.
  [1] - https://distill.pub/2018/building-blocks/
  [2] - https://distill.pub/2019/activation-atlas/
  [3] - https://transformer-circuits.pub/
  [4] - https://arxiv.org/pdf/2407.02646
- LLM beyin değildir, ama beyin yararlı bir benzetmedir.
  Tüm nöronlarımıza bakmak nasıl nasıl düşündüğümüzü bütünüyle anlamamızı sağlamıyorsa, LLM de tek tek bileşenlerin analiziyle anlaşılamaz.
  LLM’i çözmek muhtemelen beyinden daha kolaydır, ama bu kolay olduğu anlamına gelmez.
- Bağlantıların nasıl oluştuğunu ve nasıl oluşturulacağını biliyoruz.
  Ancak neden bu belirli oluşum biçiminin eldeki problemi çözdüğünü bilmiyoruz.
  Artık bu ifade bile tam olarak doğru değil.
  Çünkü kara kutunun içinde neler olup bittiğine dair çok sayıda araştırma yürütülüyor.
  Sorun, bunun hiçbir zaman tamamen kara kutu olmamış olmasında. İçini her zaman görebiliyorduk, ama anlamak zordu.
  KAN bunun bir kısmını matematiksel formülasyona taşımaya yardımcı oluyor; veriye ilişkin aktivasyon haritaları çıkarmak da benzer biçimde içgörü sağlıyor.

Kolmogorov-Arnold ağıyla sinir ağlarını daha anlaşılır hale getirme olasılığı

MLP kara kutusu ve KAN’ın ortaya çıkışı

KAN’ın fonksiyon uydurma yöntemi

1957 teoremi ve 35 yıllık kuşkuculuk

2 katmandan çok katmanlı KAN’a geçiş

Gerçek problemlerde ortaya çıkan yorumlanabilirlik

Düğüm teorisi

Anderson localization

Sonraki çalışmalar ve KAN 2.0

Uygulama odaklılıktan anlama odaklılığa

İlgili okumalar

1 yorum

Hacker News yorumları