Derin öğrenme o kadar gizemli ya da farklı değil

(arxiv.org)

30 puan yazan GN⁺ 2025-03-18 | 1 yorum | WhatsApp'ta paylaş

Derin öğrenme modellerindeki genelleme (generalization) olgusunun mevcut modellerden farklı ve gizemli olduğuna dair bir algı var
Aşırı uyum (overfitting), double descent, aşırı parametreleştirme (overparametrization) gibi olgular derin öğrenmenin özellikleri olarak sıkça anılıyor
Ancak bu olgular yalnızca sinir ağlarına özgü değil; PAC-Bayes ve sayılabilir hipotez sınırları gibi eski genelleme çerçeveleriyle açıklanabiliyor
"Yumuşak tümevarımsal önyargılar (soft inductive biases)" kavramı, bu genelleme olgularını açıklayan temel ilke

Yumuşak Tümevarımsal Önyargılar (Soft Inductive Biases)

Klasik tümevarımsal önyargılar, genelleme performansını artırmak için hipotez uzayını kısıtlama yoluna gider
Yumuşak tümevarımsal önyargılar ise hipotez uzayının esnekliğini korurken belirli çözümlere tercih atar
CNN'lerde parametre paylaşımıyla yerellik ve öteleme değişmezliğinin korunması gibi, belirli özelliklere yumuşak düzenlileştirme ekler
Aşırı parametreleştirilmiş modellerin bile iyi genelleme göstermesinin nedeni, yumuşak tümevarımsal önyargıların işlemesidir

Genelleme Çerçeveleri (Generalization Frameworks)

PAC-Bayes ve Sayılabilir Hipotez Sınırları

PAC-Bayes, genelleme riskini deneysel risk ve modelin sıkıştırılabilirliği (compressibility) üzerinden açıklar
Büyük bir model bile basit ve sıkıştırılabilir ise iyi genelleme performansı garanti edilebilir
Formül:
- Beklenen risk ≤ deneysel risk + sıkıştırılabilirlikle ilgili terim

Etkin Boyutsallık (Effective Dimensionality)

Etkin boyutsallık = modelin kayıp fonksiyonu Hessian'ının büyük özdeğerlerinin sayısı
Etkin boyutsallık ne kadar düşükse model o kadar basit olur ve genelleme performansı o kadar iyi olur

Diğer Genelleme Çerçeveleri

Rademacher karmaşıklığı (Rademacher complexity), VC boyutu gibi yaklaşımlar derin öğrenme olgularını iyi açıklayamaz
PAC-Bayes ve sayılabilir hipotez sınırları bu sorunu çözebilir

Başlıca Olgular

Benign Overfitting

Modelin gürültüyü bile kusursuz biçimde öğrenmesine rağmen genelleme performansının iyi kalması olgusu
Benign overfitting, basit doğrusal modellerle de yeniden üretilebilir
PAC-Bayes ve sayılabilir hipotez sınırlarıyla açıklanabilir

Aşırı Parametreleştirme (Overparametrization)

Parametre sayısı veri sayısından fazla olsa bile modelin genelleme performansı yüksektir
Büyük modeller eğitimden sonra daha basit yapılara sıkıştırılabildiği için iyi genelleme gösterir

Double Descent

Model karmaşıklığı arttıkça kaybın önce azalıp sonra artması ve ardından yeniden azalması olgusu
Doğrusal modellerde de yeniden üretilebilir
Etkin boyutsallık ve modelin sıkıştırılabilirliği ile açıklanabilir

Alternatif Bakış Açısı (Alternative Views)

Derin öğrenmenin genellemesinin gizemli olduğu yönündeki geleneksel bakış, sınırlı genelleme çerçevelerine dayanıyor
PAC-Bayes ve sayılabilir hipotez sınırları sayesinde genelleme olguları açıklanabiliyor
Derin öğrenme genellemesinin gizemli olduğu algısı, yanlış bir önyargı olabilir

Derin Öğrenmenin Ayırt Edici Unsurları (Distinctive Features of Deep Learning)

Temsil Öğrenimi (Representation Learning)

Sinir ağları verideki benzerlikleri öğrenme yeteneğine sahiptir
Yüksek boyutlu veride Öklid mesafesinden daha iyi benzerlik ölçümleri mümkün olabilir
Yüksek boyutlarda interpolation ve extrapolation için avantaj sağlar

Evrensel Öğrenme (Universal Learning)

Derin öğrenme modelleri farklı alanlarda tutarlı biçimde iyi performans gösterir
Transfer learning ve in-context learning senaryolarında üstün performans sergiler

Mod Bağlanabilirliği (Mode Connectivity)

Farklı başlangıçlarla eğitilen modeller basit eğriler boyunca birbirine bağlanabilir
SWA (Stochastic Weight Averaging) gibi eğitim tekniklerinde kullanılır

Sonuç ve Perspektif

Benign overfitting, aşırı parametreleştirme ve double descent yalnızca sinir ağlarına özgü olgular değildir
PAC-Bayes ve sayılabilir hipotez sınırlarıyla açıklanabilirler
Derin öğrenme; temsil öğrenimi, evrensel öğrenme ve mod bağlanabilirliği gibi özelliklerde farklılaşır
Genelleme performansı, modelin karmaşıklığından değil, sıkıştırılabilirliği ve sadeliğinden kaynaklanır

1 yorum

GN⁺ 2025-03-18

Hacker News görüşleri

Makine öğrenmesiyle ilgileniyorsanız, Stanford'un "Probability for computer scientists" dersi harika bir kaynaktır
- Bu ders, olasılık teorisini ve makine öğrenmesinin teorik temellerini derinlemesine ele alır
- Andrew Ng'nin dersleri de ünlüdür, ancak lineer cebir konusunda matematiksel bir anlayış gerektirir
- Derin öğrenme için 3b1b'nin görsel anlatımı faydalıdır
PAC-Bayes veya VC teorisinin devamcılarından ziyade, algoritmik kararlılık daha ikna edici bir açıklama sunar
- İlgili materyaller arXiv'deki makalelerde bulunabilir
Makine öğrenmesini anlamak istiyorsanız, Josh Starmer'ın "The StatQuest Illustrated Guide to Machine Learning" kitabını tavsiye ederim
- Karmaşık fikirleri açık ve özlü biçimde ifade eden mükemmel bir eğitmendir
- Çocuk kitabı benzeri formatı sayesinde kolayca okunup anlaşılabilir
- Yakın zamanda yayımlanan sinir ağlarıyla ilgili kitabı da tavsiye edilir
DNN'lerin özel bir genelleme yeteneği yoktur
- Hatta SVM gibi matematiksel olarak daha ilkesel tekniklere göre genelleme açısından daha zayıf olabilirler
- UCI Machine Learning Repository'deki "Wine Quality" veri setiyle bir DNN eğitildiğinde kötü sonuçlar ve aşırı uyum ortaya çıkar
- LLM'lerin "büyüsü" eğitim paradigmasından gelir
- Devasa veri setleri kullanarak, aşırı uyum olmadan çok büyük modeller kullanılabilir
- 10 yıl önce "yeniden kullanılabilirlik" ilkesinin ne olduğu net değildi
Aşırı uyumdan kaçınmak için hipotez uzayını sınırlamak yerine, esnek bir hipotez uzayını kabul etmek ve verilerle uyumlu basit çözümleri tercih etmek önemlidir
- Derin öğrenmenin bunu nasıl yaptığına dair bir soru vardır
- Geçmişte ceza terimi eklenen olabilirlik yaklaşımı kullanılırdı
- Derin öğrenmede karmaşıklığı cezalandırma biçiminin daha karmaşık ve daha az sezgisel olduğuna dair bir izlenim vardı
Derin öğrenmeye ilk başladığımda, evrensel yaklaşım teoreminin ispatını öğrenmek büyük fayda sağlamıştı
- Sinir ağlarının fonksiyonları neden yaklaşık olarak ifade edebildiğini anlarsanız, bunun üzerine inşa edilen her şeyi anlamak kolaylaşır
"Derin" ağların gerekli olduğu ilginç bir örnek, yakın tarihli bir RNN makalesinde tartışılıyor
- minGRU ve minLSTM modelleri duruma bağlılıkları açıkça modellemiyor, ancak yeterince derin olduklarında bunu öğrenebiliyorlar
Metin verisi toplayıp, kelimeler arasındaki mesafeyi depolayarak bir tahmin algoritması oluşturma fikri var
- Bu yöntemin GPT 2'ye ne kadar yakın olduğunu merak ediyorum
Neyin 'AI' olarak tanımlanıp düzenlendiğinin sınırının nerede olduğunu merak ediyorum
Yapay nöronlar, lineer regresyona aktivasyon fonksiyonu eklenerek doğrusal olmayan hale getirilmiş biçimlerdir
- Bunlar ağ halinde birleştirildiğinde ilginç sonuçlar ortaya çıkar

Derin öğrenme o kadar gizemli ya da farklı değil

Yumuşak Tümevarımsal Önyargılar (Soft Inductive Biases)

Genelleme Çerçeveleri (Generalization Frameworks)

PAC-Bayes ve Sayılabilir Hipotez Sınırları

Etkin Boyutsallık (Effective Dimensionality)

Diğer Genelleme Çerçeveleri

Başlıca Olgular

Benign Overfitting

Aşırı Parametreleştirme (Overparametrization)

Double Descent

Alternatif Bakış Açısı (Alternative Views)

Derin Öğrenmenin Ayırt Edici Unsurları (Distinctive Features of Deep Learning)

Temsil Öğrenimi (Representation Learning)

Evrensel Öğrenme (Universal Learning)

Mod Bağlanabilirliği (Mode Connectivity)

Sonuç ve Perspektif

İlgili okumalar

1 yorum

Hacker News görüşleri