- Derin öğrenme modellerindeki genelleme (generalization) olgusunun mevcut modellerden farklı ve gizemli olduğuna dair bir algı var
- Aşırı uyum (overfitting), double descent, aşırı parametreleştirme (overparametrization) gibi olgular derin öğrenmenin özellikleri olarak sıkça anılıyor
- Ancak bu olgular yalnızca sinir ağlarına özgü değil; PAC-Bayes ve sayılabilir hipotez sınırları gibi eski genelleme çerçeveleriyle açıklanabiliyor
- "Yumuşak tümevarımsal önyargılar (soft inductive biases)" kavramı, bu genelleme olgularını açıklayan temel ilke
Yumuşak Tümevarımsal Önyargılar (Soft Inductive Biases)
- Klasik tümevarımsal önyargılar, genelleme performansını artırmak için hipotez uzayını kısıtlama yoluna gider
- Yumuşak tümevarımsal önyargılar ise hipotez uzayının esnekliğini korurken belirli çözümlere tercih atar
- CNN'lerde parametre paylaşımıyla yerellik ve öteleme değişmezliğinin korunması gibi, belirli özelliklere yumuşak düzenlileştirme ekler
- Aşırı parametreleştirilmiş modellerin bile iyi genelleme göstermesinin nedeni, yumuşak tümevarımsal önyargıların işlemesidir
Genelleme Çerçeveleri (Generalization Frameworks)
PAC-Bayes ve Sayılabilir Hipotez Sınırları
- PAC-Bayes, genelleme riskini deneysel risk ve modelin sıkıştırılabilirliği (compressibility) üzerinden açıklar
- Büyük bir model bile basit ve sıkıştırılabilir ise iyi genelleme performansı garanti edilebilir
- Formül:
- Beklenen risk ≤ deneysel risk + sıkıştırılabilirlikle ilgili terim
Etkin Boyutsallık (Effective Dimensionality)
- Etkin boyutsallık = modelin kayıp fonksiyonu Hessian'ının büyük özdeğerlerinin sayısı
- Etkin boyutsallık ne kadar düşükse model o kadar basit olur ve genelleme performansı o kadar iyi olur
Diğer Genelleme Çerçeveleri
- Rademacher karmaşıklığı (Rademacher complexity), VC boyutu gibi yaklaşımlar derin öğrenme olgularını iyi açıklayamaz
- PAC-Bayes ve sayılabilir hipotez sınırları bu sorunu çözebilir
Başlıca Olgular
Benign Overfitting
- Modelin gürültüyü bile kusursuz biçimde öğrenmesine rağmen genelleme performansının iyi kalması olgusu
- Benign overfitting, basit doğrusal modellerle de yeniden üretilebilir
- PAC-Bayes ve sayılabilir hipotez sınırlarıyla açıklanabilir
Aşırı Parametreleştirme (Overparametrization)
- Parametre sayısı veri sayısından fazla olsa bile modelin genelleme performansı yüksektir
- Büyük modeller eğitimden sonra daha basit yapılara sıkıştırılabildiği için iyi genelleme gösterir
Double Descent
- Model karmaşıklığı arttıkça kaybın önce azalıp sonra artması ve ardından yeniden azalması olgusu
- Doğrusal modellerde de yeniden üretilebilir
- Etkin boyutsallık ve modelin sıkıştırılabilirliği ile açıklanabilir
Alternatif Bakış Açısı (Alternative Views)
- Derin öğrenmenin genellemesinin gizemli olduğu yönündeki geleneksel bakış, sınırlı genelleme çerçevelerine dayanıyor
- PAC-Bayes ve sayılabilir hipotez sınırları sayesinde genelleme olguları açıklanabiliyor
- Derin öğrenme genellemesinin gizemli olduğu algısı, yanlış bir önyargı olabilir
Derin Öğrenmenin Ayırt Edici Unsurları (Distinctive Features of Deep Learning)
Temsil Öğrenimi (Representation Learning)
- Sinir ağları verideki benzerlikleri öğrenme yeteneğine sahiptir
- Yüksek boyutlu veride Öklid mesafesinden daha iyi benzerlik ölçümleri mümkün olabilir
- Yüksek boyutlarda interpolation ve extrapolation için avantaj sağlar
Evrensel Öğrenme (Universal Learning)
- Derin öğrenme modelleri farklı alanlarda tutarlı biçimde iyi performans gösterir
- Transfer learning ve in-context learning senaryolarında üstün performans sergiler
Mod Bağlanabilirliği (Mode Connectivity)
- Farklı başlangıçlarla eğitilen modeller basit eğriler boyunca birbirine bağlanabilir
- SWA (Stochastic Weight Averaging) gibi eğitim tekniklerinde kullanılır
Sonuç ve Perspektif
- Benign overfitting, aşırı parametreleştirme ve double descent yalnızca sinir ağlarına özgü olgular değildir
- PAC-Bayes ve sayılabilir hipotez sınırlarıyla açıklanabilirler
- Derin öğrenme; temsil öğrenimi, evrensel öğrenme ve mod bağlanabilirliği gibi özelliklerde farklılaşır
- Genelleme performansı, modelin karmaşıklığından değil, sıkıştırılabilirliği ve sadeliğinden kaynaklanır
1 yorum
Hacker News görüşleri
Makine öğrenmesiyle ilgileniyorsanız, Stanford'un "Probability for computer scientists" dersi harika bir kaynaktır
PAC-Bayes veya VC teorisinin devamcılarından ziyade, algoritmik kararlılık daha ikna edici bir açıklama sunar
Makine öğrenmesini anlamak istiyorsanız, Josh Starmer'ın "The StatQuest Illustrated Guide to Machine Learning" kitabını tavsiye ederim
DNN'lerin özel bir genelleme yeteneği yoktur
Aşırı uyumdan kaçınmak için hipotez uzayını sınırlamak yerine, esnek bir hipotez uzayını kabul etmek ve verilerle uyumlu basit çözümleri tercih etmek önemlidir
Derin öğrenmeye ilk başladığımda, evrensel yaklaşım teoreminin ispatını öğrenmek büyük fayda sağlamıştı
"Derin" ağların gerekli olduğu ilginç bir örnek, yakın tarihli bir RNN makalesinde tartışılıyor
Metin verisi toplayıp, kelimeler arasındaki mesafeyi depolayarak bir tahmin algoritması oluşturma fikri var
Neyin 'AI' olarak tanımlanıp düzenlendiğinin sınırının nerede olduğunu merak ediyorum
Yapay nöronlar, lineer regresyona aktivasyon fonksiyonu eklenerek doğrusal olmayan hale getirilmiş biçimlerdir