30 puan yazan GN⁺ 2025-03-18 | 1 yorum | WhatsApp'ta paylaş
  • Derin öğrenme modellerindeki genelleme (generalization) olgusunun mevcut modellerden farklı ve gizemli olduğuna dair bir algı var
  • Aşırı uyum (overfitting), double descent, aşırı parametreleştirme (overparametrization) gibi olgular derin öğrenmenin özellikleri olarak sıkça anılıyor
  • Ancak bu olgular yalnızca sinir ağlarına özgü değil; PAC-Bayes ve sayılabilir hipotez sınırları gibi eski genelleme çerçeveleriyle açıklanabiliyor
  • "Yumuşak tümevarımsal önyargılar (soft inductive biases)" kavramı, bu genelleme olgularını açıklayan temel ilke

Yumuşak Tümevarımsal Önyargılar (Soft Inductive Biases)

  • Klasik tümevarımsal önyargılar, genelleme performansını artırmak için hipotez uzayını kısıtlama yoluna gider
  • Yumuşak tümevarımsal önyargılar ise hipotez uzayının esnekliğini korurken belirli çözümlere tercih atar
  • CNN'lerde parametre paylaşımıyla yerellik ve öteleme değişmezliğinin korunması gibi, belirli özelliklere yumuşak düzenlileştirme ekler
  • Aşırı parametreleştirilmiş modellerin bile iyi genelleme göstermesinin nedeni, yumuşak tümevarımsal önyargıların işlemesidir

Genelleme Çerçeveleri (Generalization Frameworks)

PAC-Bayes ve Sayılabilir Hipotez Sınırları

  • PAC-Bayes, genelleme riskini deneysel risk ve modelin sıkıştırılabilirliği (compressibility) üzerinden açıklar
  • Büyük bir model bile basit ve sıkıştırılabilir ise iyi genelleme performansı garanti edilebilir
  • Formül:
    • Beklenen risk ≤ deneysel risk + sıkıştırılabilirlikle ilgili terim

Etkin Boyutsallık (Effective Dimensionality)

  • Etkin boyutsallık = modelin kayıp fonksiyonu Hessian'ının büyük özdeğerlerinin sayısı
  • Etkin boyutsallık ne kadar düşükse model o kadar basit olur ve genelleme performansı o kadar iyi olur

Diğer Genelleme Çerçeveleri

  • Rademacher karmaşıklığı (Rademacher complexity), VC boyutu gibi yaklaşımlar derin öğrenme olgularını iyi açıklayamaz
  • PAC-Bayes ve sayılabilir hipotez sınırları bu sorunu çözebilir

Başlıca Olgular

Benign Overfitting

  • Modelin gürültüyü bile kusursuz biçimde öğrenmesine rağmen genelleme performansının iyi kalması olgusu
  • Benign overfitting, basit doğrusal modellerle de yeniden üretilebilir
  • PAC-Bayes ve sayılabilir hipotez sınırlarıyla açıklanabilir

Aşırı Parametreleştirme (Overparametrization)

  • Parametre sayısı veri sayısından fazla olsa bile modelin genelleme performansı yüksektir
  • Büyük modeller eğitimden sonra daha basit yapılara sıkıştırılabildiği için iyi genelleme gösterir

Double Descent

  • Model karmaşıklığı arttıkça kaybın önce azalıp sonra artması ve ardından yeniden azalması olgusu
  • Doğrusal modellerde de yeniden üretilebilir
  • Etkin boyutsallık ve modelin sıkıştırılabilirliği ile açıklanabilir

Alternatif Bakış Açısı (Alternative Views)

  • Derin öğrenmenin genellemesinin gizemli olduğu yönündeki geleneksel bakış, sınırlı genelleme çerçevelerine dayanıyor
  • PAC-Bayes ve sayılabilir hipotez sınırları sayesinde genelleme olguları açıklanabiliyor
  • Derin öğrenme genellemesinin gizemli olduğu algısı, yanlış bir önyargı olabilir

Derin Öğrenmenin Ayırt Edici Unsurları (Distinctive Features of Deep Learning)

Temsil Öğrenimi (Representation Learning)

  • Sinir ağları verideki benzerlikleri öğrenme yeteneğine sahiptir
  • Yüksek boyutlu veride Öklid mesafesinden daha iyi benzerlik ölçümleri mümkün olabilir
  • Yüksek boyutlarda interpolation ve extrapolation için avantaj sağlar

Evrensel Öğrenme (Universal Learning)

  • Derin öğrenme modelleri farklı alanlarda tutarlı biçimde iyi performans gösterir
  • Transfer learning ve in-context learning senaryolarında üstün performans sergiler

Mod Bağlanabilirliği (Mode Connectivity)

  • Farklı başlangıçlarla eğitilen modeller basit eğriler boyunca birbirine bağlanabilir
  • SWA (Stochastic Weight Averaging) gibi eğitim tekniklerinde kullanılır

Sonuç ve Perspektif

  • Benign overfitting, aşırı parametreleştirme ve double descent yalnızca sinir ağlarına özgü olgular değildir
  • PAC-Bayes ve sayılabilir hipotez sınırlarıyla açıklanabilirler
  • Derin öğrenme; temsil öğrenimi, evrensel öğrenme ve mod bağlanabilirliği gibi özelliklerde farklılaşır
  • Genelleme performansı, modelin karmaşıklığından değil, sıkıştırılabilirliği ve sadeliğinden kaynaklanır

1 yorum

 
GN⁺ 2025-03-18
Hacker News görüşleri
  • Makine öğrenmesiyle ilgileniyorsanız, Stanford'un "Probability for computer scientists" dersi harika bir kaynaktır

    • Bu ders, olasılık teorisini ve makine öğrenmesinin teorik temellerini derinlemesine ele alır
    • Andrew Ng'nin dersleri de ünlüdür, ancak lineer cebir konusunda matematiksel bir anlayış gerektirir
    • Derin öğrenme için 3b1b'nin görsel anlatımı faydalıdır
  • PAC-Bayes veya VC teorisinin devamcılarından ziyade, algoritmik kararlılık daha ikna edici bir açıklama sunar

    • İlgili materyaller arXiv'deki makalelerde bulunabilir
  • Makine öğrenmesini anlamak istiyorsanız, Josh Starmer'ın "The StatQuest Illustrated Guide to Machine Learning" kitabını tavsiye ederim

    • Karmaşık fikirleri açık ve özlü biçimde ifade eden mükemmel bir eğitmendir
    • Çocuk kitabı benzeri formatı sayesinde kolayca okunup anlaşılabilir
    • Yakın zamanda yayımlanan sinir ağlarıyla ilgili kitabı da tavsiye edilir
  • DNN'lerin özel bir genelleme yeteneği yoktur

    • Hatta SVM gibi matematiksel olarak daha ilkesel tekniklere göre genelleme açısından daha zayıf olabilirler
    • UCI Machine Learning Repository'deki "Wine Quality" veri setiyle bir DNN eğitildiğinde kötü sonuçlar ve aşırı uyum ortaya çıkar
    • LLM'lerin "büyüsü" eğitim paradigmasından gelir
    • Devasa veri setleri kullanarak, aşırı uyum olmadan çok büyük modeller kullanılabilir
    • 10 yıl önce "yeniden kullanılabilirlik" ilkesinin ne olduğu net değildi
  • Aşırı uyumdan kaçınmak için hipotez uzayını sınırlamak yerine, esnek bir hipotez uzayını kabul etmek ve verilerle uyumlu basit çözümleri tercih etmek önemlidir

    • Derin öğrenmenin bunu nasıl yaptığına dair bir soru vardır
    • Geçmişte ceza terimi eklenen olabilirlik yaklaşımı kullanılırdı
    • Derin öğrenmede karmaşıklığı cezalandırma biçiminin daha karmaşık ve daha az sezgisel olduğuna dair bir izlenim vardı
  • Derin öğrenmeye ilk başladığımda, evrensel yaklaşım teoreminin ispatını öğrenmek büyük fayda sağlamıştı

    • Sinir ağlarının fonksiyonları neden yaklaşık olarak ifade edebildiğini anlarsanız, bunun üzerine inşa edilen her şeyi anlamak kolaylaşır
  • "Derin" ağların gerekli olduğu ilginç bir örnek, yakın tarihli bir RNN makalesinde tartışılıyor

    • minGRU ve minLSTM modelleri duruma bağlılıkları açıkça modellemiyor, ancak yeterince derin olduklarında bunu öğrenebiliyorlar
  • Metin verisi toplayıp, kelimeler arasındaki mesafeyi depolayarak bir tahmin algoritması oluşturma fikri var

    • Bu yöntemin GPT 2'ye ne kadar yakın olduğunu merak ediyorum
  • Neyin 'AI' olarak tanımlanıp düzenlendiğinin sınırının nerede olduğunu merak ediyorum

  • Yapay nöronlar, lineer regresyona aktivasyon fonksiyonu eklenerek doğrusal olmayan hale getirilmiş biçimlerdir

    • Bunlar ağ halinde birleştirildiğinde ilginç sonuçlar ortaya çıkar