Evrensel Ağırlık Altuzayı Hipotezi

(arxiv.org)

2 puan yazan GN⁺ 2025-12-11 | Henüz yorum yok. | WhatsApp'ta paylaş

Geniş ölçekli deneylerde, farklı veriler ve başlangıç değerleriyle eğitilmiş farklı derin öğrenme modellerinin ortak bir düşük boyutlu parametre altuzayına yakınsadığı doğrulandı
1100'den fazla modeli (500 Mistral-7B LoRA, 500 Vision Transformer, 50 LLaMA-8B vb.) spektrum analizi ettiğimizde, varyansın çoğunun yalnızca az sayıda ana bileşen yönüne yoğunlaştığı görüldü
Bu tür bir Evrensel Altuzay (Universal Subspace), model mimarisine göre oluşur ve veriye veya başlangıca bağlı olmaksızın tekrarlı olarak ortaya çıkar
Bu yapı, model sıkıştırma, parametre verimli öğrenme, model birleştirme, hızlı çıkarım gibi alanlarda büyük potansiyel taşır
Araştırma, sinir ağlarının içsel yapısı ve genelleme yeteneğini yeni bir şekilde anlamamıza dair ipuçları veriyor ve gelecekteki verimli öğrenme algoritmaları tasarımı için önemli bir temel oluşturabilir

Evrensel Altuzayın Keşfi

Çeşitli veri kümeleri, başlangıçlar ve hiperparametrelerle eğitilen derin öğrenme ağlarının ortak bir düşük boyutlu altuzaya yakınsadığı gözlemlendi
- Bu olgu, mimari bazında ve katman bazında benzer düşük-ranklı bir yapı olarak görünüyor
- Eğitim verisi veya kayıp fonksiyonu farklı olsa da aynı yapısal eğilim gözleniyor
Spektrum analizinde, tekil görevlerin ağırlık uzayları farklıymış gibi görünse de aslında bunların paylaşılan bir düşük boyutlu uzayın bir parçası olarak var olduğu görünüyor
Bu sonuçlar, aşırı uydurma yapan modellerin neden genelleştirdiğini, farklı başlangıçların neden benzer temsillere yakınsadığını, parametre verimli ince ayarın neden başarılı olduğunu açıklayabiliyor

Çalışma, 500 Mistral-7B LoRA adaptörü, 500 Vision Transformer ve 50 LLaMA3-8B modelini analiz etti
- Her bir model, farklı veri kümeleri ve başlatma koşullarıyla eğitildi
Temel Bileşen Analizi (PCA) sonuçları, az sayıda temel bileşenin çoğu varyansı açıklamasıyla paylaşılan düşük-ranklı bir altuzayın varlığını işaret ediyor
Özellikle, rastgele başlatılmış 500 ViT modeli bile aynı düşük boyutlu altuzaya yakınsamıştır; bu durum sinir ağlarının temel bir özelliği olarak yorumlanıyor

Çalışma, öngörücüyü Hilbert uzayı üzerinde bir eleman olarak modelleyerek görevler arasında ortak altuzay geri kazanım koşullarını analiz ediyor
Her görevin öngörücüsü f_t^* ile ortak bir ikinci moment operatörü S tanımlanır ve eğitilmiş öngörücülerden elde edilen yaklaşık operatör S_tilde'ın S'ye yakınsadığı kanıtlanır
Teorem 2.5, öğrenilmiş altuzayın gerçek ortak altuzaya yakınsadığını gösterir; yakınsama hızı görev sayısı (T) ve her görevin öngörü doğruluğu (η) ile belirlenir
Özdeğer boşluğu (γₖ) büyüdükçe altuzay geri kazanımı daha istikrarlı olur

Paylaşılan altuzay sayesinde şu uygulamalar mümkün olur
- Tüm ağırlıklar yerine yalnızca altuzay katsayılarını saklayarak model sıkıştırma
- Öğrenilen altuzay içinde yeni görevlere hızlı uyum
- Genelleme sınırları ve optimizasyon peyzajı için teorik içgörüler sağlama
- Eğitim ve çıkarım hesap maliyetinin azaltılmasıyla karbon emisyonunu azaltma
Bu yapı, model yeniden kullanılabilirliği, çok görevli öğrenme, model birleştirme gibi alanlarda da verimliliği artırabilir

Mimari bazında evrensel altuzayın farklılıkları ve bunun geometrik olarak optimize edilebilirliği hâlen çözülmemiş bir alandır
Tüm ağlar aynı altuzaya yakınsamışsa, önyargı ve arıza modlarının paylaşımı nedeniyle çeşitlilik eksikliği yeni bir darboğaz olabilir
İleride bu yakınsamayı bilinçli şekilde dağınık hale getirme yöntemlerinin geliştirilmesi gerekecektir

Derin öğrenme ağlarının parametre uzayında evrensel bir düşük boyutlu altuzayın varlığını deneysel olarak doğrulama
Farklı görev setlerinden yaklaşık paylaşılan altuzay öğrenme yönteminin önerilmesi
Öğrenilmiş altuzayı kullanarak az parametreyle yeni görevlere verimli uyum sağlanabileceğinin doğrulanması
Model sıkıştırma, hızlı öğrenme ve çıkarım, verimli ölçekleme için kullanılabilirliğin gösterilmesi