- Geniş ölçekli deneylerde, farklı veriler ve başlangıç değerleriyle eğitilmiş farklı derin öğrenme modellerinin ortak bir düşük boyutlu parametre altuzayına yakınsadığı doğrulandı
- 1100'den fazla modeli (500 Mistral-7B LoRA, 500 Vision Transformer, 50 LLaMA-8B vb.) spektrum analizi ettiğimizde, varyansın çoğunun yalnızca az sayıda ana bileşen yönüne yoğunlaştığı görüldü
- Bu tür bir Evrensel Altuzay (Universal Subspace), model mimarisine göre oluşur ve veriye veya başlangıca bağlı olmaksızın tekrarlı olarak ortaya çıkar
- Bu yapı, model sıkıştırma, parametre verimli öğrenme, model birleştirme, hızlı çıkarım gibi alanlarda büyük potansiyel taşır
- Araştırma, sinir ağlarının içsel yapısı ve genelleme yeteneğini yeni bir şekilde anlamamıza dair ipuçları veriyor ve gelecekteki verimli öğrenme algoritmaları tasarımı için önemli bir temel oluşturabilir
Evrensel Altuzayın Keşfi
- Çeşitli veri kümeleri, başlangıçlar ve hiperparametrelerle eğitilen derin öğrenme ağlarının ortak bir düşük boyutlu altuzaya yakınsadığı gözlemlendi
- Bu olgu, mimari bazında ve katman bazında benzer düşük-ranklı bir yapı olarak görünüyor
- Eğitim verisi veya kayıp fonksiyonu farklı olsa da aynı yapısal eğilim gözleniyor
- Spektrum analizinde, tekil görevlerin ağırlık uzayları farklıymış gibi görünse de aslında bunların paylaşılan bir düşük boyutlu uzayın bir parçası olarak var olduğu görünüyor
- Bu sonuçlar, aşırı uydurma yapan modellerin neden genelleştirdiğini, farklı başlangıçların neden benzer temsillere yakınsadığını, parametre verimli ince ayarın neden başarılı olduğunu açıklayabiliyor
Büyük Ölçekli Deney ve Analiz
- Çalışma, 500 Mistral-7B LoRA adaptörü, 500 Vision Transformer ve 50 LLaMA3-8B modelini analiz etti
- Her bir model, farklı veri kümeleri ve başlatma koşullarıyla eğitildi
- Temel Bileşen Analizi (PCA) sonuçları, az sayıda temel bileşenin çoğu varyansı açıklamasıyla paylaşılan düşük-ranklı bir altuzayın varlığını işaret ediyor
- Özellikle, rastgele başlatılmış 500 ViT modeli bile aynı düşük boyutlu altuzaya yakınsamıştır; bu durum sinir ağlarının temel bir özelliği olarak yorumlanıyor
Teorik Modelleme ve Matematiksel Formülasyon
- Çalışma, öngörücüyü Hilbert uzayı üzerinde bir eleman olarak modelleyerek görevler arasında ortak altuzay geri kazanım koşullarını analiz ediyor
- Her görevin öngörücüsü f_t^* ile ortak bir ikinci moment operatörü S tanımlanır ve eğitilmiş öngörücülerden elde edilen yaklaşık operatör S_tilde'ın S'ye yakınsadığı kanıtlanır
- Teorem 2.5, öğrenilmiş altuzayın gerçek ortak altuzaya yakınsadığını gösterir; yakınsama hızı görev sayısı (T) ve her görevin öngörü doğruluğu (η) ile belirlenir
- Özdeğer boşluğu (γₖ) büyüdükçe altuzay geri kazanımı daha istikrarlı olur
Uygulama Potansiyeli ve Etki
- Paylaşılan altuzay sayesinde şu uygulamalar mümkün olur
- Tüm ağırlıklar yerine yalnızca altuzay katsayılarını saklayarak model sıkıştırma
- Öğrenilen altuzay içinde yeni görevlere hızlı uyum
- Genelleme sınırları ve optimizasyon peyzajı için teorik içgörüler sağlama
- Eğitim ve çıkarım hesap maliyetinin azaltılmasıyla karbon emisyonunu azaltma
- Bu yapı, model yeniden kullanılabilirliği, çok görevli öğrenme, model birleştirme gibi alanlarda da verimliliği artırabilir
Gelecek Araştırma Konuları
- Mimari bazında evrensel altuzayın farklılıkları ve bunun geometrik olarak optimize edilebilirliği hâlen çözülmemiş bir alandır
- Tüm ağlar aynı altuzaya yakınsamışsa, önyargı ve arıza modlarının paylaşımı nedeniyle çeşitlilik eksikliği yeni bir darboğaz olabilir
- İleride bu yakınsamayı bilinçli şekilde dağınık hale getirme yöntemlerinin geliştirilmesi gerekecektir
Başlıca Katkılar
- Derin öğrenme ağlarının parametre uzayında evrensel bir düşük boyutlu altuzayın varlığını deneysel olarak doğrulama
- Farklı görev setlerinden yaklaşık paylaşılan altuzay öğrenme yönteminin önerilmesi
- Öğrenilmiş altuzayı kullanarak az parametreyle yeni görevlere verimli uyum sağlanabileceğinin doğrulanması
- Model sıkıştırma, hızlı öğrenme ve çıkarım, verimli ölçekleme için kullanılabilirliğin gösterilmesi
Henüz yorum yok.