- Doğrusal en küçük kareler regresyon doğrusunun basit test verilerinde gerçekte olduğundan daha eğimli görünmesinin nedeni, veri üretim sürecinin özellikleridir
- Regresyon modeli, hata teriminin X'ten bağımsız olduğu varsayımı altında ( Y = \beta_0 + \beta_1 X + \varepsilon ) biçimini izler
- Hata varyansı büyüdükçe verinin dikey yöndeki varyansı artar ve PCA'nın ana bileşen yönü giderek dikeye yaklaşır
- Buna karşılık X'in varyansı hatadan çok daha büyük olduğunda, PCA ile OLS regresyon doğrusu neredeyse çakışır
- Bu farkın nedeni, PCA ile OLS'nin farklı amaçlara sahip olmasıdır (varyansı maksimize etme vs. hatayı minimize etme); bu yüzden verinin dağılım biçimine göre görsel olarak farklı sonuçlar ortaya çıkar
Regresyon modeli ve veri üretim süreci
- Basit OLS (en küçük kareler yöntemi), ( Y = \beta_0 + \beta_1 X + \varepsilon ) biçimindedir ve X ile hata terimi (\varepsilon)'nin bağımsız olduğu varsayımına dayanır
- Hata terimi 0 olduğunda tüm noktalar regresyon doğrusu üzerinde yer alır ve PCA'nın ana bileşen yönü regresyon doğrusu ile aynıdır
- Hata eklendiğinde varyans dikey yönde artar ve PCA bu varyansı yansıtarak eğimi daha dik olan yönü ana bileşen olarak seçer
Hata varyansının baskın olduğu durum
- ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) ilişkisinde
( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ) ise değişimin büyük kısmı dikey yönde yoğunlaşır
- Bu durumda PCA'nın ana bileşen yönü neredeyse dikeye yaklaşır, yani regresyon doğrusundan daha dik görünür
- Tersine, ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ) ise PCA ile OLS neredeyse aynı olur
Kovaryans elipsi ve dağılım biçimi
- Kovaryans elipsi (covariance ellipse), yalnızca ( (X, Y) ) ortak normal dağılım izlediğinde verinin biçimini iyi temsil eder
- X'in dağılımı ikili, uniform, iki tepeli (bimodal), üçgensel vb. şekillerde değişse bile
X'in varyansı büyükse PCA ile regresyon doğrusu örtüşür, hata büyükse PCA dikey yöne kayar
- Elips verinin yönlülüğünü gösterir, ancak yoğunluğu veya gerçek dağılım biçimini tam olarak ifade etmez
X'in niteliği ve modelleme açısından dikkate alınacaklar
- Koddaki
make_y_from_x fonksiyonu, OLS varsayımlarına uygun olacak şekilde Y'yi X'in doğrusal fonksiyonu ve IID Gaussian gürültü ile üretir
- X'in mutlaka bir rassal değişken olması gerekmez; deney tasarımına göre sabit değerler de olabilir
- Kovaryans elipsi X ve Y'yi simetrik biçimde ele alır, ancak gerçek veri üretim süreci asimetriktir
Temel özet
- ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA ile OLS örtüşür
- ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA dikey yöne kayar
- X'in mutlaka rassal değişken olması veya normal dağılım izlemesi gerekmez
- PCA varyansın yönüne, OLS ise tahmin hatasını en aza indirmeye odaklandığı için sonuçlar farklı görünür
1 yorum
Hacker News yorumları
Buna karşılık, görsel olarak hem X hem de Y'de gürültü olduğunu kabul eden yaklaşım Total Least Squares(TLS) olarak adlandırılır
Bu yüzden genel olarak Deming regresyonunu daha çok tercih ettiklerini öğretmişti (Deming regression)
Örneğin 1kHz ile örnekleme yapan bir sensörde, MCU'nun clock jitter'ından ziyade sensörün kendi gürültüsü çok daha baskındır
x varyansı çok küçükse delta büyür ve bu da koşul sayısı kötü bir modele yol açabilir
Örneğin analog-dijital dönüştürücülerde zaman kuvars osilatörle kararlıdır, ama ölçüm değeri öyle değildir
Hata dağılımı farklıysa başka kayıp fonksiyonları daha uygun olabilir
Örneğin Huber loss, küçük hatalarda karesel, büyük hatalarda doğrusal davranarak aykırı değerlere karşı dayanıklıdır
Ayrıntılı formüller için Boyd & Vandenberghe'nin Convex Optimization kitabında 352–353. sayfalara bakılabilir
Ayrıca ANOVA Pisagor teoremine dayandığı için kare terimleri zorunludur
Gauss–Markov teoremi de bu tahmin edicinin yansız ve minimum varyanslı olduğunu garanti eder
1'den küçük üsler, tek bir büyük hatayı birçok küçük hataya tercih eden tuhaf özelliklere sahiptir
Buna karşılık kare hem matematiksel olarak ele alması kolaydır hem de basit doğrusal regresyonun sayısal özellikleri iyidir
4. kuvvet ve üzerindeki yüksek dereceli terimlerde çok sayıda yerel optimum vardır ve türev alma karmaşıklaştığı için hesaplama basitliği azalır
Yeni bir bakış açısı getirmek kolay değil
Sadece matematiksel bir gözlem olarak ilginç denebilir
İlki Y ekseni yönündeki uzaklıkların kareleri toplamını, ikincisi ise doğruya olan dik uzaklıkların kareleri toplamını minimize eder
Bunu derste fark edip şaşırmıştım. Belki normalizasyon çözer diye düşünmüştüm
Doğru eğimi doğrulamak için belirli bir x değerinde artıkların (residual) iki tarafa dengeli dağılıp dağılmadığına bakmak gerekir
Örneğin y = 1.5x + noise ile veri üretirseniz, regresyon doğrusu 1.5 eğimini iyi geri kazanır ama görsel olarak tuhaf görünebilir
StackExchange'deki soru ise X'te hata olmasa bile regresyon doğrusunun neden 3σ elipsinin ekseniyle çakışmadığını soruyor
Bu yanıt, X hatasının 0 olduğu bir örnek gösteriyor