Basit verilere en küçük kareler uyumu uygulandığında neden yanlı gibi görünür

(stats.stackexchange.com)

1 puan yazan GN⁺ 2026-01-06 | 1 yorum | WhatsApp'ta paylaş

Doğrusal en küçük kareler regresyon doğrusunun basit test verilerinde gerçekte olduğundan daha eğimli görünmesinin nedeni, veri üretim sürecinin özellikleridir
Regresyon modeli, hata teriminin X'ten bağımsız olduğu varsayımı altında ( Y = \beta_0 + \beta_1 X + \varepsilon ) biçimini izler
Hata varyansı büyüdükçe verinin dikey yöndeki varyansı artar ve PCA'nın ana bileşen yönü giderek dikeye yaklaşır
Buna karşılık X'in varyansı hatadan çok daha büyük olduğunda, PCA ile OLS regresyon doğrusu neredeyse çakışır
Bu farkın nedeni, PCA ile OLS'nin farklı amaçlara sahip olmasıdır (varyansı maksimize etme vs. hatayı minimize etme); bu yüzden verinin dağılım biçimine göre görsel olarak farklı sonuçlar ortaya çıkar

Regresyon modeli ve veri üretim süreci

Basit OLS (en küçük kareler yöntemi), ( Y = \beta_0 + \beta_1 X + \varepsilon ) biçimindedir ve X ile hata terimi (\varepsilon)'nin bağımsız olduğu varsayımına dayanır
Hata terimi 0 olduğunda tüm noktalar regresyon doğrusu üzerinde yer alır ve PCA'nın ana bileşen yönü regresyon doğrusu ile aynıdır
Hata eklendiğinde varyans dikey yönde artar ve PCA bu varyansı yansıtarak eğimi daha dik olan yönü ana bileşen olarak seçer

Hata varyansının baskın olduğu durum

( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) ilişkisinde
( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ) ise değişimin büyük kısmı dikey yönde yoğunlaşır
Bu durumda PCA'nın ana bileşen yönü neredeyse dikeye yaklaşır, yani regresyon doğrusundan daha dik görünür
Tersine, ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ) ise PCA ile OLS neredeyse aynı olur

Kovaryans elipsi ve dağılım biçimi

Kovaryans elipsi (covariance ellipse), yalnızca ( (X, Y) ) ortak normal dağılım izlediğinde verinin biçimini iyi temsil eder
X'in dağılımı ikili, uniform, iki tepeli (bimodal), üçgensel vb. şekillerde değişse bile
X'in varyansı büyükse PCA ile regresyon doğrusu örtüşür, hata büyükse PCA dikey yöne kayar
Elips verinin yönlülüğünü gösterir, ancak yoğunluğu veya gerçek dağılım biçimini tam olarak ifade etmez

X'in niteliği ve modelleme açısından dikkate alınacaklar

Koddaki make_y_from_x fonksiyonu, OLS varsayımlarına uygun olacak şekilde Y'yi X'in doğrusal fonksiyonu ve IID Gaussian gürültü ile üretir
X'in mutlaka bir rassal değişken olması gerekmez; deney tasarımına göre sabit değerler de olabilir
Kovaryans elipsi X ve Y'yi simetrik biçimde ele alır, ancak gerçek veri üretim süreci asimetriktir

Temel özet

( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA ile OLS örtüşür
( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA dikey yöne kayar
X'in mutlaka rassal değişken olması veya normal dağılım izlemesi gerekmez
PCA varyansın yönüne, OLS ise tahmin hatasını en aza indirmeye odaklandığı için sonuçlar farklı görünür

1 yorum

GN⁺ 2026-01-06

Hacker News yorumları

Doğrusal regresyon, yani Ordinary Least Squares(OLS), yalnızca Y'de gürültü bulunduğunu ve X'in doğru olduğunu varsayar
Buna karşılık, görsel olarak hem X hem de Y'de gürültü olduğunu kabul eden yaklaşım Total Least Squares(TLS) olarak adlandırılır
- Wikipedia'daki Total Least Squares görseline bakınca sezgisel olarak anlaşılabiliyor
- x ve y'yi değiştirip eğimi yeniden hesaplarsanız TLS'nin ne yaptığını sezebilirsiniz
Geçmişte QuantSci hocam, “x verisinde hiç hata olmayan bir toplama senaryosu söyle” diye sormuştu
Bu yüzden genel olarak Deming regresyonunu daha çok tercih ettiklerini öğretmişti (Deming regression)
- Çoğu sensör verisinde Y eksenindeki gürültü, X eksenindekinden çok daha büyüktür
  Örneğin 1kHz ile örnekleme yapan bir sensörde, MCU'nun clock jitter'ından ziyade sensörün kendi gürültüsü çok daha baskındır
- Deming regresyonunda delta (δ), y varyansı ile x varyansının oranıdır
  x varyansı çok küçükse delta büyür ve bu da koşul sayısı kötü bir modele yol açabilir
- Benim alanımda X verisinin ölçüm jitter'ı 10ns'nin altında olduğu için pratikte hatasız sayılır
- OLS'nin özel yanı, BLUE(Best Linear Unbiased Estimator) olması; yani minimum varyanslı doğrusal tahmin edici olmasıdır
- Çoğu zaman serisinde zaman ölçümündeki gürültü ihmal edilebilir düzeydedir, ancak GPS koordinatları gibi başka değişkenlerde karmaşık bağlaşım etkileri ortaya çıkabilir
Doğrusal regresyon yalnızca Y'nin gürültüsünü modeller, ancak PCA'nın elipsi/özvektörleri hem X hem de Y gürültüsünü dikkate alır
- Birçok sistemde Y'nin gürültüsünün X'ten büyük olması ilginçtir
  Örneğin analog-dijital dönüştürücülerde zaman kuvars osilatörle kararlıdır, ama ölçüm değeri öyle değildir
- Veri analizinde trend çizgisi çıkarırken PCA'nın özvektör yönünü kullanmak daha iyi olmaz mı sorusu akla geliyor
- Hem girişte hem çıkışta gürültü olduğunu varsayarak sinir ağını eğitmek ilginç olabilir
- Eğer Y'nin X'ten n kat daha gürültülü olduğunu biliyorsak, bunun daha iyi bir uyum elde etmek için kullanılıp kullanılamayacağını merak ediyorum
Uzun zamandır istatistikle uğraşmadım ama neden özellikle kareler(squares) kullanılıyor, anlamıyorum
1. kuvvet, 3. kuvvet, 4. kuvvet gibi başka üsler de olabilirken neden hep kare karşımıza çıkıyor diye merak ediyorum
- Kareler toplamını minimize etmek, hataların normal dağıldığı (iid normal) varsayımı altında maksimum olabilirlik tahmini (MLE) verir
  Hata dağılımı farklıysa başka kayıp fonksiyonları daha uygun olabilir
  Örneğin Huber loss, küçük hatalarda karesel, büyük hatalarda doğrusal davranarak aykırı değerlere karşı dayanıklıdır
  Ayrıntılı formüller için Boyd & Vandenberghe'nin Convex Optimization kitabında 352–353. sayfalara bakılabilir
  Ayrıca ANOVA Pisagor teoremine dayandığı için kare terimleri zorunludur
- Ortalama, L2 normunu minimize ettiği için OLS'ye rassal değişken bakış açısından bakıldığında L2'nin koşullu beklenen değer E[Y|X] tahmininin doğal biçimi olarak ortaya çıktığı görülür
  Gauss–Markov teoremi de bu tahmin edicinin yansız ve minimum varyanslı olduğunu garanti eder
- 1. kuvvette çözüm tekil değildir. Örneğin (0,0), (1,0), (1,1) üç noktasında a 0 ile 1 arasında olduğunda hata toplamı aynı kalır
    1'den küçük üsler, tek bir büyük hatayı birçok küçük hataya tercih eden tuhaf özelliklere sahiptir
    Buna karşılık kare hem matematiksel olarak ele alması kolaydır hem de basit doğrusal regresyonun sayısal özellikleri iyidir
- Wikipedia'daki Least Squares maddesinde çeşitli yaklaşımlar özetlenmiştir
  4. kuvvet ve üzerindeki yüksek dereceli terimlerde çok sayıda yerel optimum vardır ve türev alma karmaşıklaştığı için hesaplama basitliği azalır
- Kısacası abs, 0 civarında türevlenebilir değildir; 4. kuvvet gürültüye aşırı duyarlıdır; 3. kuvvette ise varyansın doğrusallığı bozulur
Bu başlıktaki içeriğin büyük kısmı zaten StackExchange tartışmalarında iyi şekilde derlenmiş durumda
Yeni bir bakış açısı getirmek kolay değil
- StackExchange'deki yanıt zaten yeterince olgun ve tamamlayıcı görünüyor
  Sadece matematiksel bir gözlem olarak ilginç denebilir
- Yine de böyle konular açmanın anlamı var; çünkü StackExchange'e kıyasla burada daha serbest bir sohbet mümkün
- Bu forum için fazla olgun cevaplar bile olabilir
Least Squares ile PCA, farklı kayıp fonksiyonlarını minimize eder
İlki Y ekseni yönündeki uzaklıkların kareleri toplamını, ikincisi ise doğruya olan dik uzaklıkların kareleri toplamını minimize eder
- Öyleyse neden en küçük kareler doğrusu aşağı eğiliyormuş gibi görünür? Yön sanki keyfiymiş gibi duruyor
- En küçük kareleri Gauss dağılımına uyarlama süreci olarak görmek anlamayı kolaylaştırır
y'yi x'e göre, x'i de y'ye göre regresyon yaptığınızda farklı doğrular elde edersiniz
Bunu derste fark edip şaşırmıştım. Belki normalizasyon çözer diye düşünmüştüm
- Ama yanlılığı gidermenin doğru yolu normalizasyon değil, koordinattan bağımsız regresyon yöntemleri kullanmaktır
Terimlerle ilgili bir ek: en küçük kareler modeli, x gürültülü olsun ya da olmasın, ortalama hatası 0 olan tahminler, yani istatistiksel olarak yansız tahminler üretir
Regresyon sonucuna bakarken doğru görsel olarak yanlışmış gibi dursa bile model gerçekte doğru olabilir
Doğru eğimi doğrulamak için belirli bir x değerinde artıkların (residual) iki tarafa dengeli dağılıp dağılmadığına bakmak gerekir
Örneğin y = 1.5x + noise ile veri üretirseniz, regresyon doğrusu 1.5 eğimini iyi geri kazanır ama görsel olarak tuhaf görünebilir
- Bunu artık grafiğini karşılaştırarak en net şekilde görebilirsiniz
Bu sorun genellikle Regression Dilution olarak adlandırılır (Wikipedia bağlantısı)
- Ancak Regression Dilution, X verisindeki hata nedeniyle regresyon doğrusunun yanlı hale gelmesini ifade eder
  StackExchange'deki soru ise X'te hata olmasa bile regresyon doğrusunun neden 3σ elipsinin ekseniyle çakışmadığını soruyor
  Bu yanıt, X hatasının 0 olduğu bir örnek gösteriyor

Basit verilere en küçük kareler uyumu uygulandığında neden yanlı gibi görünür

Regresyon modeli ve veri üretim süreci

Hata varyansının baskın olduğu durum

Kovaryans elipsi ve dağılım biçimi

X'in niteliği ve modelleme açısından dikkate alınacaklar

Temel özet

İlgili okumalar

1 yorum

Hacker News yorumları