1 puan yazan GN⁺ 2026-01-06 | 1 yorum | WhatsApp'ta paylaş
  • Doğrusal en küçük kareler regresyon doğrusunun basit test verilerinde gerçekte olduğundan daha eğimli görünmesinin nedeni, veri üretim sürecinin özellikleridir
  • Regresyon modeli, hata teriminin X'ten bağımsız olduğu varsayımı altında ( Y = \beta_0 + \beta_1 X + \varepsilon ) biçimini izler
  • Hata varyansı büyüdükçe verinin dikey yöndeki varyansı artar ve PCA'nın ana bileşen yönü giderek dikeye yaklaşır
  • Buna karşılık X'in varyansı hatadan çok daha büyük olduğunda, PCA ile OLS regresyon doğrusu neredeyse çakışır
  • Bu farkın nedeni, PCA ile OLS'nin farklı amaçlara sahip olmasıdır (varyansı maksimize etme vs. hatayı minimize etme); bu yüzden verinin dağılım biçimine göre görsel olarak farklı sonuçlar ortaya çıkar

Regresyon modeli ve veri üretim süreci

  • Basit OLS (en küçük kareler yöntemi), ( Y = \beta_0 + \beta_1 X + \varepsilon ) biçimindedir ve X ile hata terimi (\varepsilon)'nin bağımsız olduğu varsayımına dayanır
  • Hata terimi 0 olduğunda tüm noktalar regresyon doğrusu üzerinde yer alır ve PCA'nın ana bileşen yönü regresyon doğrusu ile aynıdır
  • Hata eklendiğinde varyans dikey yönde artar ve PCA bu varyansı yansıtarak eğimi daha dik olan yönü ana bileşen olarak seçer

Hata varyansının baskın olduğu durum

  • ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) ilişkisinde
    ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ) ise değişimin büyük kısmı dikey yönde yoğunlaşır
  • Bu durumda PCA'nın ana bileşen yönü neredeyse dikeye yaklaşır, yani regresyon doğrusundan daha dik görünür
  • Tersine, ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ) ise PCA ile OLS neredeyse aynı olur

Kovaryans elipsi ve dağılım biçimi

  • Kovaryans elipsi (covariance ellipse), yalnızca ( (X, Y) ) ortak normal dağılım izlediğinde verinin biçimini iyi temsil eder
  • X'in dağılımı ikili, uniform, iki tepeli (bimodal), üçgensel vb. şekillerde değişse bile
    X'in varyansı büyükse PCA ile regresyon doğrusu örtüşür, hata büyükse PCA dikey yöne kayar
  • Elips verinin yönlülüğünü gösterir, ancak yoğunluğu veya gerçek dağılım biçimini tam olarak ifade etmez

X'in niteliği ve modelleme açısından dikkate alınacaklar

  • Koddaki make_y_from_x fonksiyonu, OLS varsayımlarına uygun olacak şekilde Y'yi X'in doğrusal fonksiyonu ve IID Gaussian gürültü ile üretir
  • X'in mutlaka bir rassal değişken olması gerekmez; deney tasarımına göre sabit değerler de olabilir
  • Kovaryans elipsi X ve Y'yi simetrik biçimde ele alır, ancak gerçek veri üretim süreci asimetriktir

Temel özet

  • ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA ile OLS örtüşür
  • ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA dikey yöne kayar
  • X'in mutlaka rassal değişken olması veya normal dağılım izlemesi gerekmez
  • PCA varyansın yönüne, OLS ise tahmin hatasını en aza indirmeye odaklandığı için sonuçlar farklı görünür

1 yorum

 
GN⁺ 2026-01-06
Hacker News yorumları
  • Doğrusal regresyon, yani Ordinary Least Squares(OLS), yalnızca Y'de gürültü bulunduğunu ve X'in doğru olduğunu varsayar
    Buna karşılık, görsel olarak hem X hem de Y'de gürültü olduğunu kabul eden yaklaşım Total Least Squares(TLS) olarak adlandırılır
  • Geçmişte QuantSci hocam, “x verisinde hiç hata olmayan bir toplama senaryosu söyle” diye sormuştu
    Bu yüzden genel olarak Deming regresyonunu daha çok tercih ettiklerini öğretmişti (Deming regression)
    • Çoğu sensör verisinde Y eksenindeki gürültü, X eksenindekinden çok daha büyüktür
      Örneğin 1kHz ile örnekleme yapan bir sensörde, MCU'nun clock jitter'ından ziyade sensörün kendi gürültüsü çok daha baskındır
    • Deming regresyonunda delta (δ), y varyansı ile x varyansının oranıdır
      x varyansı çok küçükse delta büyür ve bu da koşul sayısı kötü bir modele yol açabilir
    • Benim alanımda X verisinin ölçüm jitter'ı 10ns'nin altında olduğu için pratikte hatasız sayılır
    • OLS'nin özel yanı, BLUE(Best Linear Unbiased Estimator) olması; yani minimum varyanslı doğrusal tahmin edici olmasıdır
    • Çoğu zaman serisinde zaman ölçümündeki gürültü ihmal edilebilir düzeydedir, ancak GPS koordinatları gibi başka değişkenlerde karmaşık bağlaşım etkileri ortaya çıkabilir
  • Doğrusal regresyon yalnızca Y'nin gürültüsünü modeller, ancak PCA'nın elipsi/özvektörleri hem X hem de Y gürültüsünü dikkate alır
    • Birçok sistemde Y'nin gürültüsünün X'ten büyük olması ilginçtir
      Örneğin analog-dijital dönüştürücülerde zaman kuvars osilatörle kararlıdır, ama ölçüm değeri öyle değildir
    • Veri analizinde trend çizgisi çıkarırken PCA'nın özvektör yönünü kullanmak daha iyi olmaz mı sorusu akla geliyor
    • Hem girişte hem çıkışta gürültü olduğunu varsayarak sinir ağını eğitmek ilginç olabilir
    • Eğer Y'nin X'ten n kat daha gürültülü olduğunu biliyorsak, bunun daha iyi bir uyum elde etmek için kullanılıp kullanılamayacağını merak ediyorum
  • Uzun zamandır istatistikle uğraşmadım ama neden özellikle kareler(squares) kullanılıyor, anlamıyorum
    1. kuvvet, 3. kuvvet, 4. kuvvet gibi başka üsler de olabilirken neden hep kare karşımıza çıkıyor diye merak ediyorum
    • Kareler toplamını minimize etmek, hataların normal dağıldığı (iid normal) varsayımı altında maksimum olabilirlik tahmini (MLE) verir
      Hata dağılımı farklıysa başka kayıp fonksiyonları daha uygun olabilir
      Örneğin Huber loss, küçük hatalarda karesel, büyük hatalarda doğrusal davranarak aykırı değerlere karşı dayanıklıdır
      Ayrıntılı formüller için Boyd & Vandenberghe'nin Convex Optimization kitabında 352–353. sayfalara bakılabilir
      Ayrıca ANOVA Pisagor teoremine dayandığı için kare terimleri zorunludur
    • Ortalama, L2 normunu minimize ettiği için OLS'ye rassal değişken bakış açısından bakıldığında L2'nin koşullu beklenen değer E[Y|X] tahmininin doğal biçimi olarak ortaya çıktığı görülür
      Gauss–Markov teoremi de bu tahmin edicinin yansız ve minimum varyanslı olduğunu garanti eder
      1. kuvvette çözüm tekil değildir. Örneğin (0,0), (1,0), (1,1) üç noktasında a 0 ile 1 arasında olduğunda hata toplamı aynı kalır
        1'den küçük üsler, tek bir büyük hatayı birçok küçük hataya tercih eden tuhaf özelliklere sahiptir
        Buna karşılık kare hem matematiksel olarak ele alması kolaydır hem de basit doğrusal regresyonun sayısal özellikleri iyidir
    • Wikipedia'daki Least Squares maddesinde çeşitli yaklaşımlar özetlenmiştir
      4. kuvvet ve üzerindeki yüksek dereceli terimlerde çok sayıda yerel optimum vardır ve türev alma karmaşıklaştığı için hesaplama basitliği azalır
    • Kısacası abs, 0 civarında türevlenebilir değildir; 4. kuvvet gürültüye aşırı duyarlıdır; 3. kuvvette ise varyansın doğrusallığı bozulur
  • Bu başlıktaki içeriğin büyük kısmı zaten StackExchange tartışmalarında iyi şekilde derlenmiş durumda
    Yeni bir bakış açısı getirmek kolay değil
    • StackExchange'deki yanıt zaten yeterince olgun ve tamamlayıcı görünüyor
      Sadece matematiksel bir gözlem olarak ilginç denebilir
    • Yine de böyle konular açmanın anlamı var; çünkü StackExchange'e kıyasla burada daha serbest bir sohbet mümkün
    • Bu forum için fazla olgun cevaplar bile olabilir
  • Least Squares ile PCA, farklı kayıp fonksiyonlarını minimize eder
    İlki Y ekseni yönündeki uzaklıkların kareleri toplamını, ikincisi ise doğruya olan dik uzaklıkların kareleri toplamını minimize eder
    • Öyleyse neden en küçük kareler doğrusu aşağı eğiliyormuş gibi görünür? Yön sanki keyfiymiş gibi duruyor
    • En küçük kareleri Gauss dağılımına uyarlama süreci olarak görmek anlamayı kolaylaştırır
  • y'yi x'e göre, x'i de y'ye göre regresyon yaptığınızda farklı doğrular elde edersiniz
    Bunu derste fark edip şaşırmıştım. Belki normalizasyon çözer diye düşünmüştüm
    • Ama yanlılığı gidermenin doğru yolu normalizasyon değil, koordinattan bağımsız regresyon yöntemleri kullanmaktır
  • Terimlerle ilgili bir ek: en küçük kareler modeli, x gürültülü olsun ya da olmasın, ortalama hatası 0 olan tahminler, yani istatistiksel olarak yansız tahminler üretir
  • Regresyon sonucuna bakarken doğru görsel olarak yanlışmış gibi dursa bile model gerçekte doğru olabilir
    Doğru eğimi doğrulamak için belirli bir x değerinde artıkların (residual) iki tarafa dengeli dağılıp dağılmadığına bakmak gerekir
    Örneğin y = 1.5x + noise ile veri üretirseniz, regresyon doğrusu 1.5 eğimini iyi geri kazanır ama görsel olarak tuhaf görünebilir
    • Bunu artık grafiğini karşılaştırarak en net şekilde görebilirsiniz
  • Bu sorun genellikle Regression Dilution olarak adlandırılır (Wikipedia bağlantısı)
    • Ancak Regression Dilution, X verisindeki hata nedeniyle regresyon doğrusunun yanlı hale gelmesini ifade eder
      StackExchange'deki soru ise X'te hata olmasa bile regresyon doğrusunun neden 3σ elipsinin ekseniyle çakışmadığını soruyor
      Bu yanıt, X hatasının 0 olduğu bir örnek gösteriyor