Bayesçi istatistik: Üç kültür

(statmodeling.stat.columbia.edu)

1 puan yazan GN⁺ 2024-07-28 | 1 yorum | WhatsApp'ta paylaş

Bayesçi istatistikteki tartışma, tek başına önsel dağılım meselesi değil; öznel, nesnel ve pragmatik Bayes yaklaşımlarının modele ve inceleme sürecine nasıl baktıkları arasındaki farklara uzanıyor
Öznel Bayes, veri üreten dağılımı varsayıp parametrelere ilişkin önceden var olan inançları önsel dağılım olarak kodlayan ve ardından sonsal çıkarıma geçen geleneksel yaklaşım
Nesnel Bayes, çıkarımın yalnızca varsayılan modele ve verilere dayanması gerektiğini, önsel dağılımın da bilgi kuramsal anlamda mümkün olan en az bilgilendirici dağılım olması gerektiğini savunuyor
Pragmatik Bayes, gözlenen ve gözlenmeyen niceliklerin tamamı için ortak bir olasılık modeli kuruyor, veriye koşullandırıyor, ardından model uyumunu ve sonuçları gözden geçirip gerekirse süreci yineliyor
Bu yinelemeli süreç, mühendislikteki iteratif tasarıma ve makine öğrenmesindeki yaygın çalışma biçimine daha yakın; böylece Bayesçi analizi sabit bir felsefeden çok gerçek bir modelleme workflow’u olarak görmeyi sağlıyor

Üç Bayes kültürünün ayrımı

Öznel Bayes, veri üreten dağılımı, yani parametrelerin bir fonksiyonu olarak görülen likelihood’u önce varsayar
Bu varsayım altında parametrelere ilişkin mevcut inançları önsel dağılım ile ifade eder
Ardından sonsal çıkarım yapar ve buna geri dönmeyen bir yaklaşıma daha yakındır
Bu felsefeyi katı biçimde izleyen kişilerin gerçekten var olup olmadığı ya da bugün kendisini öznel Bayesian olarak tanımlayacak birilerinin bulunup bulunmadığı belirsizdir

Nesnel Bayes’in motivasyonu ve reference prior

Nesnel Bayes, hipotez testine, özellikle de Bayes factor kullanma isteği ile “Bayesian cringe”in birleşiminden doğmuş bir felsefe olarak görülebilir
Berger, Bernardo ve Sun’ın 2009 tarihli reference prior makalesi, reference analysis’in nesnel Bayesçi çıkarımı oluşturduğunu açıklar
- Çıkarım önermesi yalnızca varsayılan modele ve eldeki verilere dayanır
- Kullanılan önsel dağılım, belirli bir bilgi kuramsal anlamda en az bilgilendirici olmalıdır
Bu akım, konferanslar ve başlığında “objective Bayes” geçen kitaplar aracılığıyla hâlâ sürüyor
BUGS örneklerinde kullanılan geniş gamma(epsilon, epsilon) ve normal(0, 10_000) önseller de bir ölçüde bu akımın arkasından geliyor

Pragmatik Bayes ve BDA’nın üç adımı

Andrew Gelman’ın yaklaşımı pragmatik Bayes olarak adlandırılabilir
Gelman, Carlin, Stern ve Rubin’in Bayesian Data Analysis kitabının ilk baskısı, Bayesçi veri analizi sürecini üç adımda idealleştirir
- Gözlenen ve gözlenmeyen niceliklerin tamamı için tam bir olasılık modeli, yani ortak bir olasılık dağılımı kurulur
- Gözlenen veriye koşullandırılarak ilgilenilen gözlenmeyen niceliklerin sonsal dağılımı hesaplanır ve yorumlanır
- Model uyumu, sonsal dağılımın ima ettiği sonuçların geçerliliği ve modelleme varsayımlarına duyarlılık değerlendirilir
Sorun varsa model değiştirilir ya da genişletilir, ardından aynı üç adım tekrarlanır
Burada olasılık modeli, önsel dağılımı ve likelihood’u birlikte içeren ortak modeldir
Girdi, “belief” yerine “knowledge” olarak ifade edilir
Modelin veriye ne kadar uyduğunu ve tahmin sonuçlarını değerlendirip, sorun varsa yeniden deneme süreci daha sonra “workflow” olarak anılmaya başladı

Mühendislik ve makine öğrenmesinde tanıdık olan iteratif tasarım

Bu yaklaşım, mühendislikte iteratif tasarım denen standart işleyişle aynıdır
Makine öğrenmesinin neredeyse tamamı da bu şekilde yürütülür
Bilgisayar bilimi ve makine öğrenmesi geçmişinden bakıldığında, istatistikçilerin her zaman böyle düşünmemiş olması şaşırtıcıdır

BDA’nın stratejisi ve felsefi tartışmalardan kaçınma

Andrew Gelman, BDA’nın ilk baskısını yazarken felsefeyi uzun uzun tartışmak yerine bilimi gerçekten “yapma” tarafını seçti
Gelman ve Rubin, kendi iteratif tasarım süreçlerine ayrı bir ad vermedi
Başkalarının felsefi inançlarını doğru biçimde tanımlamak zor olduğu gibi, tartışmayla bunları değiştirmek daha da zordur; bu yüzden bu tercih akıllıca görünüyor
“show, don’t tell” yaklaşımına yakın biçimde, yöntemini felsefi tartışmalar yerine gerçek modelleme ve bilim pratiği üzerinden gösteriyor

Önsel dağılım ve likelihood birlikte ele alınmalı

Tartışmanın bir kısmı önsel dağılımla ilgili olsa da, önsel dağılım seçimi likelihood seçiminden daha öznel ya da daha az öznel değildir
Andrew Gelman’ın “Straining on the gnat of the prior distribution while swallowing the camel that is the likelihood” başlıklı yazısı bu bakış açısını özetler
Felsefi olarak, önsel dağılım ile likelihood’un “belief”ten çok knowledge temelinde ele alınması tercih edilir
Bu çerçevelemeyi önce Laplace sundu, ardından John Stuart Mill daha derinlemesine inceledi; Gelman ve arkadaşları da BDA’da bunu izliyor

Başlığın soyağacı ve Breiman’ın iki kültürü

1959’da C.P. Snow, sanat ile bilimin karşıtlığını ele alan “The two cultures”u yazdı
2001’de L. Breiman, etkili makalesi “Statistical modeling: the two cultures”u yayımladı
Breiman’ın karşıtlığı, üretim sürecini açıkça modelleyen yaklaşım ile, makine öğrenmesi terimleriyle yüksek kapasiteli modellere karşılık gelen çok esnek modeller kullanan yaklaşım arasındaki farkla ilgilidir
Breiman, kendi araştırmalarında decision forests yaklaşımını destekledi; en güncel sinir ağlarını eğitmeye yetecek veri bulunmayan Kaggle yarışmalarında da bu yaklaşım hâlâ kazanabiliyor
Yazı, decision forests ile neural networks’ün Andrew’un “unfolding flower” dediği örneğe girip girmediği sorusuyla son buluyor

1 yorum

GN⁺ 2024-07-28

Hacker News yorumları

Yazarın Bayesçiliği iki eksene ayırdığını düşünüyorum: (1) dünya hakkındaki bilgi ya da inançlarla önsel dağılımın ne kadar bilgilendirici seçildiği, (2) uyum başarısına ve çıktının geçerliliği/kullanışlılığına bakarak modelin fonksiyonel biçiminin yinelemeli biçimde düzeltilip düzeltilmediği
Bu kombinasyonlardan üçünü bilgilendirici+yinelemeli=pratik, bilgilendirici+yinelemesiz=öznel, bilgilendirici olmayan+yinelemesiz=nesnel diye adlandırıyor; ama asıl bilgilendirici olmayan+yinelemeli hücresinin boş olması en zor kabul ettiğim nokta
Endüstride kendine Bayesçi diyen insanların çoğunun bu hücreye girdiğini düşünüyorum. Modelin fonksiyonel biçimi, yani varsayılan veri üretim süreci, yinelemeli olarak iyileştirilmesi elbette iyi ve gerekli olan şeydir; çoğu durumda veri önsel dağılımı bastıracak kadar büyük olduğundan önsel dağılım genelde bilgilendirici olmayan ya da zayıf bilgilendiricidir
Bu yüzden yinelemesiz sütunun tamamı bana bir korkuluk gibi geliyor; fakat yazar, kendisinin de böyle düşündüğünü, sonra “istatistikçilerin böyle düşünmediğini öğrenince şoke olduğunu” açıkça belirtiyor
- Yinelemesiz yaklaşım gerçekten var ve bunun nedeni illa kötü olmak zorunda değil. Bir modeli yinelemeli olarak iyileştirmek, onu bir ölçüte göre daha iyi hale getirmek içindir; ancak bilimsel araştırmada anlamlılık ölçütleri ve pozitif sonuçlar etrafında çarpık teşvikler güçlü biçimde işler
  “Çatallanan yollar bahçesi” gibi, analizin veriye göre değiştiği durumlar bugün bilimin istatistiksel ve epistemolojik krizinin doğrudan nedeni gibi de görünüyor. Yinelemenin kendisi kötü değil; ama optimize edilen amaç fonksiyonu çoğu zaman bilimsel olarak arzulanan şeyden farklı oluyor
  Gerçek bir bilimsel araştırmacı için modeli yinelemeli olarak ayarlamak bir tür dürüst olmayan davranış gibi hissedilebilir; bu da birçok alanın yakınsadığı kusurlu epistemolojiyle, yani p<0.05 ise doğru, değilse yanlış çerçevesiyle derinden ilişkili görünüyor
  Başka türlü söylersek, analistin kontrol ettiği serbestlik derecelerinin sayısı rahatsızlığın özü olabilir. Bayesçi bağlamda, inançlara ya da geçmiş verilere göre önsel dağılım seçildiğinde analist sonucun nasıl çıkacağı üzerinde çok büyük bir denetime sahip olur
  Bu yüzden birçok alanın iyi istatistiksel modeller kurmaktan ziyade ‘standart’ test kümelerine yöneldiğini düşünüyorum. Bu testler ayar düğmelerinin çoğunu analistin elinden alır ve genel olarak daha muhafazakâr çalışır
- Bayesçi tarafı çok iyi bildiğim söylenemez ama Bayesçi parametrik olmayan yöntemlerin “bilgilendirici olmayan + yinelemeli” yaklaşıma girip girmediğini merak ediyorum
  Tamamen alakasız bir yöne bakıyor da olabilirim; düşüncemin ya da anlayışımın nerede saptığını bilmiyorum
- İlginçtir, benim deneyimime göre modern makine öğrenmesinin neredeyse tamamı pratik Bayesçilik ile işliyor. ELBO’yu buluyor, problem alanını en iyi modelleyen güncel gizil değişken modasını seçiyor, bugünlerde çoğunlukla Transformer kullanıyor ve deneyleri çalıştırmaya başlıyorsunuz
Üniversite yıllarında hocaların Bayesçilik ile frekansçılık üzerine bitmek bilmeyen tartışmalarını özlüyorum
Yazı çok kısa ve öz; ayrıca Bayesçi hocaların kendi aralarında bile araştırma ve analiz yaklaşımlarının neden farklı olduğunu açıklıyor. Üçüncü kamp olan pratik Bayesçiliği bilmiyordum; ama önsel dağılımı ve birleşik olasılık yoğunluk fonksiyonunu düzgün tutturmak için olasılıksal uyum ve çok sayıda yineleme konusunda çok titiz davranan bir hocanın çalışmalarıyla kesinlikle örtüşüyor
Andrew Gelman’ın “Andrew Gelman - Bayes, statistics, and reproducibility (Rutgers, Foundations of Probability)” konuşmasını da veri bilimcilerine şiddetle öneririm
- Konuşma bağlantısı: https://youtu.be/xgUBdi2wcDI
- Frekansçılık ile Bayesçilik tartışması hakkında biraz kışkırtıcı konuşursak, bu üç kültür şöyle görünüyor
  Öznel Bayesçilik, frekansçı akademinin saldırmayı sevdiği bir korkuluk; nesnel Bayesçilik, birçok Bayesçi akademisyenin sahip olduğu saf öz imaj; pratik Bayesçilik ise istatistiği gerçekten bir şeye uygulayan pratisyenlerin, Gelman’ın deyişiyle bilim yapan insanların benimsediği yaklaşım
- Son zamanlarda Fiducial Statistics (güven istatistiği) denen şeyi de üçüncü bir kamp olarak duydum. Harvard Business Review editörünün yer aldığı Super Data Science podcast’inin 581. bölümü oldukça ilginçti
- Geldiğim ülkede frekansçı yaklaşım genel olarak baskın, ama Bayesçilikle bir kavga fiilen yok; bu yüzden hep tuhafıma gidiyor. Sonuçta bunlar yalnızca matematiksel teori ve araçlar demeti; işe yarayanı kullanırsınız
  Amerikalıların frekansçı bakış açısından hoşlanmama eğiliminin, bunun daha güçlü bir matematik altyapısı gerektirmesinden kaynaklandığını hâlâ düşünüyorum
Kişinin hangi “kulübe” ait olduğunu, hangi “tarafta” durduğunu seçmesi gerektiği atmosferinden hep hoşlanmadım. Bugün bilimde görülen sorunların hangi çıkarım felsefesini benimsediğinize indirgenebileceği fikri de hoşuma gitmiyor
Birçok açıdan bilgi kuramsal yöne daha yakınım; illa söylemek gerekirse nesnel Bayesçi olabilirim ama aslında ne frekansçıyım ne de Bayesçi
Bu “üç kültür” ayrımı biraz el çabukluğu gibi görünüyor. “Pratik” kültür, öznel ve nesnel Bayesçilikle karşılıklı dışlayıcı değil; bu yüzden önsel dağılımın nasıl belirlenmesi ya da yorumlanması gerektiği konusunda pek bir şey söylemiyor
Gelman daha iyi terimin “esneklik” gibi bir şey olduğunu söyleyebilir; ama o zaman ne zaman nesnel, ne zaman öznel gidileceği ve bunun neden böyle olduğu sorusu kalır. Bunu biçimselleştirmek, bir sis perdesi gibi bırakmaktan daha iyi görünüyor
Ayrıca şeytanın avukatı gibi konuşursak, “pratik” kültür Bayesçiliğin neden kuşkuyla karşılandığını da gösteriyor. “Önsel dağılımı seç”, “ne kadar iyi uyduğuna bak”, “yinele” akışı model ince ayarı ya da p-hacking gibi görünebilir
Niyetin bu olmadığını biliyorum; ince ayar yapmadan modelleme yapılamayacağını da biliyorum; ama böyle yaklaşıldığında önsel dağılım, sonucu hafifçe itip avlanmaya yarayan bir başka serbestlik derecesi gibi görünüyor
Bayesçi çıkarım makaleleri yazdım ve editörlüğünü de yaptım; sorun hiçbir zaman sağlam teoride olmadı. Sorun, insanların onu pratikte nasıl kullandığı ve kötüye kullandığında
Modern frekansçı yöntemler hakkında doğru düzgün bir bakış açısı edinmek istiyorsanız Yudi Pawitawn’ın “In All Likelihood” kitabını öneririm
İlk bölümlerde frekansçı ve Bayesçi paradigmalar arasındaki farkı, özellikle de iyi tasarlanmış frekansçı veya olabilirlik temelli modellerin gücünü oldukça akıcı biçimde açıklıyor
Birkaç istisna dışında, Bayesçiler gerçekten bilgilendirici olmayan önsel dağılımlar kullanıyorsa, aynı analist Bayesçi model de kullansa frekansçı model de kullansa aynı cevabı elde etmelidir. Çalıştığım alanda Bayesçi yöntemleri kullanan araştırmacıların %99’unun bilgilendirici olmayan önsel dağılımlar kullandığını da söyleyebilirim; bu yüzden bazen Bayesçiliği sadece havalı görünsün ve akran değerlendirmesinden daha kolay geçsin diye mi kullanıyorlar diye düşünüyorum
Karmaşık modellerde, örneğin yüzlerce ya da binlerce parametresi olan modellerde, belirli bir veri kümesi bağlamında önsel dağılımın gerçekten bilgilendirici olup olmadığını anlamak son derece zor olabilir. Modelin çalışmasını beklemek gerekir; önsel dağılımları sistematik biçimde değiştirirseniz, yüksek performanslı hesaplama kaynakları kullanılsa bile muazzam zaman alır
Ayrıca Bayesçi bir ortamda, frekansçı yaklaşımda pozitif tanımlı olmayan Hessian yüzünden patlayıp “model muhtemelen berbat ya da veri kümesine göre fazla karmaşık” tanısını verecek bir modeli, bir veya birkaç önsel dağılımla tesadüfen ayakta tutmak kolaydır
Bu karmaşıklıktaki modellerle alay edebilirsiniz, ama birçok uygulama ortamında gerçeklik budur. Örneğin “büyük n” sorunuyla karşı karşıya kalan uzay-zamansal modeller veya kaynak durumu ve sürdürülebilirlik bilgisi sağlayan entegre balıkçılık değerlendirme modelleri böyledir
Bu yüzden lisansüstü düzeyde Bayesçi çıkarım öğreten biri olarak, Bayesçi istatistikle ilgili başlıca şikâyetim, istatistikçi olmayanlar ve yeni başlayanlar tarafından çok kolay kötüye kullanılabilmesidir. Özellikle de biyologlar gibi istatistikçi olmayanların da son derece esnek yazılımlara erişebildiği günümüzde bu daha da geçerli
Genel olarak, Gelman’ın iki paradigmanın da öznel olduğu ve en dibe kadar kaplumbağalar, yani öznellik bulunduğu yönündeki iddiası doğru; buna büyük ölçüde katılıyorum
- “In All Likelihood” önerisine katılıyorum, ancak o kitabın öznel olasılık ya da nesnel olasılığın hiçbirine dayanmayan üçüncü bir yaklaşımı anlattığını da belirtmek gerekir
- İstatistikçi olmayanların ve yeni başlayanların Bayesçi istatistiği kolayca kötüye kullanabilmesi bir sorunsa, frekansçı istatistik için durum farklı mı? :-)
Bence olasılık düzgün tanımlanmamış ve yanlışlanamaz bir kavram. Buna rağmen deneysel olarak dünyanın bazı yönlerini oldukça iyi modelliyor gibi görünüyor. Yine de bizi yanlış yönlendiriyor olabilir mi?
p(X)=0.5, yani X olayının olasılığının 0.5 olduğu cümlesi gerçekte ne anlama gelir? Bir önerme midir? Öyleyse yanlışlanabilir mi, nasıl?
Önerme değilse ne anlama gelir? Teorik açıdan daha sağlam biri açıklarsa sevinirim. Söyleyecek daha çok şeyim var ama önce titiz bir arka plana sahip kişilerin yanıtlarını duymak isterim
- Matematiksel bir teori olarak olasılık iyi tanımlanmıştır. Olasılık, daha büyük bir konu olan ölçü kuramının bir uygulamasıdır; ölçü kuramı aynı zamanda kalkülüsün teorik temelini de sağlar.
  Tüm olasılıklar üç şeyle tanımlanır: bir küme, o kümenin alt kümelerinin kümesi — basitçe söylemek gerekirse şeyleri gruplama biçimi — ve bu alt kümeleri 0 ile 1 arasındaki sayılara gönderen bir fonksiyon. Geçerli olması için, olaylar da denen bu alt kümeler kümesinin ek kuralları karşılaması gerekir.
  p(X)=0.5 örneği, bir fonksiyonun X diye adlandırılan bir alt kümeye 0.5 değerini atadığı anlamına gelir yalnızca.
  Bunun gerçek dünyayı modellemekte iyi görünmesinin nedeni teorinin kökenlerinde bulunabilir. Yoktan ortaya çıkmadı; gerçek dünyadaki rastgele gibi görünen olayları biçimselleştirmek istediğimiz için yaratıldı.
- Kişisel olarak, olasılığın iyi tanımlı ve test edilebilir bir kavram olduğu durumların yalnızca belirli kesin simetrilerden argüman kurulabilen durumlar olduğu sonucuna vardım.
  Yazı tura atma, şans oyunları ve istatistiksel fizikteki birçok problem buna girer. Buna karşılık gerçek dünyadaki çıkarım, tahmin ve kestirimlerde olasılık özneldir ve istatistikçilerin, Bayesçiler dahil, düşündüğünden çok daha az nicelleştirilebilir.
  Olasılık bizi yanlış yönlendirebilir mi derseniz, bence evet. İstatistiksel hipotez testine başlıca ampirik yöntem olarak dayanan tüm bilimlerin temelde devasa bir çöp yığınına yakın olduğu ve tekrarlanabilirlik krizinin buzdağının yalnızca görünen kısmı olduğu hissim giderek güçleniyor. Ekonomi, sosyal psikoloji, tıbbın büyük bölümü, veri bilimi vb. buna dahil.
  p(X)=0.5 gibi bir cümleyi çoğu durumda yanlışlanamaz bir önerme olarak görüyorum. Yazı tura gibi ucuza çok sayıda deney yapabilseniz bile, hesaplanan olasılığı yaklaşık %1 hassasiyetle “doğrulamak” için bir milyon kez denemeniz gerekir. Kesin bilimlerin standartlarına göre berbat; varsayımlar daha az sağlam olduğunda, örneklem uzayı daha karmaşık olduğunda veya tekrar üretme maliyeti arttığında daha da kötüleşir.
- Olasılık tek bir kavram değil, ilişkili kavramlardan oluşan bir ailedir. Öznel Bayesçilikteki epistemik olasılık, frekansçı olasılıktan farklı bir kavramdır; elbette bazı açılardan ilişkilidirler.
  Birbiriyle uyumsuz tanımları tek potada eritince bunun “tanımı belirsiz ve yanlışlanamaz bir kavram” gibi görünmesi şaşırtıcı değil.
  Öznel Bayesçi bakış açısından p(X), bir önermenin doğru olduğuna dair benim ya da belirli bir kişinin sahip olduğu güven derecesini; lehindeki ve aleyhindeki kanıtların ağırlığına dair yargıyı; ya da doğru/yanlış olduğuna ilişkin bilgimin derecesini ölçen bir değerdir.
  0.5, iki yönde de bir güven olmadığı, iki yönde de kanıt olmadığı veya iki taraftaki kanıtların tamamen birbirini götürdüğü ve o önermenin doğru olup olmadığına dair hiçbir bilgi olmadığı anlamına gelir.
  Bu, “Papa Tanrı'nın var olduğuna inanıyor” cümlesinin önerme olmasıyla aynı anlamda bir önermedir. Tanrı gerçekten var olsun ya da olmasın, Papa'nın buna inandığı çok büyük olasılıkla doğrudur.
  Dolayısıyla inancım hakkındaki iddia, kendi iç gözlemimle kolayca yanlışlanabilir; başka birinin inancı hakkındaki iddia da ona sorulabildiği, yanıt vermeye istekli olduğu ve yalan söylemek için bir nedeni olmadığı varsayılırsa yanlışlanabilir.
- p(X=x)=a gibi belirli bir iddianın genel olarak yanlışlanamayacağı doğru. Ancak p fonksiyonlarının tamamı birbiriyle karşılaştırılabilir ve hangisinin veriye daha iyi uyduğu söylenebilir.
  Örneğin Nate Silver ve Andrew Gelman'ın Kasım seçimlerindeki tüm yarışların sonuçlarına ilişkin olasılıkları ayrı ayrı yayımladığını düşünelim. Seçim sonuçları çıktıktan sonra tekil olasılıkların doğru mu yanlış mı olduğunu söyleyemezsiniz, ama kimin daha isabetli olduğunu söyleyebilirsiniz.
- 1000 yazı tura atışının sonucu %99 yazı, %1 tura ise; tüm atışlarda aynı sürecin kullanıldığından eminseniz ve tura üzerine %50 oranla bahis oynama fırsatınız varsa bahis oynar mısınız?
  Bu, P(X)=0.5'i reddeden pratik bir yanıttır. Ve bu pratik kararı bir teoriyle anlamaya çalışabilirsiniz. Ayrıca tam olarak 0.5 olması neredeyse imkânsız olduğundan, (0.49, 0.51) gibi bir aralıkta olup olmadığını kontrol etmek daha mantıklıdır.
  Merkezi limit teoremi, bağımsız denemeler yapıldığında X'in olasılığını elde edebileceğinizi ve limitte X'in gerçekleştiği ortalama sayının p(X)'e yaklaştığını söyler.
  Ancak ‘limit’ sonsuz sayıda deneme demektir; bu yüzden herhangi bir başlangıç dizisi o limiti belirlemez. Büyük bir N seçip ortalama almak gerekir.
  Peki bu yalnızca olasılığa özgü mü? Dünya hakkında “G konumunda bir ağaç var” gibi bir cümle ve bu cümleyi kontrol eden bir prosedür, örneğin “G'ye gidip ağacı aramak” varsa, bu prosedürün cümlenin doğru mu yanlış mı olduğunu mutlaka belirlediğini söyleyebilir miyiz? Her zaman engeller vardır; örneğin “ağaç gibi görünen bir yanılsama” vb. Bu tür engellerin tümünü dışlamak için idealleştirilmiş bir gözlem süreci varsaymak gerekir.
  Olasılık doğrulamasında işleyen idealleştirme, sonsuz sayıda bağımsız gözlemdir ve p(X)'i veren de budur.
  Frekansçılığı savunmaya çalışmıyorum; gözlem sürecinin idealine ihtiyaç duyulmasının ezici bir engel olarak görülmemesi gerektiğini söylüyorum. Elbette kuantum mekaniğinde konum ve momentumun eşzamanlı gözlenmesi gibi ilkesel bir engel varsa olasılık kavramından vazgeçilebilir.
Breiman'ın tartışmalı yazısının üretici yöntemlere karşı ayırt edici yöntemler hakkında olduğunu hatırlamak gerekir. Yani analize, verinin nasıl üretildiğinin modellenmesinden değil, tahminden başlamak gerektiğini söylüyordu.
Bu akıştan boosting tree, bagging, random forest, XGBoost gibi üretici olmayan kara kutu yöntemler çıktı.
Günümüzde de klasik makine öğrenimi araçlarının çoğu üretici değildir.
Bayesçi istatistiğin iyi yanı öznel olmasıdır. Mutlaka öznelci ekole ait olmanız gerekmez; kendi öznel yargınıza göre yorumu seçebilirsiniz.
Ben bunu Bayesçiliğin gücü olarak görüyorum. Her istatistiksel işe tek tek insanların öznel yargıları sızmıştır. Bu değişmez olgudan kaçmamak, tersine daha objektiftir.
- Her yaklaşımın uygun olup olmadığı, büyük ölçüde neyin modellendiğine ve buna bağlı hatanın sonuçlarına bağlıdır.
Bayesçi hacking: kendi araştırmasına en yüksek anlamlılığı veren iterasyonu bulmak
Derin öğrenme nereye oturuyor?
- Yazarın sözünü ettiği pratisyenlerin paylaştığı örtük inanç, altta yatan bir “veri üretim sürecine” karşılık gelen bir model kurmaya çalıştıklarıdır.
  Makine öğrenimi pratisyenleri, Bayesçi istatistikçilerle benzer, hatta aynı modelleri kullanabilir; ancak modeli, verinin neden o değerleri aldığına dair sezgiden ziyade tahmin performansını merkeze alarak ya da tamamen buna göre değerlendirme eğilimindedir.
  Bu yazının başlığının atıfta bulunduğu Breiman’ın klasik makalesi “Two Cultures”a bakılabilir: https://projecteuclid.org/journals/statistical-science/volum...
- Çoğu model; klasik olasılık kuramı, frekansçı ve Bayesçi istatistik ile bilgisayar biliminin birçok temelinin karışımı olan makine öğrenimi ilkelerinden türetilir.
  Yine de Bayesçi çıkarım ve Bayesçi derin öğrenmede de ilerlemeler oldu; PyTorch üzerine kurulan Pyro gibi framework’ler üzerindeki çalışmalara bakmak iyi olur.
- Yüksek düzeyde bakıldığında Bayesçi istatistik ve derin öğrenme, modelin parametrelerini uydurma gibi aynı amacı paylaşır.
  Özellikle varyasyonel çıkarım, bu tür problemleri hesaplanabilir hâle getiren teknikler ailesidir. Varyasyonel otoenkoderlerden zaman serisi durum-uzayı modellemesine ve pekiştirmeli öğrenmeye kadar birçok yerde karşımıza çıkar.
  Daha fazlasını öğrenmek isterseniz Murphy’nin makine öğrenimi ders kitabını öneririm: https://probml.github.io/pml-book/book2.html
- Derin sinir ağları yalnızca çok karmaşık veri modelleridir; bu modellerin parametre tahminini ve yeni veriler için tahmin üretmeyi nasıl ele aldığınız, yaklaşımın Bayesçi mi yoksa frekansçı mı olduğunu belirler.
  Bayesçi yaklaşım, parametrelere bir dağılım atadıktan sonra veriye göre koşullandırarak sonsal dağılımı elde eder ve buna dayanarak yeni veriler için sonsal öngörü dağılımını çıkarır.
  Buna karşılık frekansçı yaklaşım, parametreleri sabit nicelikler olarak görür ve yalnızca olabilirlik üzerinden tahmin eder. Örneğin maksimum olabilirlik kullanır; düzenlileştirme gibi hilelere de başvurabilir, ancak bunlara da Bayesçi bir yorum getirilebilir.
- https://en.wikipedia.org/wiki/Statistical_learning_theory

Bayesçi istatistik: Üç kültür

Üç Bayes kültürünün ayrımı

Nesnel Bayes’in motivasyonu ve reference prior

Pragmatik Bayes ve BDA’nın üç adımı

Mühendislik ve makine öğrenmesinde tanıdık olan iteratif tasarım

BDA’nın stratejisi ve felsefi tartışmalardan kaçınma

Önsel dağılım ve likelihood birlikte ele alınmalı

Başlığın soyağacı ve Breiman’ın iki kültürü

İlgili okumalar

1 yorum

Hacker News yorumları