Finansal Veri Bilimi Part 0: Finansal veri biliminin genel ML’den farklı olduğu 7 nokta

(han-co.com)

2 puan yazan hanco1104 7 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş

「Finansal Veri Bilimi Temelleri」 yazı dizisine başlıyorum. Bu yazı ilk bölüm (Part 0). Kredi değerlendirme sahasında veri biliminin neden genel ML’den farklı çalıştığını, Part 0’dan başlayarak kitap gibi sırayla anlatmayı düşünüyorum. reject inference, nedensel çıkarım, kalibrasyon, doğrulama, adillik, regülasyon gibi konuları ele alıyorum.
Orijinal metni önce blogumda yayımladım → https://han-co.com/ko/blog/part0-finance-ds-7-differences

Ben bu alanda uzun yıllar çalışmış bir veteran değilim. İmalat sektöründe mühendis olarak çalışırken finans sektörüne geçtim; şimdi ise kredi değerlendirme tarafında veri bilimci olarak çalışıyorum. O yüzden bu yazıyı da “doğru cevap budur” diye değil, bu alana geldikten sonra benim zorlandığım şeyleri, “kitaptakini yaptım ama neden sürekli yanlış çıkıyor?” diye düşündüğüm noktaları derlediğim bir metin olarak okursanız sevinirim.

İlginç olan şu ki, bunu sadece ben yaşamamışım. Genel ML’de model kurmaktan değerlendirmeye kadar her şeyi iyi yapan insanlar bile kredi değerlendirme alanına gelince benzer hataları en az bir kez yapıyor. Doğrulama metrikleri iyi ama gerçek hayatta kendi performansını veremiyor, accuracy %99 ama kimse sevinmiyor, performansı 0.01 daha artırdınız diye risk departmanı dağıtımı engelliyor…

Bunun nedeni beceri eksikliği olmaktan çok, finansın (özellikle kredi değerlendirmesinin) “finansal veriye ML uygulamak” değil, kuralları biraz farklı olan bir alan olması. Ayrıca bu yazı dizisinde ileride ele alacağım hemen her şey, yani reject inference, nedensel çıkarım, kalibrasyon, doğrulama, adillik gibi konular sonuçta bu kurallara dayanıyor.

1. Seçim yanlılığı varsayılan durumdur

Elimizdeki eğitim verisinde aslında büyük bir boşluk var. Sadece onaylanan müşterilerin geri ödeme sonucunu görebiliyoruz. Reddedilen müşterilerin gerçekten geri ödeyip ödemeyeceğini ya da temerrüde düşüp düşmeyeceğini ise asla bilemeyiz. Çünkü o kişilere en başta kart verilmemiştir.

Genel ML genelde “veri, anakütleyi temsil eder” varsayımıyla çalışır. Ama kredi değerlendirmesinde bu varsayım daha baştan bozulur. Eğitim verisi geçmişte zaten onaylanmış müşterilerden oluşur; oysa modelin karar vermesi gereken hedef kitle henüz onaylanmamış tüm başvuru sahipleridir. Bunlar iki farklı anakütledir.

Tüm başvuru sahipleri  
├─ Onaylandı (sonuç gözlemleniyor)  
│   ├─ Geri ödedi  → normal geri ödeme  
│   └─ Temerrüt  → gecikme·temerrüt  
└─ Reddedildi (sonuç gözlemlenmiyor)  → ??? geri öder miydi, temerrüde mi düşerdi bilinmiyor

Model sadece “onaylanmış müşteriler” üzerinden öğrenir. Reddedilen müşterilerin gerçek sonucu veride kalmaz.

Tek başına bu nokta, sanıldığından çok daha fazla soruna yol açar. “Reddedilmiş müşteriler” için ret sonrası veri olmadığı için model kendi reddettiği bölgeyi öğrenemez ve geçmiş değerlendirme politikasının yanlılığını olduğu gibi devralır. Bu yüzden bu alanda reject inference (ret çıkarımı) ve nedensel çıkarım özel teknikler değil, temel gerekliliklerdir. (Bu ikisini ileride ayrı bölümlerde derinlemesine ele alacağım.)

2. Zaman tek yönde akar ve model yaşlanır

Veriyi rastgele karıştırıp K-fold yaptıysanız, aslında geleceğe biraz göz atmış olursunuz. Çünkü doğrulama verisinin içinde geçmiş ve gelecek veriler karışmış olur.

Kredi verisi zaman boyunca akar. 2024 müşteri verisiyle eğitilen model, 2026’daki müşterileri değerlendirir. Bu arada ekonomi değişir, faiz oranları yükselir, müşteri davranışı ve ürünler değişir. Dağılım kayması (drift) meydana gelir. Rastgele K-fold geçmişi ve geleceği birbirine karıştırdığı için, gerçek hayatta asla sahip olamayacağınız bilgiyi doğrulamaya fark ettirmeden sokuşturur.

Bu nedenle finansta temel doğrulama yaklaşımı OOT (out-of-time), yani eğitim döneminden daha sonraki bir zaman aralığında değerlendirme yapmaktır. Dağıtımdan sonra da dağılımın ne kadar kaydığını, müşterilerin zaman içinde nasıl değiştiğini sürekli izlemek gerekir. Model, dağıtıma çıktığı anda yaşlanmaya başlar.

3. “Kim daha riskli?” yetmez; “tam olarak yüzde kaç?” gerekir

Genel sınıflandırma problemlerinde çoğu zaman sıralamayı doğru yapmak yeterlidir. Kimin daha riskli olduğunu doğru sıralarsanız olur; bunu da AUC ölçer.

Ama kredide burada duramazsınız. Mutlak olasılık, yani kalibre edilmiş PD (calibrated PD) gerekir. “Bu müşterinin temerrüt olasılığı tam olarak %3,2” gibi bir sayıya ihtiyaç vardır; çünkü fiyatlama yapılır (risk-based pricing), karşılık ayrılır (provisioning) ve beklenen zarar hesaplanır. Sadece sıralamayla bunların hiçbirini yapamazsınız.

Bu yüzden kredi alanında şu durum şaşırtıcı derecede sık görülür: AUC harikadır ama PD yanlıştır. Ayırt edicilik (discrimination) ile kalibrasyon (calibration) farklı eksenlerdir; ikisini birden sağlamak gerekir. (Sadece kalibrasyonu ele alan ayrı bir bölüm de hazırladım. Sanıldığından çok daha sık atlanıyor.)

4. Maliyetler asimetriktir, çok geç ortaya çıkar ve parasal birimdedir

Accuracy, tüm hataları aynı ağırlıkta sayar. Oysa kredide hataların ağırlığı hiç de aynı değildir.

İyi bir müşteriyi onaylayarak kazanılan para marjdır (birkaç bin yen), bir temerrüt olayının maliyeti ise LGD × EAD’dir (yüz binlerce yen). Bir taraf diğerinden onlarca kat daha ağırdır. Dolayısıyla optimize etmemiz gereken şey accuracy değil, beklenen getiri ve beklenen zarardır.

Beklenen getiri = (1 − PD) × marj − PD × LGD × EAD

Temerrüt durumundaki beklenen zarar (EL) ise yeniden üç bileşenin çarpımına ayrılır.

EL = PD × LGD × EAD

PD: temerrüt olasılığı
LGD: temerrüt durumunda zarar oranı
EAD: temerrüt anındaki bakiye

Bu üç bileşenin her biri farklı bir modelleme problemidir. Skorlamanın çekirdeği PD’dir.

Üstelik doğru etiket çok geç gelir. Bugün onaylanan bir müşterinin temerrüde düşüp düşmediği ancak 12–24 ay sonra kesinleşir. Etiketin bu kadar geç gelmesi, hızlı geri bildirime alışkın ML düşünce tarzıyla ciddi biçimde çatışır. Çünkü sonucu bilmeden karar biriktirmeye devam etmek zorundasınızdır.

5. İstikrar, sınır performansını yener

Bir ML yarışmasında AUC’yi 0.001 bile artırmak erdemdir. Kaggle gibi yarışmalarda olduğu gibi. Ama gerçek iş ortamındaki kredi modellerinde bu çoğu zaman zarardır.

Bir damla daha performans almak uğruna istikrarsızlaşan model, operasyonda kısa sürede maliyete dönüşür. Girdiler biraz oynadığında skorun sert dalgalandığı, yeniden üretilemeyen ve “gelir arttıkça skorun düştüğü” garip bölgeler oluşturan modellerden söz ediyorum. Operasyonel istikrar, yeniden üretilebilirlik ve monotonicity çoğu zaman ondalık seviyedeki performans artışından daha önemlidir. Lojistik regresyonun GBM çağında bile skorlama standardı olarak yaşamayı sürdürmesinin nedenlerinden biri de budur.

6. Yorumlanabilirlik bir tercih değil, zorunluluktur

Diğer alanlarda “bu tahmin neden çıktı?” sorusunu açıklayabilmek güzel bir bonus olabilir. Ama kredide bu yoksa çoğu zaman ya yasaya aykırıdır ya da model dağıtıma çıkamaz.

Ret gerekçesi bildirimi (adverse action, 否決理由), düzenleyici kurumlara açıklama ve iç yönetişim süreçlerinin hepsi “bu skor neden böyle?” sorusunun açıklanmasını ister. Bu yüzden black box modeller havalı değil, başlı başına bir risktir. İş hayatında WOE ya da scorecard gibi gerekçelerin doğal biçimde çıktığı yapılar tercih edilir; boosting kullanılsa bile SHAP ile gerekçe üretilecek mekanizma birlikte kurulur.

7. Regülasyon ve yönetişim yükü her zaman işin içindedir

Son olarak, modeller serbestçe dağıtıma alınamaz.

Modeli tamamen bitirmiş olmanız sürecin bittiği anlamına gelmez. Model risk yönetimi (MRM), bağımsız doğrulama, dokümantasyon ve denetim izi geliştirme sürecinin bir parçasıdır. Geliştirici ile doğrulayıcı ayrılır; yeni model de genellikle uzun süre shadow mode’da paralel izlendikten sonra ancak gerçek karar sürecine girer. “İyi performans veren modeli hızla dağıtıma alalım” şeklindeki startup sezgisi burada pek işlemez. Yavaş olmasının bir nedeni vardır. Çünkü tek bir modelin etkisi karşılık ve sermaye hesaplamalarına kadar uzanır.

(Japonya’da çalışırken bunu daha da somut hissedersiniz. Kart verme ve limit belirleme süreçlerinde Taksitli Satış Yasası’nın (割賦販売法) ödeme kapasitesi tahmini tutarının (支払可能見込額) hesaplanma yükümlülüğü bulunduğu için, model doğrudan hukuki dayanak hâline gelir. Bu konuyu regülasyon bölümünde ayrıca ele alacağım.)

Bunu yapay zeka zaten yapmıyor mu?

Bu aralar böyle soruları sık duyuyorum. Üretken yapay zeka ve ajanlar bu kadar hızlı gelişirken, böyle modelleme bilgisini gerçekten öğrenmek gerekiyor mu diye soruluyor. Dürüst cevabım şu: tam tersine, daha da gerekli hâle geliyor (en azından şimdilik).

Az önce gördüğümüz bu 7 nokta belirli bir algoritmadan değil, bu alandaki problemlerin yapısından kaynaklanır. Gözlemlenmeyen karşıolgular, zaman sırasıyla akan veri, asimetrik maliyetler, mutlak olasılık, istikrar, açıklama zorunluluğu, regülasyon. Bunlara LLM eklediğinizde bu problemler ortadan kalkmaz. Hatta bunların var olduğunu bilen birine daha çok ihtiyaç duyulur; çünkü ancak o kişi, otomatik üretilmiş bir modelin kendinden emin biçimde yanlış yapmasını engelleyebilir.

Özellikle 6. ve 7. maddeler kritik. Ret gerekçesini açıklamak zorundasınız, modeli bağımsız biçimde doğrulamak zorundasınız ve sonuçlar karşılık ile sermaye hesaplamalarının dayanağı olur. Black box modeller bu gerekliliklerde yapısal olarak takılır. Bu yüzden üretken yapay zeka kredi değerlendirmesini baştan sona devralamaz; bunun yerine “neden açıklanabilir olmalı ve nasıl doğrulanmalı?” sorusunu bilen kişi, yapay zekanın ürettiği çıktıları değerlendiren pozisyonda kalır.

Elbette değişen şeyler de var. Tekrarlayan kod yazımı ya da temel analizler giderek yapay zekanın rolüne giriyor. Bu yüzden pratik işlerin ağırlık merkezi, modeli elle kurma becerisinden, problemi doğru kurma, doğrulama ve denetleme muhakemesine kayıyor. Bu yazı dizisinin ele almak istediği şey de tam olarak ikincisi.

O hâlde bu alandaki gerçek yetkinlik nedir?

Bu 7 maddeyi tek cümlede özetlersek şöyle olur:

Finansal veri bilimi, “tahmin doğruluğu yarışı” değil; gözlemlenmeyen karşıolguları (counterfactual), zamanın aktığı ve maliyetlerin asimetrik olduğu bir ortamda, açıklanabilir ve istikrarlı biçimde tahmin etme işidir.

Değerlendirme metrikleri ve scorecard’lar birer giriş bileti gibidir. Asıl yetkinlik farkı seçim yanlılığı, nedensellik, doğrulama ve yönetişim konularında ortaya çıkar.

Bu yazı dizisinde bu 7 başlığı tek tek, yavaş yavaş kazmayı düşünüyorum. reject inference nasıl ele alınır, kalibrasyonda herkes neden hata yapar, nedensel çıkarım neden değerlendirmenin kalbidir, doğrulama nasıl yapılır ki model üretimde ayakta kalsın. Bir sonraki bölümden itibaren birlikte ilerleyelim.

Bu yazı ilk olarak han-co.com’da yayımlandı ve Korece ile Japonca olarak birlikte dizi hâlinde devam ediyor. El çizimi diyagramların yer aldığı orijinal metin ve e-posta aboneliği burada → https://han-co.com/ko/blog/part0-finance-ds-7-differences