Aşırı Verimliliğin Yan Etkileri (2022)

(sohl-dickstein.github.io)

6 puan yazan GN⁺ 2024-09-30 | 2 yorum | WhatsApp'ta paylaş

Verimlilik, yalnızca hedefler ve metrikler iyi hizalandığında performansı artırır; vekili metrikleri aşırı optimize etmek, gerçekte önemli olan şeyi kötüleştirebilir
Makine öğrenmesindeki overfitting bu yapıyı iyi gösterir: eğitim verisi ve vekili amaç fonksiyonu iyileşse de gerçek performans durabilir veya kötüleşebilir
Standart sınavlar, makale bonusları, ödül devresinin maksimize edilmesi, kamuoyu desteği, bilgi paylaşımı, kapitalizm ve paperclip maximizer örnekleri, hedef ile vekili metrik arasındaki uyumsuzluğun toplumsal sistemlerde de tekrarlandığını gösterir
Azaltma yolları; vekili hedef hizalama, düzenlileştirme, gürültü enjeksiyonu, erken durdurma, kapasite sınırlama ve kapasite genişletmedir; makine öğrenmesinde overfitting’e karşı kullanılan yöntemler toplumsal sistemlere benzetilerek uygulanır
Yapay zeka neredeyse tüm işlerin verimliliğini hızla artırabiliyorsa, yanlış hizalanmış hedefleri daha iyi takip etmeyi sağlayan kurumsal iyileştirmeler tehlikeli hale gelebilir

Verimlilik ve Goodhart Yasası’nın güçlü versiyonu

Verimlilik artışı, sezgilerin aksine daha kötü sonuçlar doğurabilir; bu olguya Goodhart Yasası’nın güçlü versiyonu denir
Öğrencilerin ilerlemesini standart sınavlarla izlemek merkezi ve verimli bir ölçüm gibi görünür, ancak okulları geniş ölçekte yararlı becerilerden çok sınavda başarılı olma yollarına odaklanmaya itebilir
Goodhart Yasası, “bir ölçüm hedef haline geldiğinde iyi bir ölçüm olmaktan çıkar” diyen yasadır
- Aslen para politikası bağlamında ortaya çıkmış olsa da daha geniş alanlara uygulanabilir
- Makine öğrenmesinde, optimize edilen vekili amaç fonksiyonunun gerçekte önemsenen amacın iyi bir ölçüsü olmaktan çıktığı durumla bağlantılıdır

Makine öğrenmesinde overfitting ile bağlantı

Makine öğrenmesinde doğrudan istenen hedef optimize edilemediği için vekili veri kümeleri ve vekili amaç fonksiyonları kullanılır
- Görüntü sınıflandırma örneğinde gerçek hedef, test veri kümesindeki sınıflandırma doğruluğudur
- Model test veri kümesiyle eğitilemeyeceği için eğitim veri kümesi kullanılır
- Doğruluk türevlenebilir değildir; bu yüzden saf gradyan inişi eğitiminin doğrudan hedefi olarak kullanılması zordur ve genellikle softmax-cross-entropy loss gibi türevlenebilir bir vekil değerle değiştirilir
Başlangıçta vekili metrik iyileştikçe gerçek hedef de birlikte iyileşir
Optimizasyon sürdükçe hedef ile vekili metrik arasındaki kullanılabilir benzerlik tükenir; vekili metrik iyileşmeye devam etse de hedef artık iyileşmez
Aşırı optimizasyon gerçek hedefi mutlak anlamda kötüleştirebilir; hedefin sonsuza doğru sapması da sık görülür

Güçlü versiyonun genel Goodhart Yasası’ndan farkı

Genel Goodhart Yasası, vekili metrik optimize edildiğinde sonunda gerçek hedefin artık iyileşmeyeceğini söyler
Güçlü versiyon, etkili biçimde optimize edilen ölçümün, ölçmeye çalıştığı şeyin kendisini aksine kötüleştirdiğini söyler
Tek cümleyle şöyledir
- “Bir ölçüm hedef haline geldiğinde, etkili biçimde optimize edilirse, ölçmeye çalıştığı şey daha kötü hale gelir”
Bu olgu basit overfitting ile aynı değildir
- Overfitting, vekili metriğin hedeften daha iyi hale geldiği göreli olguyu ifade eder
- Burada vurgulanan, hedefin mutlak anlamda kötüleşmesidir
İlgili kavramlar olarak perverse incentives, Campbell’s law, Streisand effect, unintended consequences, Jevons paradox, negative externalities ve Goodhart’s curse birlikte ele alınır
- Goodhart’s curse, optimizer’s curse’ü nedensel mekanizma olarak içerir; ancak bunun tek başına gerçek hedefin mutlak anlamda neden kötüleştiğini açıklayamadığı belirtilerek ayrıştırılır

Toplumsal sistemlerde tekrarlanan overfitting

Verimlilik artışı toplumun neredeyse tüm yönlerine yayılıyor
- Daha verimli hale getirilen şey gerçekten faydalıysa dünyayı daha iyi bir yer yapabilir
- Toplumsal olarak zararlı bir şeyi daha verimli hale getirmek, kitlesel gözetim veya robot silahlar gibi korkutucu ya da moral bozucu sonuçlar doğurabilir
- En yaygın durum, faydalı sonuçlarla ilişkili ama onlarla aynı olmayan bir şeyin daha verimli hale getirilmesidir
Hedef ile vekili metrik uyumsuz olduğunda, toplumsal sistemler de makine öğrenmesi gibi overfit olabilir
- Hedef: çocukları iyi eğitmek Vekili metrik: öğrencilerin ve okulların performansını standart sınavlarla ölçmek Sonuç: okullar, sınavın ölçmeye çalıştığı temel yetkinliklerden çok sınav soru türlerine uygun eğitime odaklanır
- Hedef: bilimin hızlı ilerlemesi Vekili metrik: her makale için nakit bonus ödemek Sonuç: yanlış veya artımsal sonuçların yayımlanması, hakemlerle yazarların anlaşması, makale fabrikalarının ortaya çıkması
- Hedef: iyi yaşanmış bir hayat Vekili metrik: beynin ödül yollarını maksimize etmek Sonuç: madde bağımlılığı, kumar bağımlılığı, Twitter’da doomscrolling yaparak kaybedilen zaman
- Hedef: sağlıklı bir nüfus Vekili metrik: besin açısından zengin gıdalara erişim Sonuç: obezite salgını
- Hedef: nüfusun çıkarlarına göre hareket eden liderler Vekili metrik: nüfustan en çok destek alan lider Sonuç: uzmanlığını ve tutkusunu toplumsal sonuçlardan çok kamuoyunu manipüle etmeye yoğunlaştıran liderler
- Hedef: bilgili, düşünceli ve katılımcı yurttaşlar Vekili metrik: insanların fikirleri kolayca paylaşma ve bulma becerisi Sonuç: filter bubble’lar, komplo teorileri, parazitik mem’ler, güçlenmiş kabilecilik
- Hedef: toplumun ihtiyaçlarına dayalı emek ve kaynak dağılımı Vekili metrik: kapitalizm Sonuç: yılda birkaç yüz dolardan saniyede birkaç yüz dolara kadar uzanan büyük servet uçurumu ve 1 milyardan fazla insanın yoksulluğu
- Hedef: Paperclips Unlimited, LLC sahiplerinin serveti Vekili metrik: yapay zeka tarafından işletilen üretim tesisinin ürettiği ataş sayısı Sonuç: şirket sahipleri dahil tüm güneş sisteminin ataşa dönüştüğü paperclip maximizer senaryosu

Aşırı verimlileştirmenin tehlikeli hale gelebileceği alanlar

Aşağıdaki alanlar, ilk iyileştirmeleri genel olarak faydalı olmuş olabilecek; ancak çok iyi yapıldıklarında büyük olumsuz sonuçlar doğurabilecek örnekler olarak ele alınır
- telepresence ve sanal gerçeklik
- kişiselleştirilmiş tıp
- gen tedavisi
- tekil tüketicilere veya seçmenlere göre uyarlanmış pazarlama mesajları
- seçim sonuçlarını tahmin etme
- kod yazma
- yapay zeka
- tedarik zincirindeki tamponların kaldırılması
- fikirlerin hızlı yayılması
- eğlence içeriği üretimi
- insanların satın alacağı yeni ürünleri belirleme
- çiftlik hayvanı yetiştiriciliği
- menkul kıymet alım satımı
- denizden balık çıkarma
- otomobil üretimi

Azaltma yolu 1: vekili hedef hizalama ve düzenlileştirme

Vekili hedefleri istenen sonuçlarla daha iyi hizalamak ilk azaltma yoludur
- Makine öğrenmesinde, test zamanındaki duruma mümkün olduğunca benzeyen eğitim örneklerini dikkatle toplama yöntemi sıkça kullanılır
- Makine öğrenmesi dışında ise yasa, teşvikler ve toplumsal normlar gibi kontrol edilebilir vekili metrikler değiştirilerek hedefle daha iyi hizalanan davranışlar doğrudan teşvik edilir
Düzenlileştirme cezası da aşırı optimizasyonu azaltabilir
- Makine öğrenmesinde parametrelerin kare büyüklüğüne ceza vererek değerlerin küçük kalmasını sağlama yöntemi yaygındır
- Düzenlileştirmenin istenmeyen davranışı doğrudan hedeflemesi gerekmez; modelin tipiklikten sapmasını cezalandıran neredeyse her yöntem iyi çalışabilir
Toplumsal sistemlerde düzenlileştirme, karmaşıklık, sürtünme ve ek maliyet yükleme biçiminde benzetilir
- SMTP’ye ücretlendirme mekanizması ekleyerek her e-posta için küçük bir maliyet koymak
- Artan oranlı vergilerle olağandışı başarının orantısız derecede büyük bir maliyetle ilişkilendirilmesi
- Bir kuruluşun açtığı dava sayısının karesiyle veya üstel değeriyle orantılı mahkeme harcı koymak
- Kullanıcı hakkında saklanan bilgi bit sayısı üzerinden vergi almak

Azaltma yolu 2: gürültü enjeksiyonu ve erken durdurma

Gürültü enjeksiyonu, girdilere, parametrelere veya modelin iç durumuna rastgele oynamalar ekleyerek overfitting’i zorlaştırma yöntemidir
Toplumsal sistemlerde de rastgelelik eklenerek vekili metriğe aşırı uyum sağlayan davranışlar azaltılabilir
- Çok rekabetçi okullar veya işler için adayları sıralayıp ilk k kişiye kesin teklif vermek yerine, sıralamayla orantılı olasılıkla teklif vermek
  - Kabul edilenlerin çeşitliliği artabilir
  - Adayların başvurularını ince ayar yapmak veya değerlendiricilerin küçük sıralama farklarını gözden geçirmek için harcadığı kaynaklar azalabilir
  - Başarısız olma olasılığı daha yüksek olan uzun vadeli adaylar seçilebilir; ancak alışılmışın dışında bir şekilde çok değerli başarı elde etme olasılıkları da olabilir
- Sınav tarihlerini önceden duyurmayıp rastgele belirleyerek son gece çalışmak yerine anlamaya dayalı öğrenmeyi teşvik etmek
- Menkul kıymet borsalarının işlem gerçekleştirme zamanına yaklaşık 1 saniyelik standart sapmaya sahip rastgele jitter eklemesini zorunlu kılmak
- Seçim günü oy verme yönteminin ayrıntılarını rastgeleleştirerek adayların mevcut seçim sisteminin tesadüfi ayrıntılarına overfit olmasını engellemek
Erken durdurma, makine öğrenmesinde felaket düzeyinde overfitting’i önleyen en etkili araç olarak ele alınır
- Eğitim kaybı ve test performansına ek olarak doğrulama kaybı izlenir
- Eğitim kaybı iyileşmeye devam etse bile doğrulama kaybı kötüleşmeye başlarsa eğitim durdurulur
Toplumsal sistemlerde buna, aşırı hazırlık, analiz ve optimizasyonu durduran mekanizmalarla karşılık verilebilir
- Teklif talebi ile teslim son tarihi arasındaki süreyi keskin biçimde sınırlayarak mevcut hazırlık düzeyini daha iyi yansıtmasını sağlamak
- Hisse senedi oynaklığı bir eşiği aşarsa tüm piyasa faaliyetlerini durdurmak
- Rekabeti engelleyen şirketleri antitröst yasalarıyla bölmek
- Bir kararın önemini parasal olarak tahmin etmek ve analize zaten harcanan zamanın değeri bu tutara yaklaştığında hemen karar vermek
- Seçimden önceki 48 saatte medya haberlerine getirilen sınırlama gibi, ajanların hedefe ulaşmak için kullanabileceği bilgileri dondurmak

Model kapasitesi ile overfitting ilişkisi

Aşırı overfitting’in iyi anlaşılan nedenlerinden biri, modelin ifade gücünün vekili görevin karmaşıklığına fazla yakın düşmesidir
Model çok zayıfsa görevde ancak az ilerleme kaydedebilir ve hedef ile vekili metrik arasındaki benzerliği tüketmez
Model çok güçlü ve ifade gücü yüksekse, vekili amacı bağımsız olarak optimize ederken başka amaçlarda uç davranışlar üretmeyebilir
İfade gücü görev karmaşıklığıyla kabaca eşleştiğinde, örneğin parametre sayısı eğitim örneği sayısından birkaç mertebe fazla veya az olmadığında, vekili görevi iyi yapmak için başka yerlerde uç davranışlar sergilemesi gerekebilir
Şekil 1’deki oyuncak deney, 1 boyutlu girdi x’i 1 boyutlu çıktı y’ye eşleyen modelleri aynı 10 veri noktasında eğitir
- 4 parametreli model, veri noktalarını tam tutturmak için fazla zayıftır ama pürüzsüz biçimde yaklaşıklar
- 10.000 parametreli model tüm veri noktalarını kolayca tutturur ve aralarını da pürüzsüz biçimde interpolate eder
- 10 parametreli model veri noktalarını tutturacak kadar güçlüdür; ancak eğitim verisi dışında aşırı bükülerek yeni x değerlerini tahmin etmekte çok kötü olabilir
- Deneyin ayrıntıları colab notebook’ta yer alır

Azaltma yolu 3: kapasite sınırlama ve kapasite genişletme

Yetenek veya kapasite sınırlama, modeli overfit olamayacak kadar küçük yapmaya karşılık gelen bir makine öğrenmesi tekniğidir
- Seçim harcaması sınırlamaları
- Belirli türde şirketlerde çalışabilecek kişi sayısına üst sınır koymak; örneğin lobi gruplarına yalnızca 10 kişi izni vermek
- Yapay zeka sistemlerinin kullanabileceği parametre sayısına veya eğitim compute’una üst sınır koymak
Yetenek veya kapasite genişletme, model çok büyüdüğünde eğitim verisine overfit olsa bile test verisi performansını daha kötü hale getirmeyebileceği gözlemine karşılık gelir
- Hedef ile vekili metrik arasında performans trade-off’u gerekmeyecek kadar kapasiteyi büyütme yöntemidir
- Tüm veritabanlarını herkese açık erişilebilir hale getirmek ve tüm binalara kamera kurarak herkes, devletler ve kuruluşlar hakkındaki tüm bilgileri her zaman herkese açık tutmak senaryosu örnek olarak verilir
  - Bu senaryonun, yazarın değerler sisteminde distopya olduğu açıkça belirtilir
- Temiz enerji temel araştırmalarına yatırım
- Mümkün olduğunca karmaşık, opak ve çeşitli piyasa alım satım ürünlerini birden çok vade aralığında geliştirmek
- Her senaryoda en büyük, en çok compute ve veri gerektiren yapay zeka modellerini kullanmak
Kapasiteyi sürekli büyütme yöntemi makine öğrenmesinde şaşırtıcı derecede iyi çalışır ve direncin az olduğu yoldur
Yanlış hizalanmış hedefleri izleyen kurumları körlemesine daha iyi hale getirirken kurumları düzeltmeye çalışma yaklaşımı korkunç bir fikir olarak değerlendirilir

Yapay zeka ve araştırma gündemi

Goodhart Yasası’nın güçlü versiyonu, yapay zekaya dair başlıca kişisel korkunun temeli olarak sunulur
Yapay zekanın mümkün kılacağı temel değişim, neredeyse tüm işlerde çok kısa süre içinde verimlilik artışı yaratmasıdır
Çeşitli istenmeyen yan etkilerle aynı anda uğraşmak gerekir; çözümler için işbirliği yapma becerisi de bundan etkilenebilir
Makine öğrenmesindeki overfitting sonuçları ile ekonomi, siyaset bilimi, yönetim bilimi ve operasyon araştırması gibi alanlardaki problemler arasında biçimsel ve matematiksel köprüler kurmak için büyük araştırma fırsatları vardır
- PAC Bayes bound kullanarak işçi servetini maksimize etmek için sendika gücünün optimal miktarını tahmin etme örneği verilir
- Siyasi rekabette adayların kontrol edebildiği ve edemediği değişkenler spektrumunu tahmin ederek politik çöküş noktalarını öngörme örneği de verilir
Toplumsal sistemler Goodhart Yasası’nın güçlü versiyonu yüzünden ne kadar çok bozulursa, bunları düzeltmek için gereken ortak rasyonel eylem de o kadar zorlaşır

2 yorum

gguimoon 2024-10-02

Ülkemizdeki CSAT sınavının, başlangıçtaki matematiksel yetkinliği ölçme amacından uzaklaşıp yalnızca not dilimi eşiklerinin dağıtımını daha verimli hale getirmeye çalışan bir sisteme dönüştüğünü duydum. Bu, Goodhart yasasından kaçamayan bir örnek gibi görünüyor.

GN⁺ 2024-09-30

Hacker News görüşleri

Jascha'yı eskiden Google Brain'de olan, şimdi ise Anthropic'te çalışan çok yetenekli bir makine öğrenimi araştırmacısı olarak biliyorum.
Ortak yazarlarıyla birlikte, fizik ve istatistik teknikleri olan ortalama alan teorisi ile serbest olasılık teorisini kullanarak derin sinir ağlarında sinyallerin nasıl yayıldığını matematiksel olarak karakterize etti. Bence bu, son 10 yılda makine öğrenimi alanındaki en derin ama en az takdir edilen teorik ve deneysel sonuçlardan biri. Örneğin dynamical isometry [1] ve bu fikrin gelişimi, çok derin Transformer modellerinde yakınsamayı sağlamakta önemli rol oynadı [2].
Bu yazıyı ve örnekleri okuyunca, bu kişinin makine öğreniminin ötesinde modern toplum genelindeki optimizasyon konusunda olağanüstü sezgilere sahip olduğu açık görünüyor. Teknik arka planı kabul edip, anlam ya da tanım etrafındaki laf dalaşları yerine tartışmayı daha üst bir seviyeye taşımak gerekiyor.
Özünde, hızlı teknolojik ilerlemenin gölgesinde kalan, son derece insani ve empatik bir eylem çağrısı var: “Toplum yanlısı ve tamamen yeni bir alan yaratabilecek araştırma fikirleri arayan bir bilim insanıysanız, makine öğrenimindeki overfitting sonuçları ile ekonomi, siyaset bilimi, yönetim bilimi, yöneylem araştırması gibi çeşitli alanlardaki sorunlar arasında biçimsel ve matematiksel köprüler kurmayı düşünmelisiniz.”
[1] Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks
http://proceedings.mlr.press/v80/xiao18a/xiao18a.pdf
[2] ReZero is All You Need: Fast Convergence at Large Depth
https://arxiv.org/pdf/2003.04887
- Zamanlaması ilginç. Birkaç gün önce biyolog Olivier Hamant'ın çalışmalarından haberdar oldum; o da tam olarak aynı sorunu gündeme getiriyordu.
  Temel tezi şu: çok yüksek performans, yani bilinen hedeflere yönelik etkililik ve verimlilik ile büyük sistem dalgalanmalarına dayanabilen yüksek sağlamlık fiziksel olarak bir arada bulunamaz. Doğada bunun pek çok örneği var ve yaygın kanının aksine evrim yüksek performansı değil, yüksek sağlamlığı optimize eder. Kaynakların bol olduğu bir dünyada performansı öncelemek mantıklı olmuş olabilir; ama artık istikrarsızlığın norm olduğu bambaşka bir döneme girdik. Sağlam olmak için performansın bir kısmından geri adım atmak kaçınılmaz ve sonunda buna zorlanacağız. Uzun zamandır polycrisis hakkında gördüğüm en taze ve ilginç yorum bu.
  https://books.google.co.uk/books/about/Tracts_N_50_Antidote_...
- Genel okuyucu için çeviri: makine öğrenimi, toplumdaki bireyler ve kurumlar arasındaki sinyal iletiminin matematiksel yapısı ile analoji kuruyor.
  Matematikçinin, bir tarafı rahatsız eden sorunun—yani aşırı öğrenme nedeniyle sinir ağının genelleme yeteneğinin düşmesi ve modelleyebildiği fonksiyonun eğitim verisine sıkı biçimde bağlanması anlamındaki makine öğrenimi overfitting'inin—diğer tarafı da rahatsız edeceğini düşündüğü söylenebilir.
  Özetle, toplumsal sistemler ya da aralarındaki sinyal iletimi aşırı geliştiğinde, bir noktadan sonra işlerin basitçe daha kötüye gittiği bir çöküş noktasının mutlaka olacağı anlamına geliyor. Kişisel olarak, her sisteme kusursuz biçimde uyulduğunda ne olacağına bakmak bile, birçok sektörde o çöküş noktasının çoktan epey ötesine geçilmiş olabileceğini düşündürüyor.
- ReZero fikrini seviyorum. Temelde residual katmana öğrenilebilir bir α parametresi eklemekten ibaret.
  Deep Network | xi+1 = F(xi)
  Residual Network | xi+1 = xi + F(xi)
  Deep Network + Norm | xi+1 = Norm(F(xi))
  Residual Network + Pre-Norm | xi+1 = xi + F(Norm(xi))
  Residual Network + Post-Norm | xi+1 = Norm(xi + F(xi))
  ReZero | xi+1 = xi + αi F(xi)
  Ancak pratikte kullanıldığını hiç görmedim. Gemma ve Llama makaleleri de hâlâ katman normalizasyonu kullanıyor gibi. Bir şeyi mi kaçırıyorum?
- Bu fikrin ilginç olmasının nedeni şu: örneğin ekonomi ile makine öğreniminin çalışma biçimlerini birbirine bağlayabilirsek, çalıştırılabilir, düzeltilebilir ve değiştirilebilir bilgisayar programları karmaşık sistem etkileşimleri hakkında doğrudan ölçülebilir veriler sağlayabilir.
  Gerçeklik, kavramları biçimsel olarak doğrulamak için fazla ince ayrıntılı ve çok katmanlı olduğundan, bu tür etkileşimler çoğunlukla Platonik fikirler gibi var olageldi. Ekonominin altında kanıtlanabilir ve kesin mantıktan oluşan bir alt küme olduğu düşüncesi, peşinden gitmeye fazlasıyla değer güçlü bir fikir.
- İtirazın içeriğiyle fiilen ilgilenmeden onu bu şekilde kategorik olarak kenara itmek oldukça manipülatif bir yöntem.
  Duygulara seslenmek ya da otoriteye yaslanmak gibi çeşitli mantık hataları da var ve bu, HN'nin amaçladığı entelektüel merak ruhuyla uyuşmuyor.
Bu iddia, iyi bilinen Goodhart yasasına dayanıyor: Bir ölçüt hedef hâline geldiğinde artık iyi bir ölçüt olmaktan çıkar.
Ancak sorunu yalnızca bir ölçüm meselesi olarak; gerçekten önemsediğimiz şeyi ölçemediğimiz için vekil göstergeleri optimize ettiğimiz şeklinde açıklıyor. Bana göre bu aşırı indirgemeci bir bakış. Sorun yalnızca ölçümde değil, insan davranışında. Parçacıkların aksine insanlar, kurduğumuz her türlü kontrol sistemini aktif biçimde kötüye kullanmaya çalışır.
Bu, “barış, sevgi, yavru köpekler” gibi şeyleri iyi ölçemiyoruz düzeyinden çok daha derin bir sorun. Klasik Goodhart yasasından ziyade Campbell yasasının [0] bunu daha iyi yakaladığını düşünüyorum: “Nicel bir toplumsal gösterge toplumsal karar alma süreçlerinde ne kadar çok kullanılırsa, o gösterge yolsuzluk baskılarına o kadar açık hâle gelir ve izlemek için kullanıldığı toplumsal süreçleri çarpıtıp yozlaştırma eğilimi o kadar artar.”
Önerilen hafifletme yöntemleri olan düzenlileştirme ve erken durdurma bunu en iyi ihtimalle yalnızca dolaylı olarak ele alır; en kötü ihtimalle de istenmeyen davranışlarca kötüye kullanılacak yeni tekillikler yaratabilir.
[0] https://en.wikipedia.org/wiki/Campbell%27s_law
- “İnsanlar, kurduğumuz her türlü kontrol sistemini aktif biçimde kötüye kullanmaya çalışır” sözü doğru; ama bu, kontrol sisteminin yalnızca kontrol etmek istediğimiz şeyi tam olarak kontrol edememesi sayesinde mümkün.
  Kontrol sistemi, gerçekten istediğimiz şeyin kusurlu bir vekilinden ibaret; bu da Goodhart yasasında ölçütün oynadığı role çok benziyor. Bir başka varyasyon da istenmeyen sonuçlar yasası [0]. Belki de henüz keşfetmediğimiz daha genelleştirilmiş, hesaplamalı ya da karmaşık sistemlere özgü bir sürümü vardır.
  [0] https://www.sas.upenn.edu/~haroldfs/540/handouts/french/unin...
- Bunu yalnızca insanlar değil, herhangi bir aktör yapar.
  Delhi’de ne kadar çok ölü kobra getirirse o kadar ödül alan bir yapay zeka aktörü için genetik algoritma kurarsanız, çok geçmeden kobra yetiştirmeye başlayan aktörün en iyi performansı göstereceğini düşünüyorum. Hem insanlarda hem yapay zekada ödül fonksiyonu hacklenmiş olur. Yapay zekada ödül fonksiyonunun kötü tasarlandığı sonucuna varırız; insanlarda ise aktörlerin kurnaz ve ahlaken zayıf olup sistemi “kötüye kullandığına” hükmederiz.
- İnsanlar yalnızca sayılarla değerlendirilmeyi sevmez; vida sıkar gibi baskı uygulayan sistemlere de başkaldırıp onları manipüle etmeye çalışır.
  Bu yüzden alıntı oldukça isabetli ve büyük ölçüde yanlış olma ihtimali de düşük görünüyor.
- Bu tür “yasalar” yaklaşık ve eksik indirgemelerdir.
  Hangisinin yararlı ya da açıklayıcı olduğu somut vakaya bağlıdır. Makine öğrenimi optimizasyonu, sosyal medya algoritması optimizasyonu ve eğitim sistemini standart sınavlarla optimize etmek birbirinden farklıdır.
  Bu çeşitli durumlara tam uyan kusursuz bir soyutlama yoktur; böyle bir kesinliğe de gerek yok. Sorunun nerede çıkabileceğine dair bir sezgi edinmek yeterlidir.
İsveç’te bu, son yaklaşık 20 yılda toplumsal bir sorun hâline geldi.
1: Sağlık hizmetlerinde verimlilik, birinci basamak hekimlerinin “tamamladığı işler” üzerinden ölçülünce, düzenek çok sayıda basit vakayı işlemeye göre optimize edildi. Bu yüzden doktorlar çoğu zaman yüzeysel bir kontrol yapıp istatistiksel olarak uygun ilacı —örneğin aspirin ya da antibiyotik— vererek hastayı eve gönderiyor ya da vaka karmaşık görünüyorsa uzmana havale ediyor.
Sorun şu ki, verimlilikleştirme yüzünden birinci basamak hekimlerinin sayısı azaldı ve fiilen montaj hattı işçilerine dönüştüler; hastayla kişisel temas kaybolduğu için bir şeylerin ters gittiğine dair sinyalleri yakalamak zorlaştı. Bu nedenle kanser gibi şeyler çoğu zaman çok geç teşhis ediliyor; uzman kanser tedavisi iyileşmiş olsa bile artık yapılacak bir şey kalmamış olması sık görülüyor.
2: Demiryolu sistemi özelleştirildi ve taşınan yük miktarına bakılırsa muhtemelen büyük bir başarıydı. Ama sistemde geciken trenlerin arayı kapatması için neredeyse hiç pay yok; temel bakımın ötesine geçecek zaman da yok. Bu da gecikmeleri sıklaştırıyor ve sonunda daha büyük sorunlara yol açıyor.
- Steve Jobs’ın dediği gibi, bunun örnekleri her yerde var.
  “Bir şirket yeterince büyüdüğünde ilk başarısını kopyalamak ister. Herkes ilk başarının nasıl ortaya çıktığına, yani sürece bakar. Sonra o süreci şirket genelinde kopyalar. Çok geçmeden insanlar sürecin içeriğin kendisi olduğu yanılgısına düşer.”
  Küçük şirketlerden dünyanın en büyük devletlerine kadar aynen geçerli. Çoğu kendi içeriğini unutmuş durumda.
- Keşke ABD demiryolları ve sağlık sektörünün karşı karşıya olduğu en büyük sorun bu kadarla sınırlı olsaydı.
Kuyruk teorisinde de ilgili bir yasa var. Kullanım oranı %100’e yaklaştıkça bekleme süresi sonsuza doğru ıraksar.
Süreçlerde, makinelerde veya mühendislerde bir miktar boş kapasite yoksa bazı işler sonsuza kadar bekler.
- Bir zamanlar şehirlerin kaynakları banliyölerden ya da kırsaldan çok daha verimli kullandığını anlatan bir yazı okuduğumu hatırlıyorum.
  Bekleme süresiyle ilgili bu sözü düşününce, şehirlerin neden bu kadar bunaltıcı olduğunu şimdi anlıyorum. Sebep bitmeyen kaynak çekişmesi.
- Eskiden bir fabrikada çalışmıştım; planlama aşamasındaki hedef kullanım oranı %80 idi.
  Kullanım oranını fazla tahmin ederseniz para israf edersiniz; düşük tahmin ederseniz “önemsiz” işler dev kuyruklar hâlinde birikmeye başlar.
- Optimizasyon ölçütüne sağlamlık metriği eklenebilir.
  Beklenmedik durumlara yanıt verecek kadar kullanım oranında pay bırakacak şekilde açıkça optimize edebilirsiniz. Örneğin sistem yüklerine öncelik verirseniz, sistem boşken onu atıl bırakmak zorunda kalmadan, acil durumda düşük öncelikli yükleri atıp kapasite yaratabilirsiniz.
  Yazının anlatmak istediğini anlıyorum; ama bu, optimizasyondan bu kadar kolay vazgeçmemiz gerektiği anlamına gelmez.
- %100 verimli bir sistemin dayanıklılığı yokmuş gibi geliyor.
  Alt sistemdeki küçük bir bozulma bile büyük bir çöküşe yol açar. COVID-19 kaynaklı tedarik zinciri çöküşlerinde bunun uç bir versiyonunu gördük. Otomobil üreticileri neredeyse %100 tam zamanında üretim sistemi kurmuştu; çip kıtlığını absorbe edemediler ve toparlanmaları yıllar sürdü.
  Deney yapma alanı da ortadan kalkar. Her türlü deney artık sistemin içinde değil, ancak dışında mümkün hâle gelir.
- Doğru. Birkaç iş yerinde ve ekipte çalıştım; P0 olmayan işler fiilen sonsuza kadar ele alınmadı.
Egzersiz fizyolojisinde de bu yaklaşık kuralın örnekleri var
Sıradan insanlar için kondisyonun iyi vekil göstergesi sayılabilecek pek çok şey var. Kısa mesafe koşusu, dikey sıçrama, squat, clean and jerk vb. çalışılabilir. Daha hızlı koşmak, daha yükseğe zıplamak, daha ağır squat yapmak; bunların hepsi kondisyonun arttığını ve antrenmanın başarılı olduğunu gösteren işaretlerdir
Birincisi, antrenman yöntemi ne kadar genel olursa gösterge o kadar anlamlıdır. Örneğin kondisyon ölçütü “bir arabayı yokuş yukarı itebiliyor musun?” ise ve antrenman yöntemi kısa mesafe koşusu ile yüzmeyse, daha ağır bir arabayı itebilmek başarının güçlü bir göstergesidir. Buna karşılık antrenman yöntemi “araba itme çalışması” ise aynı ilerleme aynı düzeyde kondisyon artışı anlamına gelmez
İkincisi, sporcu clean and jerk yapan biri gibi ne kadar özelleşirse, performans artışı genel kondisyonu o kadar az temsil eder. Sıfırdan hobi düzeyinde halter kaldırmaya gelme süreci genel kuvvet ve kas kütlesi artışını içerir; ama üniversite sporcusu düzeyinden olimpiyat düzeyine çıkma süreci genellikle başka etkinliklere iyi aktarılmayan, son derece özelleşmiş kondisyon özellikleri gerektirir
Sporda sözü edilen temel kondisyon ve zirve kondisyon da benzer bir metafor olabilir. Sürdürülemez zirve performansı farkında olmadan çalışmak da aşırı optimizasyonun tuzağıdır. “Çizgi yukarı gidiyor” diye körü körüne izleyince ortaya çıkabilir; görünürde harika olan optimizasyon aslında insanı yerel bir maksimuma hapsetmek olabilir. Bunun yalnızca biyolojide değil, makine öğrenmesi optimizasyonunda ve toplumsal olgularda da pek çok benzerliği olduğunu düşünüyorum
- Clean and jerk, neredeyse “eksiksiz” hareketlerden biri sayılabilecek kadar kapsamlıdır
  Özellikle squat varyasyonları da işin içine katılırsa daha da öyledir. Bu yüzden en iyi örnek olmayabilir. Kendi vücut ağırlığından daha ağır bir ağırlıkla birkaç kez clean and jerk yapabilen ama insan kondisyonunun anlamlı yönlerinin çoğunda canavar gibi olmayan birini bilmiyorum
  İnsan bedeni tek bir makinedir ve hormonal yanıt tüm vücudu kapsar. Dayanıklılık ile kuvvet bir spektrumdur, ama bütün beden birlikte uyum sağlar
- Bu daha çok “genel kondisyonun” kesin bir ölçüt olmadığına işaret ediyor
  Bir yere kadar “fiziksel kapasite” gibi bulanık bir kavram iş görür, ama ondan sonra beceri artışı göreve özgü hale gelir ve başka görevlere aktarılmadığı için anlamını yitirir
Bu yüzden GDP'ye odaklanmayı sevmiyorum. Üç aylık yaşam memnuniyeti ve iyimserlik anketlerinin daha iyi bir ölçüt olduğunu düşünüyorum
GDP'yi merak ediyorsanız: Arabam bozulup tamir ettirirsem GDP artar. Ebeveyn evde kalıp çocuğa bakarsa GDP düşer. Evimi kendim temizlersem de GDP düşer
İşsizlik oranı da kaba bir göstergedir. O işlerin insanların istediği işler mi olduğunu, yoksa kötü işleri mecburen yapmak zorunda hissettiklerini mi göstermez
- GDP'nin kaba bir ölçüt olduğuna çok karşı çıkmıyorum; sadece düşüncelerimi toparlamaya çalışıyorum
  Bireylerin yaşam memnuniyeti ve iyimserliğinin ulus-devlet ekonomisi tarafından, üstelik hükümetin bunu optimizasyon hedefi yapmasını gerektirecek kadar büyük ölçüde belirlenmesi gerektiğini düşünmüyorum. Hükümetin işi, dünyanın geri kalanını ezmeden veya gezegeni yok etmeden güvenlik, refah ve fırsat koşullarını oluşturmaktır
  Bunun içinde tatmin edici bir yaşam bulmak benim işimdir; böyle bir yaşam çok farklı ekonomik ve toplumsal yapılar içinde de mümkün olabilir. Benzer şekilde, tüm yurttaşlara evrensel tatmin sağlayacak koşullar muhtemelen yoktur; öyleyse yaşam memnuniyeti ve iyimserliğin hangi özet istatistiğini optimize etmeliyiz?
- Asıl mesele, neyin ölçüldüğünün fark etmemesinde
- Makine öğrenmesinde binlerce nicelikten oluşan vektörlerle uğraşırken, toplumu ve ekonomiyi ölçerken yalnızca bir ya da birkaç sayı kullanmamız ironik
  Haberler, siyasetçiler, forumlar gibi genel söylem, birkaç ölçüt etrafında her zaman aşırı basitleştirilir. Binlerce ölçütle yapılan bir tartışma, kolay aktarılmak için fazla karmaşıktır
  Umarım bir gün çoğu insan, ölçüt sayısı ne kadar azsa bunun bir şeyi gizleyen bir basitleştirme olma olasılığının o kadar yüksek olduğunu örtük olarak kabul eder. Örneğin “X milyarder, demek ki zeki”, “X ülkesinin GDP'si yüksek, o yüzden GDP'si düşük olan Y ülkesinden daha iyi” gibi
- Katılıyorum; bu kapitalizmin geneli için de geçerli
  Geçmişte başarısız olmuş merkezi planlama alternatifleri ve kapitalizmin yerine geçecek bir önerinin kabaca özeti burada:
  https://jacobin.com/2019/03/sam-gindin-socialist-planning-mo...
  İlgili kısma bakarsak, sosyalizmin temel taşları planlama ve işçi denetimidir; ancak aşırı iddialı planlama Sovyet tarzında başarısız olmuş, fazlasıyla özerk işyerleri de Yugoslav tarzında başarısız olmuştur. Kapsayıcı planlama ne etkili ne de arzu edilir; işyeri kolektiflerine doğru ademimerkezileşme ise toplumsal çıkarı saptamak için ekonomik olarak fazla parçalı, planı etkilemek için de siyasal olarak fazla parçalıdır. Bu yüzden temel mesele, devletin, planlamanın, işyerinin ve bunlar arasındaki ilişkinin bu açmazı çözmek üzere nasıl değiştirilmesi gerektiğidir
  Hem kapitalizmin hem sosyalizmin işleyiş birimi işyeridir. Kapitalizmde rekabet eden sermaye birimlerinin parçası olur; sosyalizmde ise kendini genişletmeye yönelik özel birimler dışlandığından, işyeri kolektifleri ortak teknoloji, çıktı, hizmet, geçmiş tarih vb. temelinde pratik biçimde oluşturulmuş “sektörler” içine girer. Bu sektörler ekonomik planlamanın temel birimleri haline gelir ve geleneksel olarak madencilik, makine, sağlık, eğitim, ulaşım gibi ulusal bakanlıkların içinde yer almıştır
  Buradaki radikal yenilik, bakanlıkların planlama yetkisini ve kapasitesini devletin dışındaki sivil topluma devretmektir. Eski bakanlıklar anayasal olarak onaylanır ama devletin dışında durur ve her sektördeki işyeri temsilcilerinin seçip yönettiği sektör konseyleri olarak yeniden örgütlenir. Merkezi planlama kurulu hâlâ ulusal önceliklere göre her sektöre fon tahsis eder; ancak işyeri gücü sektör düzeyinde birleştiğinde devlet ile işçiler arasındaki güç dengesini değiştirir ve piyasa sorununu sosyalizme daha uygun bir biçimde ele alabilir
  Temel nokta, eşitsizliği büyüten teşvikler ile eşitlikçi yatırım eğilimi arasındaki dengedir. Her işyeri kolektifinin kazandığı artık, ortak ya da bireysel tüketimi artırmak için kullanılabilir ama yeniden yatırıma kullanılamaz. Ulusal öncelikler demokratik süreç ve baskılar yoluyla merkezi planlama düzeyinde belirlenir ve sektörlere göre yatırım tahsislerine çevrilir. Sektör konseyleri sorumlu oldukları işyeri kolektiflerine yatırım fonlarını dağıtır; ancak piyasa tarzı kararlardan farklı olarak, en üretken işyerlerini daha fazla kayırıp kalıcı farkları yeniden üretmek yerine, zayıf kolektiflerin üretkenliğini güçlü kolektiflere yaklaştırmayı ana ölçüt olarak alır
  Hayek'in iddiasının aksine, bilginin sistemli biçimde paylaşılmasını engelleyen şey aslında kapitalizmdir. Özel mülkiyetin ve kâr maksimizasyonunun sonucu, bilginin rekabetçi bir varlık olduğu için saklanması gerektiğidir. Buna karşılık sosyalizmde bilginin aktif biçimde paylaşılması işleyişin zorunlu koşuludur ve bu, sektör konseylerinin sorumluluğu olarak kurumsallaştırılır
Bu yazarın adını nerede duyduğumu hatırlamaya çalışıyordum
2015’te ilk üretken difüzyon modelini icat eden kişiymiş
https://arxiv.org/abs/1503.03585
- Benim aklımda Stephan Hoyer ve Sam Greydanus ile birlikte yazdığı, 2019 tarihli zekice bir makaleyle kalmış
  Optimize etmeye çalıştıkları yapıyı tanımlayan fiziksel modelin deposu, düzenleyicisi ve ayarlayıcısı olarak kısıtlanmış bir sinir ağı kullanarak yapı optimizasyonu yapmayı anlatıyordu: https://arxiv.org/abs/1909.04240
  Çok ilginç bir yaklaşım ve makale de çok iyi yazılmıştı
Aklıma zincir restoranlara gitmek geliyor
Her şey focus group’lardan geçirilip optimize edilmiş; keyifli bir yemek için aşırı uyarlanmış bir vekil metrik gibi hissettiriyor. Sanki benim gelip kârıma el konması için optimize edilmiş apaçık bir makinenin içindeyim; buranın bir restoran olması neredeyse ikincil kalıyor
“Merhaba! Benim adım Tracy! Bu akşam size ben servis yapacağım!” deyip kâğıt masa örtüsüne pastel boyayla kendi adını tersinden kusursuzca yazması gibi bir sahne. Bence buranın çalışan kişiliğini biraz yeniden kalibre etmesi gerekiyor
Yöneticiler iş süreçlerini aşırı optimize etmeye çalıştığında da geçerli olduğunu düşünüyorum
Sonunda yaratıcı insanlar ilgisini kaybediyor ve iş katlanılmaz hâle geliyor. İşte ve hayatta biraz kaosa ihtiyaç olduğunu düşünüyorum
- Yapmak istemediğim kısmı aşırı optimize etmeye çalışırken, birçok yan projeyi yapma isteğimi kendi kendime öldürdüğüm oluyor
  Sadece tatsız kısmı halledip devam etmek gerekiyor. Yine de en azından biri bana para verip beni bir girdabın içine çekmiyor
Mahalledeki büyük yapı markette bu yasanın bir örneğini gördüm
Yaklaşık 10 yıl önce mağaza hırsızlığı önlemek için kilitli kafesler kurdu. Başta yalnızca pahalı ürünler içindeydi; biraz zahmetliydi ama çok da kötü değildi. 200 doların üzerinde üst seviye bir elektrikli el aleti alan müşteri, genelde 5 dakika beklemeyi göze alabilir
Ama birkaç yıl sonra neredeyse kesinlikle veri odaklı görünen bir değişiklik oldu. Bir anda hangi ürünlerin kilitlendiği, hangilerinin açıkta bırakıldığı konusunda ayırt edilebilir bir mantık kalmadı. Artık 500 dolarlık bir teşhis cihazı rafta öylece dururken, 5 dolarlık bir ampul kilidin arkasında olabiliyor
Muhtemelen hırsızlıktan kaynaklanan toplam kayba göre veritabanını sıralamanın sonucuydu. Yani yapı markete en çok para kaybettiren ürünleri kilitliyorlardı
Sonuçta mağazanın havası, “bir kutu kürdanı bile çalmayacağı konusunda müşterisine güvenemeyecek kadar kâra odaklanmış bir yer” gibi okunuyor; müşteri açısından da çoğu zaman kafesi açtırmak için bir çalışan beklemeye değmiyor
3 dolarlık birkaç sabunun çalınmasını engellemiş olsalar bile, bu optimizasyonun net kâra yardımcı olup olmadığı şüpheli
- Eczanede cam vitrini açacak birini bulmaktansa Amazon’dan almak çok daha kolay
  Temel ihtiyaçları bile cam dolaba koyan eczaneler genelde personel açısından da yetersiz oluyor
- “Hırsızlık yüzünden yapı markete toplamda en çok zarar veren ürünleri kilitliyorlar” demek ile “bu optimizasyonun net kâra yardımcı olup olmadığı şüpheli” demek doğrudan çelişki gibi görünüyor
  Ancak bunun insanları o mağazaya gitmekten vazgeçirdiğini ve bu kaybın hırsızlıktaki azalmayı bastırdığını gerçekten düşünüyorsanız başka. Üstelik insanlar gitmese bile, rakip yerel büyük yapı marketler de muhtemelen aynı şeyi yapıyordur. Perakende marjlarının genelde büyük olmadığını da unutmamak gerek. Bir ürün çalındığında zararı telafi etmek için kaç tane daha satmak gerekir? Bazı müşteriler Amazon’a gitse bile, hırsızlıktan kaçınmak hâlâ kârlı olabilir
  Gerçekte hırsızlığın azalmasında en büyük etkiyi yapmış olması çok daha olası. “Ayırt edilebilir bir mantık” görünmemesi, bu konularda deneyiminiz olmamasından kaynaklanıyor olabilir. Hırsızlık çoğu zaman ürün fiyatından çok yeniden satılabilirlik tarafından belirlenir. Pahalı ve niş bir elektrikli el aletini yeniden satmak uzun sürer; deterjan ve tıraş bıçakları ise aynı gün topluca elden çıkarılabilir. İnsanlar deterjan ve tıraş bıçağını ampulden çok daha sık kullanır
  Rahatsızlığı sevmemenizi anlıyorum. Ama bence suçlama mağazaya değil, hırsızlara ya da hırsızlığı doğuran etkenlere yönelmeli