1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Gizli veri kümelerinden kamuya açık istatistikler üretirken kullanılan gürültü ekleme, ham verideki kişisel bilgileri gizlerken istatistiklerin kullanışlılığını koruyan bir ifşa önleme aracıdır
  • ABD Ticaret Bakanlığı’nın emri, Census Bureau ve Bureau of Economic Analysis’ın tüm istatistik ürünlerinde gürültü eklemeyi yasaklıyor ve diferansiyel gizliliği doğrudan hedef alıyor
  • Census Bureau, 1990–2010 on yıllık nüfus sayımlarında ağırlıklı olarak swapping kullandı; ancak kamuya açık istatistiklerden bireysel kayıtların kolayca yeniden inşa edilebildiği ortaya çıkınca 2020 nüfus sayımında diferansiyel gizliliği benimsedi
  • Diferansiyel gizlilik, katkı sınırlama ile dikkatle kalibre edilmiş gürültü eklemeyi birleştirerek benzer gizlilik düzeylerinde daha yüksek kullanışlılık sağlar
  • Gürültü çıkarılırsa gelecekteki istatistik yayınları ya geçmişe kıyasla çok daha az kullanışlı olacak ya da son derece güvensiz verilere dönüşebilecek

Arka plan

  • İstatistik ürünleri, gizli veri kümelerinden yayımlanan çeşitli sayılardır; bu veri kümelerinde gizli bilgiler varsa yayımlanan sayıların bu bilgileri açığa çıkarmaması gerekir
  • U.S. Census bunun tipik bir örneğidir; istatistikler yayımlanır, ancak ABD sakinlerinin doldurduğu bireysel formların içeriği gizli tutulmalıdır
  • İstatistik alanında, ham verinin gizliliğini korurken kullanışlı istatistikler yayımlamaya yönelik tekniklere ifşa önleme denir
  • İfşa önleme teknikleri arasında belirli eşikleri karşılamayan verileri kaldıran baskılama, nitelikleri daha az hassas hale getiren genelleştirme ve bazı kayıtları rastgele kaldıran örnekleme bulunur
  • İfşa önleme teknikleri arasında ayrıca farklı kayıtların niteliklerini rastgele değiştiren swapping, tek bir kişinin azami etkisini sınırlayan katkı sınırlama ve istatistiklere rastgele sayılar ekleyen gürültü ekleme de vardır
  • Diferansiyel gizlilik ve 2020 nüfus sayımı

    • Bazı teknikler birleştirildiğinde diferansiyel gizlilik elde edilebilir; bu yaklaşım bilim insanları arasında gizlilik korumasının altın standardı olarak yaygın biçimde görülür
    • Diferansiyel gizlilik genellikle katkı sınırlama ile dikkatle kalibre edilmiş gürültü ekleme birleşimine dayanır
    • Census Bureau, 1990’dan 2010’a kadar on yıllık nüfus sayımlarında çoğunlukla swapping kullandı
    • Daha sonra swapping’in son derece güvensiz olduğunu ve yalnızca kamuya açık istatistiklerle bireysel kayıtların kolayca yeniden inşa edilebildiğini fark etti
    • Bureau, federal yasa gereği bu kayıtları gizli tutmak zorunda olduğundan birkaç alternatif denedi ve saldırıları önlerken istatistiklerin kullanışlılığını en iyi koruyan yöntem olarak 2020 nüfus sayımında diferansiyel gizliliği benimsedi
  • Kullanışlılık kaybı ve tepki

    • Diferansiyel gizlilik, matematiksel olarak zarif olduğu için değil, saldırıları hafifletmeye yönelik seçenekler arasında verinin kullanışlılığını en çok koruduğu için seçildi
    • Kesin gizlilik parametreleri de güçlü ispat garantileri sağladıkları için değil, kabul edilebilir bir gizlilik koruma düzeyine ulaşırken verinin kullanışlılığını mümkün olduğunca artırmak için seçildi
    • Yeni keşfedilen gizlilik kısıtları altında kullanışlılığın en fazla korunmuş olması, 2010 nüfus sayımı kadar kullanışlılığın korunmuş olduğu anlamına gelmiyordu
    • Sayılar daha az doğru hale geldi ve bu doğruluk kaybı çok daha görünür olduğu için görmezden gelmek zorlaştı
    • Demograflar ve sosyal bilimciler, çalıştıkları verinin gürültülü veri olduğunu artık görmezden gelemez hale geldi; bu veriyi kavramsallaştırma ve ele alma biçimlerinde büyük bir dönüşüm gerekti
    • Census verilerini gerçekten bireysel kayıtları yeniden inşa etmek için kullananlar artık bunu yapamaz hale geldi ve demograflar bunun yaygın bir uygulama olduğunu kabul etti
    • Siyasi uygulayıcıların, gerrymandering çabalarının bir parçası olarak bu tür yeniden inşa işlemlerini yaptığı da açık bir sır

Emrin içeriği

  • Yürütme organı, gürültü eklemenin artık kabul edilebilir bir ifşa önleme tekniği olmadığına karar verdi
  • Emir, diferansiyel gizliliği açıkça hedef alıyor; ancak rastgelelik içeren diğer teknikleri de etkiliyor gibi görünüyor
  • Emir metni, genelleştirmenin her zaman öncelikli olması gerektiğini ve baskılamanın yalnızca “son çare” olarak kullanılması gerektiğini belirtiyor
  • Emrin neden bu kadar spesifik olduğu bilinmiyor
  • Emir, “Anayasa, yasa, düzenleme veya diğer hukuki hükümlerle çelişecek şekilde yorumlanmamalıdır” diyerek temkinli bir ifade kullanıyor; ilgili istatistik ürünlerine ilişkin gizlilik yükümlülükleri ise yürürlükte kalıyor

Fiili etki

  • Sonuçlar, kullanışlılık ya da gizlilik ya da her ikisi açısından ciddi olabilir
  • Gelecekte yayımlanacak istatistikler, geçmiştekilerden daha az kullanışlı olabilir ya da inanılması güç ölçüde güvensiz hale gelebilir
  • İfşa önleme araç kutusundan yararlı bir aracı çıkarmak, gizlilik ile kullanışlılık arasındaki ödünleşimi her zaman daha acı verici hale getirir
  • Bu araştırma alanının amacı, gizlilik risklerini daha iyi anlamak ve nicelleştirmek, ayrıca kullanışlılığı korurken bu riskleri azaltacak daha iyi araçlar geliştirmektir
  • Diferansiyel gizliliğin yeri

    • İstatistik yayımlamada diferansiyel gizlilik şu anda mevcut en iyi araçtır
    • Diferansiyel gizlilik, ödünleşimi daha hassas biçimde nicelleştirme olanağı sunar ve benzer gizlilik düzeylerinde rakip tekniklerden daha fazla veri kullanışlılığı sağlar
    • Diferansiyel gizlilik kaldırıldığında geriye, benzer gizlilik düzeylerinde daha düşük kullanışlılık sunan ya da aynı kullanışlılıkta daha kötü gizlilik veren teknikler kalır
    • Rakip teknikler de gürültü eklemeye dayanır
  • Diğer teknikler de rastgelelik kullanır

    • Diğer istatistik kurumlarının kullandığı Cell Key method, istatistiklere gürültü ekler
    • Census’un 1990’dan 2010’a kadar kullandığı swapping de sürece rastgelelik katar
    • Örnekleme, istatistik çalışmalarının genelinde yaygın olarak kullanılır
    • Imputation) da teknik olarak veriye gürültü ekler
  • Genelleştirme ve baskılamanın sınırları

    • Genelleştirme ve baskılama çok kaba araçlardır
    • Genelleştirme ve baskılama ancak istatistiklerin zaten çok kaba olduğu ve yayımlanan istatistik sayısının fazla olmadığı durumlarda işe yarar
    • U.S. Census gibi küçük gruplara ilişkin çok sayıda istatistik içeren karmaşık veri ürünlerinde, genelleştirme ve baskılama ya veri kullanışlılığını tamamen yok eder ya da gizlilik saldırılarına çok açık hale gelir
    • Kullanışlılığın yok olması özellikle azınlık gruplarda belirgindir
  • Gürültünün saldırıları neden zorlaştırdığı

    • İstatistik yayımlarına yönelik gizlilik saldırıları, denklem sistemleri çözme problemi gibidir
    • Tüm istatistiklerin tamamen doğru olduğunu kesin olarak bildiğinizde bu çok daha kolay hale gelir
    • Gürültü, saldırganı olasılık hesaplamaya, belirsizliği nicelleştirmeye ve taban senaryoları dikkatle değerlendirmeye zorlar
    • Rastgelelik, resmi garanti olmasa bile ifşa önleme açısından yararlıdır ve saldırıları çok daha zorlaştırır
    • Rastgelelik kaldırıldığında saldırılar sıradan hale gelir

Bu neden oluyor?

  • Motivasyon bilinmiyor
  • Amacın, gelecekteki gerrymandering çabalarına yardımcı olmak için U.S. Census’u fiili yeniden tanımlamaya imkân veren istatistikler yayımlamaya zorlamak olup olmadığı bilinmiyor
  • Tersine, amacın araştırmacıların nüfus içindeki adaletsiz eşitsizlikleri görememesi için kullanışlı demografik verilerin yayımlanmasını engellemek olup olmadığı da bilinmiyor
  • Hanlon's razor alternatif bir yorum sunuyor
  • İstatistiksel veri yayımlamada temel bir gizlilik/kullanışlılık ödünleşimi vardır ve bu ödünleşim can sıkıcı bir sorundur
  • Çok sayıda istatistik yayımlamanın otomatik olarak yüksek gizlilik riski doğurmaması durumunda iş çok daha kolay olurdu
  • Diferansiyel gizlilik bu ödünleşimi açıkça görünür kılar ve bu yüzden görmezden gelinmesini zorlaştırır
  • Diferansiyel gizliliği yasaklamak, sorun yokmuş gibi davranmanın ve sorunun kendiliğinden ortadan kalkmasını ummanın bir yolu olabilir

1 yorum

 
GN⁺ 4 시간 전
Hacker News görüşleri
  • Son nüfus sayımında anket görevlisi olarak çalıştım; topluluk güveni zaten düşüktü ve ilginç karşılaşmalar da çoktu
    Güven veren bir yüzle epey mahrem veriler toplarken, bu verilerin gerçekten sorumlu biçimde kullanılacağına ve yönetileceğine içtenlikle inanıyordum
    Şimdi hassas devlet verilerinin silahlaştırılmasını ve paraya çevrilmesini engelleyen güvenlik duvarı yıkılmışken, 2030'da kapı kapı gezecek insanlar için üzülüyorum; kendilerine zarar verebilecek bilgileri gönüllü olarak verecek olanlar içinse daha da çok
    “Pahalı nüfus sayımında sadece kafa sayısı yeter” tepkisini de ilginç buluyorum. Toplanan veriler ortak anlayış için önemli bir temel çizgiydi ve bu durum ileride veri kalitesi için hiç iyi olmayacak
    Bu arada bana çoğunlukla yanıtsız haneler verilmişti; doğal olarak bölgemdeki insanlar ya devletten hoşlanmıyor, ya tuhaf derecede tehditkâr broşürleri görmezden geliyor, ya da yakın zamanda taşındıkları için sayım dönemindeki oturanları bilmiyor gibi görünüyordu

    • Sadece nüfus sayımı veri ürünleri açısından değil, demografik veriler aslında neredeyse tüm diğer anket araştırmalarının ekstrapolasyon temelidir
      On binlerce yanıtlayıcıyla yapılan ulusal kamuoyu yoklamalarından küçük topluluk araştırmalarına kadar hepsi buna dayanıyor
      En çeşitli katılımı elde eden nüfus sayımı sonuçları ABD'ye neredeyse sınırsız bir getiri sağlar; ulusal gazetelerden kırsal county'lere kadar herkese yarar sağlar
      En küçük topluluklar bile nüfus sayımının mahremiyet korumasına dair kalan güvenini yitirirse, tüm bu açılardan en büyük kaybı yine onlar yaşar
    • Benzer bir iş yaptım ve duyguyu çok iyi özetliyor. Böyle bir güveni yeniden inşa etmek gerçekten üzücü ve zor
      İnsanların, bu verileri kötüye kullanmak istediğini gururla söyleyen bir partiye çekilmeye devam etmesi de ayrıca moral bozucu
    • Asıl düşüşün Edward Snowden sonrası NSA ile ilgili bilgilerin ortaya saçılmasıyla başladığını düşünüyorum
      Bu, devlete güvensizliği büyük ölçüde tetikledi ve insanları ankete yanıt vermeye ikna etmek zaten zordu
      Sıradan bir insan Census Bureau'nun verilerini gerçekten güvende tuttuğuna neden inansın ki?
      Kanun ya da anayasa ne derse desin, herhangi bir kurumda çalışıyorsanız insanlara hükümet gibi görünürsünüz. Yanıt oranları düşmeye devam ediyor ve şimdi başkan ekonomik istatistiklere bile saldırıyor
      Alaycı bakarsak, istatistik kurumlarını küçültmeye ve istatistikleri daha da işe yaramaz hale getirmeye devam edecekler gibi görünüyor. Bu politika değişikliği de o yönde; sonunda işi özel sektöre bırakmaya çalışacaklar
      Ama özel sektör, devletin sahada yaptığı işi yapamaz
    • Devlet, ülkeyi oluşturan insanların ne durumda olduğunu çok ayrıntılı anlamaya çalışmak için nüfus sayımı yapar
      İyileştirme planları yapmak ve herkesin hayatını daha iyi hale getirmek için doğru bilgi gerekir
      “Sadece kafa saymak yeter” tavrı, bugün birçok insanın düşünme biçimini ilginç şekilde ortaya koyuyor
      Ya hayatı daha iyi yapmak istemiyorlar ya da bunun nasıl yapılacağını hayal bile edemiyorlar gibi görünüyor. Gerçekten üzücü
  • Bu hafta Texas Cumhuriyetçi Parti eyalet kongresinde, taslak parti programına diferansiyel mahremiyete karşı bir ifade ekleyen bir değişiklik önerildi
    Nüfus sayımına dahil olmuş birinin örneği olarak, köprünün altında yaşayan 1 evsizin diferansiyel mahremiyet yüzünden 5 kişi gibi görünebileceğini, bunun da sağduyuya aykırı derecede saçma olduğunu söyleyerek bunu gerekçelendirdiği aktarıldı
    Geçip geçmediğini bilmiyorum ama bu tür işleri iten taban baskısı böyle işliyor

    • Bunun taban hareketi olduğunu nereden biliyorsun?
  • Bence oldukça üzücü. İdeal durumda devlet, şu anda var olan insanların bileşimini görebilmeli ki birlikte yürüttüğümüz kurumlar hakkında iyi kararlar verebilelim
    Veri toplama altyapısını kasıtlı olarak zedelemek, sonradan pişman olunacak bir hata gibi geliyor
    ABD'nin başarısının önemli bir kısmının ayrıntılı verilerle çalışan iyi kurumlardan geldiğini düşünüyorum. Çünkü politikaları sonuçlara göre daha hızlı ayarlayabiliyordu
    İnsanların neden tüm devlet kapasitesini azaltmak istediğini anlıyorum. Hükümetin karşıtlarıyla dolu olduğunu ve bu kapasitenin kendilerine karşı kullanılacağını hissediyorlar
    Ama göreli güçleri azaldıkça bu ataleti yenme kapasiteleri de azalıyor, devlet daha az yetkin hale geliyor ve sonunda hayat kötüleşmeye başlıyor
    Konut birimi düzeyinde veriye anında ihtiyaç yok ama sayım bloklarını uygun seçim bölgelerine yerleştirme gibi durumlar istisna olabilir. Yine de hangi toplulaştırma düzeyinin üstündeyse, mümkün olan en iyi bilgi kullanılmalı

    • Altyapıyı kasıtlı olarak bozmak, bu yönetimin tekrarlayan temalarından biri
    • Bu, devlet gücünü zayıflatmıyor
      Sadece devleti daha aptal hale getiriyor; böylece ileride doğru şeyi yapmak istese bile etkili kararlar almak için gereken bilgiye sahip olmuyor
    • Ayrıntılı bilgiler eyaletlere verilsin, programları da eyaletler işletsin fikri bana daha ilginç geliyor
      Federal hükümet yalnızca toplulaştırılmış veriyi alsa yeter
    • Bunun ötesi, ABD hükümetinin nüfus sayımı gizliliğini bozup Japon kökenli insanları ırka göre kamplara göndermesi örneğinde olduğu gibi soykırımı mümkün kılmakla aynı noktaya geliyor
      Mesele “tüm” devlet kapasitesi değil; devlet yalnızca gerekli işleri yapabilmek için gereken mutlak asgari kapasiteye sahip olmalı
      Örneğin ırk bilgisini toplamak mutlak olarak gerekli değil, bu yüzden yapılmamalı
      Çünkü gelecekte hükümet karşıtlarla dolu olabilir. Hatta daha da ötesinde, devlet aktörlerinin verdiği en büyük zararlar, kasıtlı kötülükten çok “yardım etme” girişimlerinden düzenli olarak çıkmıştır
    • Bu yazı, nüfus sayımını daha az bozacak bir kararla ilgili
      Doğru bir nüfus sayımını önemsiyorsan aslında bunu kutlamalısın
  • Nüfus sayımında, ne yapılırsa yapılsın belli bir düzeyde güven varsayılır
    Yani bu verilerin dolandırıcılık, finansal sahtekârlık veya başka kötüye kullanımlar için kimliği belirlenebilir hale getirilmeyeceğine dair güven
    Ama NY'de konut satış kayıtları herkese açık ve bunun yan etkisi olarak birçok mortgage şirketi ödeme talebi gibi görünen sahte yazılar gönderiyor
    Diferansiyel mahremiyet kesinlikle gereklidir ve sosyal bilimcilerin veriyi birey düzeyinde yeniden kuramaması da zaten amaçlanan sonuçtur
    Çoğu amaç için makro düzeyde açıklama yeterlidir; daha fazlasını istemek ise bir gözetim devleti istemekle aynıdır

    • Açıkçası bu bana daha çok uygulama başarısızlığı ve finansal sistem tasarımındaki bir hata gibi geliyor
      Almanya'da mortgage'ın ya da onu tutan bankanın sıcak patates gibi bir başka enayiye satılması o kadar yaygın olmadığı için, böyle mektuplar gelse insan hemen şüphelenirdi
  • Veri setlerinde yasaklanır, analiz aşamasında eklenirse olur. İstenen türde gürültü seçilebilir
    Buradaki siyasi ima tam olarak ne, bilmiyorum ama belli bir düzeyde, “bu kişi/hane yanıt vermeyi reddetti” bilgisini de içeren gerçek temel değerlere ihtiyaç var
    Ama ham veriyi yayımlamak, ulusal güvenlik açısından kendi ayağına sıkmak gibi görünüyor; ayrıca yapılmaması için başka pek çok neden de var

    • Önerinin tam olarak ne olduğunu bilmiyorum ama gürültü kişi başına bağımsız eklenirse, birden çok kopya satın alıp ortalamasını alarak azaltılabilir
      Bunu yanlış yapmanın çok fazla yolu var; bu yüzden diferansiyel gizlilik üzerine bu kadar çok analiz yapıldı
    • Gürültü, özel verilere değil, kamuya açık verilere eklenir
  • Diferansiyel gizlilik bunun göz ardı edilemeyeceği açık bir ödünleşim yarattığı için değil de, iki hedeften birinin diğerinden daha değerli olduğu ve bu yüzden feda edilmemesi gerektiği anlamına geliyor olabilir

  • Burada “her şey tamamen açıklanmalı” diyen tepkilerin kötü anlamda tek boyutlu düşünme olması şaşırtıcı
    Nüfus sayımı sadece soru sormaktan ibaret
    Farklı özelliklere sahip insanlara ait verileri yayımlayıp bunları silah haline getirmeye başlarsanız, insanlar ya yalan söyler ya da hiç cevap vermez
    O zaman elde kalan şey, hiç veri olmamasından daha kötü veridir. Çünkü insanlar o kötü veriye göre hareket etmeye çalışacaktır

    • Başta insanlar bilmezken ya da umursamazken veriyi toplayıp sonra silah haline getirebilirsiniz
      Yakın zamanda başka bir ülkede bunun en az bir kez yaşanmış olması nedeniyle, bence bu kaygı aşırı tepki değil
    • Veriyi silah haline getiren aktör bizzat ABD hükümeti
      En bariz örnek, Census Bureau'nun 2. Dünya Savaşı sırasında Japon kökenli insanların listelerini çıkarıp bunları toplama amacıyla kullanmasıydı
      Şu anda asıl itici gücün, insanların oy haklarını ellerinden alacak listeler oluşturmak olduğunu düşünüyorum
    • Kolay çözüm, verinin çözünürlüğünü ve kapsamını mutlak olarak gerekli seviyeye indirmektir
      Nüfus sayımı, temsil kararları için bilgi sağlamak amacıyla vardır. Geri kalan her şey yan işlevdir
      İlçe veya seçim bölgesi düzeyinde veri tutulabilir ama çözünürlük arttıkça veri çıkarılıp mahalle ya da blok düzeyinde sadece nüfus sayısı bırakılabilir
      Bir bloktaki sakinlerin ırkını, etnik kökenini, sosyoekonomik geçmişini bilmek, onları ayrımcılığa uğratmak dışında pek işe yaramaz
    • Asıl soru, insanların en başta neden bu tür sorulara cevap verdiğidir
      Ben nüfus sayımı görevlisinin gelmesini bekleyip sadece ikamet ettiğim yerde kaç kişi yaşadığını söylüyorum
      Bu, uygun seçim temsili için gerekli; onun dışındaki hiçbir şey gerekli değil
    • Bu yönetimin gerçeklerle hiç ilgisi yok
  • Bu unsurları uzlaştırmak çok zor
    2020 nüfus sayımında diferansiyel gizlilik benimsendiği, bu tek filtre kaldırılırsa kullanışlılıkta ya da gizlilikte, hatta belki ikisinde birden “korkunç sonuçlar” doğacağı söyleniyor
    Ama nüfus sayımı yüzyıllardır yapılıyor ve sorun çıkmamıştı; gizlilik unsuru sadece son sayımda eklendi
    Bunlardan birini kaldırınca birden korkunç bir durum oluşuyorsa bu tuhaf. Daha önce böyle bir gizlilik özelliği yoktu; yani aslında yüzlerce yıl öncesine göre çok daha iyi durumda değil miyiz?
    Bu yüzden bana duygusal olarak abartılmış bir mesele gibi geliyor

    • İnanması zor olabilir ama son birkaç yüzyılda matematiksel teknikler ve hesaplama gücü arttı, ayrıca her şey dijitalleşti
      Eskiden maliyet nedeniyle imkânsız olan gizlilik saldırıları artık üç kuruşa yapılabiliyor
      Ayrıca belirtildiği gibi, insanlar nüfus sayımı verilerini seçim bölgesi manipülasyonu için zaten kullanıyordu; yani bu saldırılar gerçektir ve uzun zamandır da sürmektedir
    • 100 yıl önce olmayıp bugün olan önemli şeylerden biri bilgisayar
      Geçmişte kişisel kayıtları yeniden oluşturmanın, en azından büyük ölçekte, pratik olmadığı düşünülebilirdi. Artık düşünülemez
      4 haneli bir parola yüzlerce yıl önce güvenli olabilirdi ama bugün aynı nedenle bir güvenlik ihmali sayılır
    • Bu kaygılar, çoğu gizlilik kaygısında olduğu gibi, önce abartılı ve hayali bir kuruntu gibi görünür; sonra bir noktada artık öyle olmaktan çıkar
    • Bilgisayarların ve veri bilimiyle makine öğrenmesindeki gelişmeler neredeyse her şeyi açıklıyor
      Günümüzde veriyi yeniden tanımlamak için kullanılan birçok teknik, geçmişte mevcut olmayan hesaplama gücünü gerektiriyor
      Mümkün olsa bile kaynaklar ölçeği sınırlıyordu. Bunu istatistik mezunu biri olarak söylüyorum
      Bir de bağlantılılık var. İnternet, sosyal medya, web takibi ve hack'lerle karşılaştırma yapılabilecek veri kaynakları çok daha çoğaldı
      1970'ler ve 80'lerde bile ABD vatandaşlarının kayıt izi bugüne göre dramatik biçimde daha azdı
    • Makalede açıkça belirtildiği gibi, gizlilik koruması nüfus sayımında 1990'dan beri vardı
      Sadece önceki korumalar güçlü değildi ve kırılabildikleri için daha güçlü korumalarla değiştirildiler
      1990, kişisel bilgisayarların yaygınlaştığı ve bireylerin kullanabildiği hesaplama gücünün patladığı dönemdi; o andan itibaren nüfus sayımının yayımladığı verilerden kişisel bilgileri ayırmak mümkün hale geldi
      Sorun bu yüzden o zaman ortaya çıktı. Abartılmış bir mesele değil
  • Belirli bir Avrupa ülkesinden biri açısından, nüfus sayımında hangi cevabın sorun yaratacağını bilmek mümkün değil
    “Dininiz nedir?” tamamen zararsız görünebilir ama 1940'larda bir yabancı işgal gücü bu cevabı bireylere bağlayabildiğinde, sonradan ölümcül bir cevaba dönüştü

    • Böyle bir yabancı işgal gücü olsa, düzeltilmemiş ham veriyi istemez miydi?
    • ABD nüfus sayımında din sorulmaz
      2020 soruları, 1 Nisan itibarıyla bu ev, daire ya da mobil evde kaç kişinin yaşadığı veya kaldığı, atlanmış ek biri olup olmadığı, konut türünün ne olduğu, telefon numarası, 1 numaralı kişinin adı, cinsiyeti, yaşı ve doğum tarihi, Hispanik/Latin/İspanyol kökeni olup olmadığı ve ırkıydı
      Yalan söylemeyi engelleyen özel bir şey de yok
    • ABD'de nüfus sayımında din sormak yasalara aykırıdır
      Hiç kimse dini inançları ya da bir dini kuruluşa üyeliği hakkında bilgi açıklamaya zorlanamaz
      https://www.congress.gov/94/statute/STATUTE-90/STATUTE-90-Pg...
    • Fransa eskiden çok fazla liste yapardı. Listeleri severdi ve listelerin iyi şeyler olduğunu düşünürdü
      Yahudilerin listelerini de bir gün bir şey yaparken işe yarayabilir diye çıkardılar; Almanlar da bunları bulunca çok sevindi
      ABD'nin insanlara algılanan kökenleri hakkında, örneğin AAPI, AA, Latino vb., soru sorma takıntısı garip olmanın ötesinde, açıkça tehlikeli
      Bu sorular hiç sorulmamalı ve isimlerle birlikte asla kaydedilmemeli
      Neyse ki artık veri brokerlarından satın alıp Palantir'e hedefleme yaptırabildikleri için onlar açısından daha da kolaylaştı
    • “Dininiz nedir?” sorusunun nüfus sayımında hiç mantıklı olmadığını düşünüyorum
  • Farkların açıkça ortaya konduğunu söylemenin aslında tersine olduğunu düşünüyorum
    Diferansiyel gizlilik gibi teknikler, bu alanla nefes alır gibi ilgilenen az sayıdaki uzman dışında, böyle bir gerilim olduğu gerçeğini gizliyor
    Bu kararı savunacak kadar bilgim yok ama gerçekten böyle bir gerilim varsa, bu tür tekniklere erişilemediğinde istatistikçi olmayan insanların da bu gerilimle yüzleşeceğini düşünüyorum
    Halkla ilgili veriler, sonuçları kamufle etmeyi gerektirecek kadar riskliyse, belki de en başta toplanmaması gereken verilerdir

  • İnsanların özel verileri düzenli olarak istemeden ifşa ediliyor. Netflix izleme kayıtları ve tıbbi kayıtlar bunun başlıca örnekleri
    İnsanlar sızan bilgi miktarını sürekli olduğundan az tahmin ettiği için bu gerilimi iyi değerlendiremiyor
    Bu yüzden yalnızca güvenli miktarda bilginin sızmasına zorlayan bir yaklaşım doğru olur
    Veriyi paylaşmamak ya da toplamamak daha iyi olabilecek durumlar vardır ama bu verinin açık bir değeri var, dolayısıyla saklanıp açıklanacak en iyi miktar 0 değildir

  • Kişisel olarak, teknoloji şirketlerinde büyük organizasyonlarda veri biliminin etkisini kaybetmesinin büyük nedenlerinden birinin, veri bilimi ekiplerine verinin bekçisi gibi davranılması olduğunu düşünüyorum
    İstatistiksel düşünmenin sorumluluğu dış kaynaklaştırılınca, etrafındaki insanların bunu düzgün anlamasına gerek kalmadan bir kişinin gerilimleri önceden belirlediği tuhaf bir güç duygusu ortaya çıkıyor

  • Bu mantıkla kimse hiçbir nedenle asla adres toplamamalı
    Hiçbir bağlamda kişisel olarak tanımlanabilir bilgiler alınıp verilemiyor ya da toplanamıyorsa toplum nasıl işlerdi?
    Anonimleştirme ve güvenlik kritik önemdedir ve birçok önemli işlevi mümkün kılar
    Potansiyel olarak riskli bilgilerin asla verilmediği ya da toplanmadığı bir dünyada postayı nasıl alabilirdiniz?