2013’te var olan web sayfalarının %38’ine 10 yıl sonra erişilemiyor

(pewresearch.org)

1 puan yazan GN⁺ 2024-05-20 | 1 yorum | WhatsApp'ta paylaş

Web kalıcı bir kayıt gibi görünse de, Pew Research Center örneklemine göre 2013-2023 arasında bir dönem var olmuş web sayfalarının %25’i Ekim 2023 itibarıyla ortadan kayboldu; 2013 tarihli sayfalarda ise %38 erişilemez durumdaydı
Bu sayımdaki erişilemez tanımı, içerik değişikliği ya da erişilebilirlik sorunlarını değil; sayfanın veya barındıran sunucunun ortadan kalktığını açıkça gösteren 9 hata kodu ile sınırlandırıldı
2023 ilkbaharında devlet, haber ve Wikipedia bağlantıları incelendiğinde; haber web sayfalarının %23’ünün, devlet web sayfalarının %21’inin ve English Wikipedia sayfalarının %54’ünün en az bir kırık bağlantı içerdiği görüldü
O dönem Twitter olan X’teki yaklaşık 5 milyon herkese açık tweet 3 ay boyunca izlendiğinde, %18’inin artık kamuya açık biçimde görünmediği belirlendi; bunların %60’ı hesabın gizliye alınması, askıya alınması ya da silinmesi nedeniyleydi
Web sayfaları, kamu kurumu materyalleri, haber bağlantıları, Wikipedia kaynakçaları ve sosyal paylaşımlar genelinde içerikler zamanla kayboluyor; materyal eskidikçe dijital çürüme daha belirgin hale geliyor

10 yılda kaybolan web sayfaları

İnternet, kitaplar, görseller ve haber yazıları gibi modern yaşamın kayıtlarını saklayan bir depo gibi kullanılsa da, bazı içerikler zamanla görünmez hale geliyor
Pew Research Center, 2013-2023 arasında var olmuş web sayfalarından oluşan bir örneklem üzerinde, Ekim 2023 itibarıyla bu sayfaların erişilebilir olup olmadığını kontrol etti
Tüm örneklemde, bir dönem var olmuş web sayfalarının %25’ine artık erişilemiyordu
- %16’sında kök alan adı çalışıyordu ancak ilgili sayfanın kendisine erişilemiyordu
- %9’unda ise kök alan adının tamamı artık çalışmadığı için erişim mümkün değildi
Web sayfası ne kadar eskiyse kaybolma oranı da o kadar yüksekti
- 2013 anlık görüntüsündeki web sayfalarının %38’ine 2023’te erişilemiyordu
- 2023 anlık görüntüsündeki web sayfalarının %8’i erişilemezdi
- 2021 anlık görüntüsündeki web sayfalarının da yaklaşık beşte biri iki yıl sonra erişilemez hale gelmişti

Erişilemezlik nasıl belirlendi?

Bu analizde erişilemez, sayfanın artık mevcut olmaması durumuyla sınırlandırıldı
- Buna, barındıran sunucunun veya sayfanın ortadan kalkması nedeniyle genellikle 404 Not Found gibi sunucu hatalarının görünmesi de dahil
Aşağıdaki durumlar bu araştırmanın kapsamı dışındaydı
- Sayfa adresi mevcut olsa da içeriğin eskisine kıyasla büyük ölçüde değişmiş olması
- Sayfanın mevcut olup görme engelli kullanıcılar gibi bazı kişiler için okunmasının zor ya da imkânsız olması
Web sayfası durumunu belirlemede belirsizlik payı hâlâ var
- Onlarca farklı hata durum kodu bulunuyor ve bunların bazıları kalıcı yok oluş mu yoksa geçici bir kesinti mi olduğunu açıkça göstermiyor
- Birçok site güvenlik gerekçesiyle otomatik veri toplamayı engelliyor
Bu nedenle en muhafazakâr ölçüt uygulandı ve yalnızca sayfanın veya barındıran sunucunun artık mevcut olmadığını ya da işlevsiz durumda olduğunu açıkça gösteren 9 hata kodu erişilemez olarak sayıldı
Hata kodlarının tam listesi methodology içinde yer alıyor

Common Crawl tabanlı web sayfası örneklemi

Analiz, internet arşiv hizmeti Common Crawl üzerinden 2013-2023 arasındaki her yıla ait web sayfalarının rastgele toplanmasıyla yapıldı
Toplam örneklem yaklaşık 1 milyonun altında web sayfasından oluşuyordu ve her yıl için yaklaşık 90 bin sayfa içeriyordu
Ekim 2023 itibarıyla, 2013-2023 örnekleminin tamamında sayfaların %25’i erişilemez durumdaydı
Erişilemeyen sayfalar iki türe ayrıldı
- Tekil sayfa kaybolmuş ama kök alan adı çalışıyor: %16
- Kök alan adının tamamı artık çalışmıyor: %9
Anlık görüntü ne kadar eskiyse erişilemezlik oranı da o kadar yüksekti; 2013 web sayfalarının %38’i artık mevcut değildi

Devlet web sitelerindeki kırık bağlantılar

Devlet web siteleri analizi, Common Crawl’un 2023 Mart-Nisan anlık görüntüsünden yaklaşık 500 bin sayfayı örnek aldı
Örneklem, federal, eyalet ve yerel düzeyler dahil çeşitli devlet web sitelerini kapsıyordu
Devlet web sayfalarında bulunan toplam bağlantı sayısı 42 milyondu
- Bunların %86’sı aynı web sitesindeki başka sayfalara giden iç bağlantılardı
- Devlet web sayfalarının yaklaşık dörtte üçü en az bir bağlantı içeriyordu
- Medyan bazda sayfa başına bağlantı sayısı 50 idi
- En üst %10’luk dilimdeki sayfalar 190, en üst %1’lik dilimdeki sayfalar ise 740 bağlantı içeriyordu
Bağlantıların biçimi de incelendi
- Büyük çoğunluğu https:// ile başlayan güvenli HTTP sayfalarına gidiyordu
- %6’sı PDF gibi statik dosyalara gidiyordu
- %16’sı, başlangıçta işaret ettiği URL yerine başka bir URL’ye yönlendiriliyordu
Bağlantılar tek tek izlendiğinde, devlet web sitelerindeki bağlantıların %6’sının artık erişilemez olduğu görüldü
İncelenen devlet web sayfalarının toplam %21’i en az bir kırık bağlantı içeriyordu
- İç ve dış bağlantılardaki işlevsiz oranı benzerdi
- Tüm devlet düzeylerinde sayfaların en az %14’ünde kırık bağlantı vardı
- Kırık bağlantı oranının en yüksek olduğu sayfalar şehir yönetimlerine aitti

Haber web sitelerindeki kırık bağlantılar

Haber web siteleri analizi, comScore’un “News/Information” olarak sınıflandırdığı 2.063 web sitesinden yaklaşık 500 bin sayfayı örnek aldı
Sayfalar Common Crawl’un 2023 Mart-Nisan anlık görüntüsünden toplandı
Haber sitesi örneklemi, dış web sitelerine giden 14 milyondan fazla bağlantı içeriyordu
- İç bağlantılar toplanmadı ve işlev durumları kontrol edilmedi
- Haber sayfalarının %94’ü en az bir dış bağlantı içeriyordu
- Medyan bazda sayfa başına bağlantı sayısı 20 idi
- Bağlantı sayısında üst %10’luk dilimde yer alan sayfalar 56 bağlantı içeriyordu
Haber sitesi bağlantılarının büyük çoğunluğu https:// ile başlayan güvenli HTTP sayfalarına gidiyordu
- Yaklaşık %12’si PDF gibi statik dosyalara gidiyordu
- %32’si orijinal URL yerine başka bir URL’ye yönlendiriliyordu
- Devlet sitelerindeki dış bağlantılarda yönlendirme oranı %39 idi
Haber sitesi bağlantıları izlendiğinde, toplam bağlantıların %5’inin erişilemez olduğu görüldü
Örneklemdeki haber sayfalarının %23’ü en az bir kırık bağlantı içeriyordu
- Trafik açısından üst %20’lik haber sitelerindeki sayfaların %25’i en az bir kırık bağlantı içeriyordu
- Trafik açısından alt %20’lik haber sitelerindeki sayfaların %26’sı en az bir kırık bağlantı içeriyordu
- Trafik ölçeğine göre kırık bağlantı oranında neredeyse fark yoktu

Wikipedia kaynakça bağlantıları

Analizde English Wikipedia’dan 50 bin sayfa rastgele seçildi ve “References” bölümündeki bağlantılar kontrol edildi
Örneklemdeki sayfaların %82’si, Wikipedia dışındaki web sayfalarına giden en az bir kaynakça bağlantısı içeriyordu
Tüm örneklemde kaynakça bağlantılarının sayısı 1 milyonun biraz üzerindeydi
Tipik bir sayfada kaynakça bağlantısı sayısı 4 idi
Wikipedia kaynakça bağlantılarının toplam %11’ine artık erişilemiyordu
Kaynakça bağlantısı içeren özgün sayfaların yaklaşık %2’sinde tüm bağlantılar kırık ya da erişilemez durumdaydı
Buna ek olarak sayfaların %53’ünde en az bir kırık bağlantı vardı

X/Twitter paylaşımlarının kaybolması

Sosyal medya analizi, o dönem Twitter olan X’te 8 Mart 2023 ile 27 Nisan 2023 arasında herkese açık yaklaşık 5 milyon tweet’in gerçek zamanlı toplanmasıyla yapıldı
Toplama işleminde Twitter Streaming API kullanıldı ve her 30 dakikada bir 3.000 herkese açık tweet toplandı
İzleme 15 Haziran 2023’e kadar sürdü ve her tweet’in sitede erişilebilir kalıp kalmadığı günlük olarak kontrol edildi
Gözlem sonunda, başlangıçta toplanan tweet’lerin %18’i artık kamuya açık biçimde görünmüyordu
- %60’ında tweet’i paylaşan hesap gizliye alınmış, askıya alınmış ya da silinmişti
- %40’ında hesap duruyordu ama tekil tweet silinmişti

Daha sık kaybolan tweet’lerin özellikleri

Belirli dillerde yazılan tweet’lerin kaybolma olasılığı daha yüksekti
- Türkçe tweet’lerin neredeyse yarısına izleme sonunda artık erişilemiyordu
- Arapça tweet’ler de buna yakın, biraz daha düşük bir oranda kayboldu
- Özetle, Türkçe veya Arapça tweet’lerin %40’tan fazlası 3 ay içinde görünmez hale geldi
Varsayılan profil ayarlarını kullanan hesapların tweet’leri de daha sık kayboldu
- Varsayılan profil görseli kullanan hesapların tweet’lerinin yarısından fazlası artık erişilemezdi
- Varsayılan biyografi alanını kullanan hesapların tweet’lerinin üçte birinden fazlası artık erişilemezdi
- Bu tür hesapların tweet’leri, tekil tweet silinmesinden ziyade hesabın silinmesi ya da gizliye alınması nedeniyle kaybolma eğilimindeydi
Doğrulanmamış hesapların tweet’lerinin silinme veya kaldırılma olasılığı da daha yüksekti
Kaybolan tweet’ler genelde daha yeni, nispeten az takipçili ve orta düzeyde aktif hesaplardan geliyordu
- Görünmez hale gelen tweet’leri paylaşan hesaplar, görünür kalan tweet’leri paylaşan hesaplara göre ortalamada yaklaşık 8 ay daha yeniydi
Retweet’ler, alıntı tweet’ler ve özgün tweet’ler genel ortalamadan büyük sapma göstermedi
Yanıtlar görece daha az kaldırıldı; izleme sonunda erişilemezlik oranı %12 idi

Tweet’lerin kaybolma hızı ve yeniden görünmesi

Kaldırılan tweet’lerin çoğu, paylaşımın hemen ardından nispeten hızlı şekilde kayboldu
Hayatta kalma analizine göre tweet kaldırılma zamanları şöyleydi
- Paylaşımdan sonraki 1 saat içinde %1 kaldırıldı
- 1 gün içinde %3 kaldırıldı
- 1 hafta içinde %10 kaldırıldı
- 1 ay içinde %15 kaldırıldı
Sonuçta kaldırılan tweet’lerin yarısı, paylaşımdan sonraki 6 gün içinde erişilemez hale geldi
Sonuçta kaldırılan tweet’lerin %90’ı, paylaşımdan sonraki 46 gün içinde erişilemez hale geldi
Tweet’ler her zaman kalıcı olarak kaybolmuyor
- Toplanan tweet’lerin %6’sı kaybolduktan sonra daha sonra yeniden erişilebilir hale geldi
- Bunun nedeni hesabın gizliden yeniden açığa dönmesi ya da askıdan çıkarılması olabilir
- Yeniden görünen tweet’lerin %90’ına izleme sonunda da Twitter üzerinden erişilebiliyordu

1 yorum

GN⁺ 2024-05-20

Hacker News yorumları

Web sayfalarının %38’inin kaybolmasından daha büyük sorun, pek çok kuruluşun, grubun ve işletmenin artık neredeyse yalnızca Facebook sayfası kullanması ve Facebook dışında web’de hiçbir varlıklarının olmaması.
Sonuçta onlarla etkileşime geçmek için Facebook hesabı şart oluyor
- Forumlar da aynı hale geldi.
  Artık hepsi subreddit’lere, Facebook gruplarına, Discord sohbetlerine taşındı; değerli bilgilerin bu grupların içinde saklı kalması gerçekten üzücü
- Facebook’u yalnızca uzaktaki aile üyeleriyle iletişimde kalmak için kullanıyorum.
  Günde bir kez neler olup bittiğine bakıyorum; hesabınız varsa bu bağlantı bunu çok daha kolay hale getiriyor: https://www.facebook.com/?filter=friends
- Kayda değer ölçekte olup yalnızca Facebook kullanan işletmeler gerçekten var mı, merak ediyorum.
  Benim çevremdeki yerel işletmelerin Google Maps’te epey bilgisi var; web siteleri olsa bile genelde eski oluyor ama doğrudan arayınca merak ettiğim şeyler çözülüyor
- Eski web’in %38’i çeşitliydi, gizli niyetleri daha azdı ve iyi anlamda amatörlerin yaptığı alanlardı.
  Şimdi web çok daha büyüdü ama çok daha homojen; bu oranın muhtemelen %0,00001 civarında olduğunu düşünüyorum ve Web 1.0 sitelerinin bugünün kapalı “grup sayfalarından” daha iyi olduğu kanaatindeyim
- Dijital menüsünü yalnızca Facebook’ta paylaşan bir restorana gitmiştim.
  Facebook kullanmadığımı söyleyince bana tuhaf biriymişim gibi baktılar
Yine de düzgün web siteleri eski içerikleri korumak için az da olsa çaba gösteriyor.
Örneğin 11 Eylül saldırıları sırasında CNN ve BBC’nin haber sayfaları hâlâ duruyor: http://news.bbc.co.uk/hi/english/static/in_depth/americas/20...
http://edition.cnn.com/SPECIALS/2001/trade.center/index.html
Birçok bağlantının düzgün çalışmasını beklemek zor ama eski web’in nasıl göründüğünü görmek bile ilginç
- Eski BBC seçim haberlerindeki etkileşimli öğelerin bir kısmı bugün bile neredeyse çalışıyor.
  20 yıl sonra bugünkü sitelerin çoğunun böyle kalacağını hayal etmek zor; bunun teknik olarak imkânsız olmasından çok, kelime işlemcinin icadından sonra yazı kalitesinin düşmesine benziyor.
  Bugün her şey yönetiliyor ve yapılandırılıyor; kolayca açıklanamayan bir şekilde iyi şeyler üretmeyi mümkün kılan özgürlük ve köpük sanki kaybolmuş durumda
Yalnızca eski içerikleri değil, çeşitli içerikleri koruma çabalarını desteklemek için Internet Archive’a (archive.org) birkaç pound bile bağışlamak iyi olur.
Ayrıca değerli bulduğunuz şeylerin bir gün kaybolmasına karşı mümkün olduğunca yerel kopyalarını almak iyi olur.
20 yılı aşkın süredir kurulumdan kuruluma taşıdığım yer imi dosyamdaki teknik sayfaların önemli bir kısmı artık, özgün sayfa yok olmadan hemen önce alınmış son tam yedeğe gidiyor.
Internet Archive herkes için muazzam bir nimet
- Yer imlerini fazla abarttığımı fark ettim.
  Artık daha sonra başvurmak istediğim içgörülü yazılar, teknik bilgiler, mizah gibi şeyler varsa web sayfasını PDF vb. olarak kaydediyorum.
  Yer imleri, yalnızca en güncel sürümüne erişmenin anlamlı olduğu şeyler için uygun: banka siteleri, alışveriş siteleri, şirketin uzak masaüstü sistemi gibi
- Keşke Internet Archive iki bağımsız yapıya ayrılsa.
  Biri yalnızca web sitelerini korusa, diğeri de e-kitaplar veya video oyunları üzerinden agresif fikrî mülkiyet sınamaları gibi kalan işleri üstlense.
  Böylece “diğer taraf” davalarla çökerse bile web sitesi arşivleme işi ayakta kalabilir. İlki insanlık için önemli bir hizmet olduğu için bağış da yapıyorum ama geleceği için endişeleniyorum
2019’dan beri bir haber web sitesi işletiyorum.
Her saat bir crawler ölü bağlantıları arıyor ve günde yaklaşık bir tanesini archive.org bağlantısıyla değiştiriyor.
En komik olanı, seçimin ertesi günü aday web sitelerinin tamamen boş sayfalara dönüşmesi; en üzücü olanı ise her hafta gece 03.00 ile 05.00 arasında kapanan devlet web siteleri
- İlginç; o crawler her saat tüm bağlantıları mı kontrol ediyor, yoksa parçalara bölüp gruplar halinde mi çalıştırıyor?
Asıl daha yüksek olmamasına şaşırdım.
2013, erken internetin hobi sitesi döneminin epey sonrasındaydı ve yeni sitelerin çoğunun iş amaçlı olduğu bir dönemdi.
İşletmelerin ömrünü düşününce 11 yıl sonra çok daha fazla sitenin yok olmuş olmasını beklerdim.
Belki Angelfire, Geocities gibi topluluk kurma alanlarının büyük ölçüde ölmesi önemli bir pay oluşturmuş olabilir.
Özellikle web sitelerinin ne kadar uzun süre yaşadığını grafikle görmek ilginç olurdu. Erken dönem içeriklerinin epey bir kısmı duruyor; site yok oluşunun zirvesinin de muhtemelen 2008-2018 civarı olduğunu düşünüyorum
- Erken dönem içeriklerin önemli bir kısmı zaten uzun zaman önce ölmüş platformların üzerindeydi.
  Örneğin Geocities, mezuniyet sonrası silinen üniversite tarafından sağlanan FTP klasörleri, Earthlink, Juno, Comcast gibi ISP’lerin sağladığı FTP klasörleri; büyük olasılıkla çoğu silinmiştir
Her şeyin sonsuza kadar kalmasını istemem.
Kısa süre önce 90’larda yaptığım ilk .com’umu tesadüfen buldum; Angelfire’da barındırılmıştı ve archive.org onu özenle yeniden korumaya almıştı, sonuç da tahmin ettiğiniz gibiydi.
İlkokul 4. sınıftayken bir arkadaşımla yaptığımız bir web sayfasıydı; o dönemin ölçütlerine göre fena değildi ama bugünün ölçütleriyle, bağlamı anlasanız bile pek kabul edilebilir olmayan içerikler vardı.
Korkunç değildi ama 90’lar ilkokul öğrencisine özgü, safça bilmemekten kaynaklanan kötü zevkli şeylerdi; muhtemelen vicdanımdan tamamen silinmeyecek, bu yüzden katlanıp kimsenin görmemesini ummaktan başka çarem yok
- Bende de benzer materyaller var.
  Teselli olacaksa, hepimiz sadece çocuktuk ya da ergendik ve dünyayı öğreniyorduk.
  Bizden sonraki kuşak, internetin daha erişilebilir ve bazen daha kalıcı bir yer haline gelmesinden sonra büyüdüğü için onlara daha çok acıyorum
- O acıyı anlıyorum.
  Neyse ki archive da bazen içerikleri kaldırıyor
İnternetteki her şey özünde geçicidir.
Buna karşı koymaktansa kabullenmek daha iyi; bir şeyi saklamak istiyorsanız çevrimdışı bir kopyasını çıkarabilirsiniz.
PDF/A, özellikle -1 ve -2 sürümleri, koruma amacıyla açıkça tasarlanmış biçimlerdir ve statik içerik için uygundur.
Ancak yansıtmanın web yığınına, yani HTTP/HTML’ye, daha kolay yerleşik olmaması üzücü. Yerel kopyayı alternatif yol olarak içeren bağlantılar basitçe oluşturulabilseydi, link çürümesi çok daha az endişe verici olurdu.
Wikipedia’nın her şeyi archive.org üzerinden bağlantılaması bana şahsen biraz geçici bir çözüm gibi görünüyor.
Açıkçası oranın bu kadar düşük olmasına şaşırdım.
Günümüzde web’in büyük kısmı arama motoru optimizasyonu çöplüğü gibi görünüyor.
- Bazen bir şeyler deniyorum, küçük bir web sitesi yayımlıyorum; sonra unutuyorum ve artık ilgili olmadığına karar verince kaldırıyorum.
  Bunun kendisi kötü bir şey değil.
  Yine de değerli içerikler için kolektif hafızamızı koruyan web arşivleri gibi şeylerin olması harika.
  Özellikle olaylar yaşanırken yazılmış doğru kayıtların, sonradan değiştirilemeyecek bir yerde korunmasını isterim. Bugünlerde tarihi yeniden yazmak moda gibi; o dönemin özgün kayıtlarını korumak buna karşı koyabilir.
  O kayıtlar tamamen doğru olmasa bile, o dönemdeki aktörlerin neyi gerçek sandığını anlamaya yardımcı olur.
- Bazı şeyler hâlâ var; yalnızca Google’da artık görünmüyor.
Bence bu, internetin topluca daha iyi kaçınmamız gereken ciddi bir başarısızlığı.
Çoğu durumda içeriğin kendisi muhtemelen hâlâ bir yerlerde duruyor; yalnızca bağlantı bozulmuş oluyor.
Kütüphanelerde kullanılan DOI sistemi gibi iki katmanlı bir sistem bu tür durumlarda yardımcı olabilir: https://nuim.libguides.com/referencing/DigitalObjectIdentifi...
Ancak URL’lerin kullanışlılığını ve rahatlığını korumak için bunun otomatik işlenmesi gerekir; bunun nasıl mümkün olacağından ise pek emin değilim.
Bu bir hata değil, özellik.
Unutmayan ve affetmeyen bir dünyada yaşamak korkunç olurdu.
Değerli içeriği korumak için belli ölçüde çaba gerekmesi de iyi. Böylece değeri daha çok takdir edilir.
- “Unutmayan ve affetmeyen dünya” ayrı bir mesele ve esasen gizlilik ile ilgili bir sorun olarak görülebilir.
  “Değerli içeriğin değerinin anlaşılması için korunma çabası gerektirmesi gerekir” mantığı, neredeyse her şeyin pahalı olması gerektiğini savunmak gibi görünüyor.
  Ucuz depolama kötüdür çünkü dosyaların değerini takdir etmememize yol açar; pahalı sağlık hizmeti iyidir çünkü organların değerini hissettirir demek gibi.
  Zor olan, gelecekte hangi içeriğin değerli sayılacağını öngörmektir. Şimdiye kadar hiçbir insan uygarlığı bunu doğru dürüst başaramadı; genellikle kralların ne kadar büyük olduğunu korumaya odaklandı.
- Apple’ın NeXT’i satın aldığı gün, internette bir yerlerde çok komik bir yazı okumuştum.
  “Macintosh’un çocukları, Unix’in önünde diz çökün…” diye başlıyordu ve metnin tamamı İncilvari bir üslubu koruyarak Mac’in neden NeXT tarafından fethedildiğini açıklıyordu.
  Gerçekten harika bir yazıydı; ara sıra internette yeniden bulmaya çalışıyorum ama neyin kaybolduğunu bilmiyorsanız bilmeniz zor.
- Son 5 bin yıldır nerede yaşadığımızı sanıyorsunuz?
  Ur’un çöplüklerinden çıkarılmış çivi yazılı kil tabletler var; onlar sayesinde Sümer hakkında az da olsa bilgi kalmış durumda.
  Yazının icadı unutmayı imkânsız hale getirdi; Jack Goody, James Carey, David Olson, Barry Powell gibi antropologlar ve Walter Ong gibi yazarlar bunu derinlemesine inceledi.
  Aslında büyük ölçüde geçmişe hapsolmuş korkunç bir dünyada yaşıyoruz ve kültürel karmaşıklık soğan kabukları gibi katman katman birikiyor.
  Herkes geçmişe dönüp ona özlem duyabilir; ancak depolanmış bilgi üzerinden erişilen geçmiş, onu doğrudan yaşamamış kişiler için farklı anlamlar taşır.
  Matbaadan bu yana sürekli bir bilgi enflasyonu içinde yaşıyoruz. Orta Çağ âlimleri matbaa yüzünden herkesin kitap okuyup yazabilmesinden şikâyet ediyordu; skolastikler halk dilinin yükselişi karşısında şoka uğramıştı; Michelangelo ise Flaman ressamların içi boş sanatından yakınıyordu.
  Burada önemli olan, çürümenin gerçekleşme hızı. Yazıda, 2013’te var olan sitelerin %38’inin kaybolduğu söyleniyor; bu sadece 10 yıl.
  Bunların ne kadarının gürültü, ne kadarının faydalı bilgi ya da en azından ilginç içerik olduğunu bilmiyoruz. Çünkü çoktan kayboldular.
  Büyük web kazıyıcıların ne kadarını sakladığını, Google’ın veya Twitter’ın ne kadarını tuttuğunu da bilemeyiz.
  Değerli içeriği nasıl tanımlayacağız? Sırf yarı çıplak bir aktris fotoğrafı olduğu için 1 milyon görüntülenmiş bir tweet mi, yoksa 300 görüntülenmiş önemli bir keşif tweet’i mi?
  İnternet gazete, kitap, dergi, TV ve radyo editörleri gibi bekçileri yıktığında sınırsız sevindik; ama bunun sonucunda gürültüye, komplo teorilerine, mem’lere, TikTok’a vb. kapıldık.
  Sorun şu ki üzerimize yağan devasa bilgi miktarıyla neredeyse başa çıkamıyoruz; ayrıca insan sayısı çok fazla, zevkler çok farklı ve neyin değerli olup olmadığı konusunda uzlaşmak zor.
  Sizin “özellik” dediğiniz şey tasarım gereği öyle olabilir; ama bu, onun yararlı veya ahlaken doğru olduğu anlamına gelmez.

2013’te var olan web sayfalarının %38’ine 10 yıl sonra erişilemiyor

10 yılda kaybolan web sayfaları

Erişilemezlik nasıl belirlendi?

Common Crawl tabanlı web sayfası örneklemi

Devlet web sitelerindeki kırık bağlantılar

Haber web sitelerindeki kırık bağlantılar

Wikipedia kaynakça bağlantıları

X/Twitter paylaşımlarının kaybolması

Daha sık kaybolan tweet’lerin özellikleri

Tweet’lerin kaybolma hızı ve yeniden görünmesi

İlgili okumalar

1 yorum

Hacker News yorumları