1 puan yazan GN⁺ 2024-05-20 | 1 yorum | WhatsApp'ta paylaş
  • İnternetin büyüklüğü ve içeriğin kaybolması

    • On milyarlarca web sayfasının bulunduğu internet, modern yaşamın devasa bir deposu.
    • Ancak kullanıcıların güvendiği içerikler zaman zaman ortadan kayboluyor.
    • Pew Research Center'ın yeni analizi, çevrimiçi içeriğin son derece geçici olduğunu gösteriyor.
      • 2013 ile 2023 arasında var olan tüm web sayfalarının dörtte biri, Ekim 2023 itibarıyla artık erişilemez durumda.
      • Bunun başlıca nedeni, belirli web sayfalarının silinmiş veya kaldırılmış olması.
  • Dijital çürümenin ortaya çıkışı

    • Hükümet ve haber siteleri ile Wikipedia sayfalarının "kaynakça" bölümleri incelendi.
      • Haber sayfalarının %23'ü en az bir bozuk bağlantı içeriyor.
      • Hükümet sitelerinin %21'i en az bir bozuk bağlantı içeriyor.
      • Wikipedia sayfalarının %54'ü artık var olmayan sayfalara giden bağlantılar içeriyor.
  • Sosyal medyada dijital çürüme

    • 2023 ilkbaharında sosyal medya platformu X'ten (o zamanki adıyla Twitter) gerçek zamanlı bir tweet örneklemi toplandı ve 3 ay boyunca takip edildi.
      • Tweet'lerin yaklaşık beşte biri, paylaşımdan birkaç ay sonra artık herkese açık şekilde görünmüyor.
      • Bu vakaların %60'ında, orijinal tweet'i paylaşan hesabın gizliye alınmış, askıya alınmış ya da tamamen silinmiş olduğu görüldü.
      • Kalan %40'ta ise hesap varlığını sürdürse de ilgili tweet silinmişti.
  • Erişilemeyen bağlantılar ve web sayfası tanımı

    • İnternette bir zamanlar var olup şimdi erişilemeyen sayfaların tanımı birkaç farklı şekilde yapılabiliyor.
      • Sayfa artık barındırıldığı sunucuda bulunmuyor ya da sunucunun kendisi artık mevcut değil.
      • Sayfanın adresi duruyor ama içeriği değişmiş durumda.
      • Sayfa mevcut olsa da belirli kullanıcıların (ör. görme engelliler) okuması zor.
    • Bu rapor, ilk tanıma odaklanıyor: artık var olmayan sayfalar.
  • Son 10 yıldaki web sayfaları

    • Common Crawl arşivinden rastgele yaklaşık 1 milyon web sayfası örneklemi toplandı.
      • 2013'ten 2023'e kadar toplanan tüm sayfaların %25'i, Ekim 2023 itibarıyla artık erişilemez durumda.
      • 2013'te toplanan sayfaların %38'ine 2023'te artık erişilemiyor.
  • Hükümet sitelerindeki bağlantılar

    • 2023 Mart/Nisan döneminde toplanan hükümet sitelerinden yaklaşık 500 bin sayfa örneklenmiş.
      • Sayfaların %86'sı dahili bağlantılar içeriyor ve bunların %6'sına artık erişilemiyor.
      • Genel olarak incelenen hükümet web sayfalarının %21'i en az bir bozuk bağlantı içeriyor.
  • Haber sitelerindeki bağlantılar

    • 2023 Mart/Nisan döneminde toplanan haber sitelerinden yaklaşık 500 bin sayfa örneklenmiş.
      • Haber sitelerinin %94'ü en az bir harici bağlantı içeriyor ve sayfaların %23'ü en az bir bozuk bağlantı barındırıyor.
  • Wikipedia'daki kaynak bağlantıları

    • 50.000 İngilizce Wikipedia sayfası rastgele örneklenmiş.
      • Toplanan sayfaların %82'si en az bir kaynak bağlantısı içeriyor ve bu kaynak bağlantılarının %11'ine artık erişilemiyor.
  • Twitter gönderileri

    • 2023 ilkbaharında 5 milyon tweet toplandı ve 3 ay boyunca takip edildi.
      • Toplanan tweet'lerin %18'i, takip döneminin sonunda artık herkese açık şekilde görünmüyordu.
      • Silinen tweet'lerin %60'ında hesap gizliye alınmış, askıya alınmış ya da silinmişti.
      • Tweet'lerin %1'i bir saat içinde, %3'ü bir gün içinde, %10'u bir hafta içinde ve %15'i bir ay içinde siliniyor.
  • Tweet'lerin hayatta kalma analizi

    • Kaybolan tweet'lerin yarısı, paylaşımın ardından ilk 6 gün içinde ortadan kalkıyor.
    • Tweet'lerin %90'ı, paylaşımın ardından 46 gün içinde erişilemez hale geliyor.
    • Silinip daha sonra yeniden herkese açık hale gelen tweet'lerin oranı %6.

1 yorum

 
GN⁺ 2024-05-20
Hacker News görüşü

Hacker News yorumları derleme özeti

  • Facebook sayfalarının sorunu

    • Birçok kurum ve şirket yalnızca Facebook sayfası kullanıyor ve bunun dışında başka bir web varlığı bulunmuyor. Facebook hesabı zorunlu tutuluyor.
  • Arşivleme çabaları

    • CNN ve BBC gibi web siteleri eski içerikleri arşivlemek için çaba gösteriyor. Örneğin: 11 Eylül terör saldırılarıyla ilgili haberler.
  • Internet Archive desteği

    • Eski içeriklerin korunmasını desteklemek için Internet Archive'a (archive.org) bağış yapmak gerekiyor. Önemli içerikler için yerel kopyalar oluşturmak da iyi bir fikir.
  • Haber sitesi işletme deneyimi

    • 2019'dan beri bir haber sitesi işletiliyor; her saat bir crawler ile ölü bağlantılar bulunup arşiv bağlantılarıyla değiştiriliyor. Seçimden sonraki gün aday web sitelerinin sık sık ortadan kaybolduğu görülüyor.
  • Web sitesi ömrü grafiği

    • 2013'ten sonra birçok web sitesinin ortadan kaybolmuş olması bekleniyor. Özellikle topluluk sitelerinin (Angelfire, Geocities vb.) yok olması büyük etki yaratmış durumda. Web sitesi ömrünü grafikle göstermek ilginç olurdu.
  • Eski web sitelerinin sorunları

    • 90'larda Angelfire üzerinde barındırılan ilk .com web sitesi yeniden görülmüş. O zamanlar sorunlu görünmese de bugünün ölçütlerine göre uygunsuz pek çok içerik barındırıyor.
  • İnternetin geçiciliği

    • İnternetin doğası gereği geçici olduğunu kabul etmek gerekiyor. Arşivleme isteniyorsa çevrimdışı kopyalar oluşturmak iyi olur. PDF/A biçimi arşivleme için uygun.
  • SEO sorunu

    • Günümüz web'inin büyük bölümü SEO spam'iyle dolu.
  • Bağlantı kırılması sorunu

    • Bu, internetin büyük problemlerinden biri; içerik hâlâ var olsa da bağlantılar sık sık kırılıyor. Kütüphanelerdeki DOI sistemi gibi iki aşamalı bir sistem yardımcı olabilir.
  • Unutmanın ve affetmenin önemi

    • Her şeyin sonsuza kadar kaldığı bir dünya korkunç olurdu. Değerli içerikleri korumaya yönelik çaba gerekiyor ve bu yüzden onların değeri daha da artıyor.