6 puan yazan GN⁺ 2025-03-18 | 1 yorum | WhatsApp'ta paylaş
  • Dijital koruma (Digital Preservation) uzmanı David Rosenthal'ın sunum içeriğinin özeti

Yedekleme (Backup) ve arşivlemenin (Archival) farkları

  • Yedekleme, bir felaket durumunda en güncel duruma geri dönebilmek için gereklidir
    • Yedek verisinin geçerli ömrü, son yedekten geri yüklemeye kadar geçen süre tarafından belirlenir
    • Yedek verisinin bulunduğu depolama ortamının ömrü önemli değildir
  • Dijital koruma alanında yaklaşık 20 yıl çalıştıktan sonra, benim 4 önemli sistem yedekleme yöntemim
    • Posta ve web sunucuları: Raspberry Pi üzerinde haftalık tam yedek ve günlük artımlı yedek alınıyor → haftalık yedekler DVD-R'a kaydediliyor
    • Masaüstü PC: Harici sabit diske gecelik tam yedek alınıyor → düzenli olarak 3 sabit disk arasında döngüsel saklama yapılıyor
    • iPhone: Her gün Mac Air'e yedekleniyor → Time Machine aracılığıyla SSD'ye periyodik yedek alınıyor
    • Tesis dışı saklama: Her hafta DVD-R, SSD ve sabit diskler harici bir lokasyonda tutuluyor
  • Arşiv verisi nedir?
    • Zaman geçtikçe veri, depolama hiyerarşisinde alt katmanlara iner
    • Arşiv verisi = birincil depolamada tutma maliyetinin karşılanamadığı veri
    • Arşiv depolama sistemlerinin temel hedefi maliyeti düşürmektir; bunun karşılığında erişim gecikmesi kabul edilir

Arşiv depolama ortamlarının gerçeği

  • Basında "sonsuz süre saklanabilen depolama" hakkında çok fazla abartı var
  • Araştırmadan çıkan yeni depolama teknolojilerinin pazarda büyük ölçekte kullanılma olasılığı düşüktür
  • Yalnızca arşive yönelik ortamların pazar talebi düşüktür, bu yüzden ticari başarı elde etmeleri zordur
    • Örnek: LTO tape, toplam depolama ortamı pazarının %1'inden azını oluşturuyor
    • 2023'te OD-3 (1TB optical disk), piyasadaki yetersiz talep nedeniyle iptal edildi

Depolama ortamlarının pazara giriş zamanı sorunu

  • Yeni bir depolama teknolojisinin pazara girmesi uzun zaman alır
  • HAMR sabit diskler: Araştırmanın başlamasından 26 yıl sonra pazara çıktı
  • Silica ve DNA depolama: On yıllardır araştırılıyor, ancak ticarileşmeleri için en az 5 yıl daha gerekiyor

Depolama ortamlarının ekonomiklik sorunu

  • Depolama ortamının kendisinden çok depolama sistemi altyapı maliyeti önemlidir
    • Tape, disk gibi ortamların maliyeti toplam maliyet içinde düşük bir paya sahiptir
    • Maliyet avantajı için veri merkezi ölçeğinde işletim gerekir
    • Arşiv depolama küçük ölçekte işletildiğinde ekonomik değildir

Bulut depolama ve lock-in sorunu

  • Bulut hizmetlerinde arşiv depolama maliyeti uzun vadede çok yüksektir
  • Amazon Glacier: Uzun süreli saklamada depolama maliyeti düşebilir, ancak veri geri alma maliyeti yüksektir
    • Depolama maliyeti: $10,900/yıl
    • Geri alma maliyeti: $49,550 (1PB bazında)
    • Toplam maliyet: $60,950
    • Lock-in süresi: 50.0 ay
  • Google Archive: Yüksek depolama ve geri alma maliyeti → uzun süreli saklama için verimsiz
    • Depolama maliyeti: $13,200/yıl
    • Geri alma maliyeti: $210,810 (1PB bazında)
    • Toplam maliyet: $224,510
    • Lock-in süresi: 175.6 ay
  • Microsoft Archive: Saklama maliyeti düşük, ancak veri geri alma maliyeti yüksek
    • Depolama maliyeti: $22,000/yıl
    • Geri alma maliyeti: $40,100 (1PB bazında)
    • Toplam maliyet: $62,200
    • Lock-in süresi: 20.0 ay
  • Lock-in sorunu: Veri geri alma maliyeti yüksek olduğu için veriyi taşımak zorlaşır
  • Amazon Glacier, en düşük depolama maliyetine ve görece daha düşük geri alma maliyetine sahiptir

Project Silica (Microsoft'un Silica projesi)

  • Silica: Ultra yüksek yoğunluklu veri depolama ortamı
    • Femtosaniye lazer ile silica platter üzerine veri yazılır
    • Depolama yoğunluğu yüksektir ve fiziksel kararlılığı güçlüdür
  • Maliyet sorunu: Femtosaniye lazer pahalıdır → seri üretimle fiyatın düşmesi beklenir
  • Okuma/yazma ayrımı → güvenliği artırır ve veri bütünlüğünü sağlar
  • Okuma hızı sorunu: Yanıt süresinin 15 saat olması bekleniyor → yalnızca büyük ölçekli sistemlerde verimli

Veri geri yükleme sorunu

  • Arşivde asıl önemli olan veriyi geri yükleyebilme olasılığıdır
  • Microsoft, Svalbard adasında film tabanlı açık kaynak kod depoluyor
    • Felaket sonrası geri yükleme olasılığı düşüktür
    • Uzaklık ve kötü hava koşulları nedeniyle erişim zordur

LOCKSS sistemi (Lots Of Copies Keep Stuff Safe)

  • Düşük maliyetli depolama ortamlarında çok sayıda kopya tutmak → veri güvenliğini artırır
  • Yedekleme ve geri yükleme, pahalı sistemlerden çok çok sayıdaki kopya sayesinde güvence altına alınır
  • Maliyet verimliliği önemlidir → pahalı depolama ortamları yerine daha ucuz depolama sistemleri tercih edilir

Sonuç

  • Arşiv depolamanın özü teknoloji değil, ekonomikliktir
    • Yalnızca arşive yönelik ortamlar ekonomik açıdan verimsizdir
    • Bulut hizmetlerinde yüksek geri alma maliyeti → lock-in sorunu yaratır
  • Uzun vadeli depolama maliyetini düşürmek için büyük ölçekli veri merkezlerinde işletmek gerekir
  • Project Silica, arşiv depolama teknolojileri içinde en umut verici olanlardan biri, ancak ticarileşmesi zaman alacak

1 yorum

 
GN⁺ 2025-03-18
Hacker News görüşleri
  • Yapay zeka, kuantum bilişim, 6K ekranlar, M2 NVME ve milyarlarca ağ cihazı var; buna rağmen sıradan veriler disk arızaları, SSD'lerin kararsızlığı ve bit çürümesi nedeniyle yalnızca yaklaşık 5 yıl dayanabiliyor
    • Bunu aşmak için JBOD, RAID ve NAS'ı sürekli ayakta tutmak ya da verileri M-Disc Blu-ray'e yazmak gerekiyor; ayrıca buluta emanet etmek veya her ikisini birden yapmak gerekebiliyor
    • Basit bir 3-2-1 yedekleme stratejisi şans eseri işe yarayabilir, ancak büyük ölçekli veri arşivleme hâlâ zor
  • "Yüzlerce yıl" problemi üzerine kafa yorulduğu ve kesin işe yarayacağı düşünülen yöntemlerin şunlar olduğu belirtiliyor
    • Malzemeye kazımak ya da damgalamak (taş tabletler, Edison silindirleri, shellac 78'likler, plaklar, Voyager Golden Record vb.)
    • Kağıda mürekkeple basmak veya delmek (kitaplar, kartlar, bantlar)
    • Fotoğraf; mikrofiş/mikrofilm (GitHub Arctic Code Vault), litografi
  • Yakın zamanda arşiv sınıfı mikrofilme nasıl "baskı" yapılabileceği araştırılmış; birkaç seçenek var ama çoğu, mikrofilmi tarayıp dijital kopya üretmeye dayanıyor
    • Kişisel deneyime göre, ikinci sınıfta çizilen bir kurşun kalem resmi dijital materyallerden birkaç yüz yıl daha uzun ömürlü olabilir
  • Kurumsal ölçekte maliyet hesabı, bireysel ölçekte olandan farklı olabilir
    • Linear Tape-Open, petabaytlarca veri saklanması gerektiğinde ucuz bir depolama ortamı
    • Sürücü maliyetiyle 400TB sabit disk alınabilir
    • Seri üretilen sabit disklerin LTO teypinden daha güvenilir olduğu düşünülüyor
    • Kişisel olarak teyp ile deneyim pek iyi olmamış
  • "Svalbard takımadalarında 1969 yazında jeolojik araştırma yaptım" notu, yazar hakkında daha fazla şey öğrenme isteği uyandırmış; kariyeri oldukça ilgi çekici
  • Bulut depolamayı yedekleme için kullanırken Object Lock'ı açmayı unutmamak gerekiyor
    • Offline depolama kadar iyi değil ama R/W medyadan çok daha iyi
    • Şirkette restic kullanılarak B2'ye yedek alınıyor ve her seferinde yinelenen veriler ayıklanmış yedekleme yapılıyor
  • 3-2-1 yedekleme stratejisi kullanılıyor
    • Verinin üç kopyası iki farklı medya türünde tutuluyor ve bir kopya da dışarıda saklanıyor
    • Önemli veriler SSD'de aynalanıyor ve birden fazla Blu-ray kopyası saklanıyor
    • Blu-ray kullanılmasının nedeni, 1859'daki Carrington Event gibi jeomanyetik fırtınalara karşı koruma sağlamak
  • Keşke teyp arşivleri daha kolay erişilebilir olsaydı
    • Bu niş bir pazar ve ağırlıklı olarak kurumsal kullanıma yönelik olduğu için sürücüler binlerce dolardan başlıyor; kapasite düşürüldüğünde ise modern SSD'lerden daha az kalıyor
  • Makale çeşitli konulara değiniyor ve tek bir sonuca varmak zor
    • Backblaze CTO'sundan bir alıntıyla bitiyor: "Arızayı hesaba katın ve en ucuz parçaları satın alın"
    • Bu büyük şirketler için uygun olabilir ama bireyler veya küçük işletmeler için uygun değil
    • Kişisel olarak ucuz harici sabit disklere yedek alınıyor ve arşivleme M-DISC Blu-ray üzerinde yapılıyor
  • 1991'den beri dosya arşivleniyor ve bunlar farklı formatlara taşınmış
    • 3-2-1 yedekleme stratejisi kullanılıyor ve tüm dosyalar yılda iki kez checksum ile doğrulanıyor
    • Betikler kullanıldığında bu, haftalık birkaç komutla kolayca yönetilebiliyor
  • LOCKSS hakkında görüş isteniyor
    • LOCKSS, verinin yakın zamanda doğrulanmadıysa aslında mevcut olmadığı fikrini ciddiye alıyor gibi görünüyor