- Dijital koruma (Digital Preservation) uzmanı David Rosenthal'ın sunum içeriğinin özeti
Yedekleme (Backup) ve arşivlemenin (Archival) farkları
- Yedekleme, bir felaket durumunda en güncel duruma geri dönebilmek için gereklidir
- Yedek verisinin geçerli ömrü, son yedekten geri yüklemeye kadar geçen süre tarafından belirlenir
- Yedek verisinin bulunduğu depolama ortamının ömrü önemli değildir
- Dijital koruma alanında yaklaşık 20 yıl çalıştıktan sonra, benim 4 önemli sistem yedekleme yöntemim
- Posta ve web sunucuları: Raspberry Pi üzerinde haftalık tam yedek ve günlük artımlı yedek alınıyor → haftalık yedekler DVD-R'a kaydediliyor
- Masaüstü PC: Harici sabit diske gecelik tam yedek alınıyor → düzenli olarak 3 sabit disk arasında döngüsel saklama yapılıyor
- iPhone: Her gün Mac Air'e yedekleniyor → Time Machine aracılığıyla SSD'ye periyodik yedek alınıyor
- Tesis dışı saklama: Her hafta DVD-R, SSD ve sabit diskler harici bir lokasyonda tutuluyor
- Arşiv verisi nedir?
- Zaman geçtikçe veri, depolama hiyerarşisinde alt katmanlara iner
- Arşiv verisi = birincil depolamada tutma maliyetinin karşılanamadığı veri
- Arşiv depolama sistemlerinin temel hedefi maliyeti düşürmektir; bunun karşılığında erişim gecikmesi kabul edilir
Arşiv depolama ortamlarının gerçeği
- Basında "sonsuz süre saklanabilen depolama" hakkında çok fazla abartı var
- Araştırmadan çıkan yeni depolama teknolojilerinin pazarda büyük ölçekte kullanılma olasılığı düşüktür
- Yalnızca arşive yönelik ortamların pazar talebi düşüktür, bu yüzden ticari başarı elde etmeleri zordur
- Örnek: LTO tape, toplam depolama ortamı pazarının %1'inden azını oluşturuyor
- 2023'te OD-3 (1TB optical disk), piyasadaki yetersiz talep nedeniyle iptal edildi
Depolama ortamlarının pazara giriş zamanı sorunu
- Yeni bir depolama teknolojisinin pazara girmesi uzun zaman alır
- HAMR sabit diskler: Araştırmanın başlamasından 26 yıl sonra pazara çıktı
- Silica ve DNA depolama: On yıllardır araştırılıyor, ancak ticarileşmeleri için en az 5 yıl daha gerekiyor
Depolama ortamlarının ekonomiklik sorunu
- Depolama ortamının kendisinden çok depolama sistemi altyapı maliyeti önemlidir
- Tape, disk gibi ortamların maliyeti toplam maliyet içinde düşük bir paya sahiptir
- Maliyet avantajı için veri merkezi ölçeğinde işletim gerekir
- Arşiv depolama küçük ölçekte işletildiğinde ekonomik değildir
Bulut depolama ve lock-in sorunu
- Bulut hizmetlerinde arşiv depolama maliyeti uzun vadede çok yüksektir
- Amazon Glacier: Uzun süreli saklamada depolama maliyeti düşebilir, ancak veri geri alma maliyeti yüksektir
- Depolama maliyeti: $10,900/yıl
- Geri alma maliyeti: $49,550 (1PB bazında)
- Toplam maliyet: $60,950
- Lock-in süresi: 50.0 ay
- Google Archive: Yüksek depolama ve geri alma maliyeti → uzun süreli saklama için verimsiz
- Depolama maliyeti: $13,200/yıl
- Geri alma maliyeti: $210,810 (1PB bazında)
- Toplam maliyet: $224,510
- Lock-in süresi: 175.6 ay
- Microsoft Archive: Saklama maliyeti düşük, ancak veri geri alma maliyeti yüksek
- Depolama maliyeti: $22,000/yıl
- Geri alma maliyeti: $40,100 (1PB bazında)
- Toplam maliyet: $62,200
- Lock-in süresi: 20.0 ay
- Lock-in sorunu: Veri geri alma maliyeti yüksek olduğu için veriyi taşımak zorlaşır
- Amazon Glacier, en düşük depolama maliyetine ve görece daha düşük geri alma maliyetine sahiptir
Project Silica (Microsoft'un Silica projesi)
- Silica: Ultra yüksek yoğunluklu veri depolama ortamı
- Femtosaniye lazer ile silica platter üzerine veri yazılır
- Depolama yoğunluğu yüksektir ve fiziksel kararlılığı güçlüdür
- Maliyet sorunu: Femtosaniye lazer pahalıdır → seri üretimle fiyatın düşmesi beklenir
- Okuma/yazma ayrımı → güvenliği artırır ve veri bütünlüğünü sağlar
- Okuma hızı sorunu: Yanıt süresinin 15 saat olması bekleniyor → yalnızca büyük ölçekli sistemlerde verimli
Veri geri yükleme sorunu
- Arşivde asıl önemli olan veriyi geri yükleyebilme olasılığıdır
- Microsoft, Svalbard adasında film tabanlı açık kaynak kod depoluyor
- Felaket sonrası geri yükleme olasılığı düşüktür
- Uzaklık ve kötü hava koşulları nedeniyle erişim zordur
LOCKSS sistemi (Lots Of Copies Keep Stuff Safe)
- Düşük maliyetli depolama ortamlarında çok sayıda kopya tutmak → veri güvenliğini artırır
- Yedekleme ve geri yükleme, pahalı sistemlerden çok çok sayıdaki kopya sayesinde güvence altına alınır
- Maliyet verimliliği önemlidir → pahalı depolama ortamları yerine daha ucuz depolama sistemleri tercih edilir
Sonuç
- Arşiv depolamanın özü teknoloji değil, ekonomikliktir
- Yalnızca arşive yönelik ortamlar ekonomik açıdan verimsizdir
- Bulut hizmetlerinde yüksek geri alma maliyeti → lock-in sorunu yaratır
- Uzun vadeli depolama maliyetini düşürmek için büyük ölçekli veri merkezlerinde işletmek gerekir
- Project Silica, arşiv depolama teknolojileri içinde en umut verici olanlardan biri, ancak ticarileşmesi zaman alacak
1 yorum
Hacker News görüşleri