1 puan yazan GN⁺ 2023-07-28 | 1 yorum | WhatsApp'ta paylaş
  • Tarsnap arızası nedeniyle hizmet çevrimdışı kaldı.
  • Kesinti, Amazon'un EC2 us-east-1 bölgesinde barındırılan merkezi Tarsnap sunucusundaki sistem durumu kontrolünün başarısız olması nedeniyle meydana geldi.
  • Arızanın kesin nedeni bilinmiyor, ancak izole bir donanım hatası olduğu tahmin ediliyor.
  • Tarsnap'in izleme sistemi arızayı tespit etti ve operatöre bildirim gönderdi.
  • Yedek bir EC2 instance'ı oluşturuldu, ancak veri kaybını önlemek için Tarsnap sunucu kodu otomatik olarak yeniden başlatılmadı.
  • Sunucu yeniden başlatıldıktan sonra günlükler dosya sistemi bozulmasını gösterdi; bu nedenle önceki sunucuyu kurtarmak yerine yeni bir sunucu kurulmasına karar verildi.
  • Kurtarma süreci, Amazon S3'ten metadata header'larını okumayı ve işlemleri yerelde yeniden çalıştırmayı içeriyordu.
  • Kurtarma sürecinde, makine kayıt log girdileri ve başlatılmamış log girdilerinin sırasıyla ilgili hatalar ortaya çıktı.
  • Kurtarma süreci beklenenden daha yavaş ilerledi ve daha hızlı performans için optimize edilebilirdi.
  • Durum geri yükleme süreci 3 Temmuz'da tamamlandı ve sunucu yeniden çevrimiçi oldu.
  • Kesinti sonrası trafik, kesintinin başlamasından yaklaşık 26 saat 16 dakika sonra yeniden başladı.
  • Tarsnap, kesinti nedeniyle telafi olarak kullanıcı hesaplarına bir aylık depolama ücretinin %50'sini sundu.
  • Kullanıcıların, soru veya endişeleri için Tarsnap'in kurucusu Colin Percival ile iletişime geçmeleri öneriliyor.

1 yorum

 
GN⁺ 2023-07-28
Hacker News görüşleri
  • Bu yazının editörü, kesinti sonrasında herkesin Tarsnap hesabına bir aylık depolama ücretinin %50’sini iade etti.
  • Bu editör, durumu ele alışındaki cömert ve müşteri odaklı yaklaşımı nedeniyle övgü alıyor.
  • Bu editör, yazının gördüğü ilgiden şaşkınlığını dile getiriyor ve kişisel nedenlerle sorulara yanıt verme konusunda sınırlı olduğunu belirtiyor.
  • Bir yorumcu, ek kesinti süresini dinlenmeyle takas etmenin sorunun çözümüne yardımcı olabileceğini öne sürüyor.
  • Kurtarma sürecini düzenli olarak test etmek, hataları veya sorunları belirleyip gidermeye yardımcı olur.
  • Bu postmortem, profesyonelliği, nezaketi ve dürüstlüğü nedeniyle takdir ediliyor.
  • Yorumcular, gelecekteki kesinti süresini en aza indirmek için arıza kurtarma adımlarının oluşturulmasını ve test edilmesini öneriyor.
  • Benzer olaylarda işletmenin dayanıklılığını artırmak için yarı zamanlı çalışan istihdam edilmesi öneriliyor.
  • Potansiyel kullanıcılar için, tek bir kişiye, bu durumda Colin Percival’a, bağımlı olmanın riski dile getiriliyor.
  • 2014’teki bir kod hatasının kesintinin nedeni olduğu doğrulanıyor ve bu tür sorunları yakalamak için TLA+ modellemesi öneriliyor.
  • Tarsnap web sitesindeki altyapı sayfası, kesintiyi yansıtacak şekilde güncellenmeli.
  • Tarsnap’in şifreleme yazılımının Dropbox ile entegre edilerek güvenli veri depolama sağlayıp sağlayamayacağına dair bir soru gündeme getiriliyor.