- Tarsnap arızası nedeniyle hizmet çevrimdışı kaldı.
- Kesinti, Amazon'un EC2
us-east-1 bölgesinde barındırılan merkezi Tarsnap sunucusundaki sistem durumu kontrolünün başarısız olması nedeniyle meydana geldi.
- Arızanın kesin nedeni bilinmiyor, ancak izole bir donanım hatası olduğu tahmin ediliyor.
- Tarsnap'in izleme sistemi arızayı tespit etti ve operatöre bildirim gönderdi.
- Yedek bir EC2 instance'ı oluşturuldu, ancak veri kaybını önlemek için Tarsnap sunucu kodu otomatik olarak yeniden başlatılmadı.
- Sunucu yeniden başlatıldıktan sonra günlükler dosya sistemi bozulmasını gösterdi; bu nedenle önceki sunucuyu kurtarmak yerine yeni bir sunucu kurulmasına karar verildi.
- Kurtarma süreci, Amazon S3'ten metadata header'larını okumayı ve işlemleri yerelde yeniden çalıştırmayı içeriyordu.
- Kurtarma sürecinde, makine kayıt log girdileri ve başlatılmamış log girdilerinin sırasıyla ilgili hatalar ortaya çıktı.
- Kurtarma süreci beklenenden daha yavaş ilerledi ve daha hızlı performans için optimize edilebilirdi.
- Durum geri yükleme süreci 3 Temmuz'da tamamlandı ve sunucu yeniden çevrimiçi oldu.
- Kesinti sonrası trafik, kesintinin başlamasından yaklaşık 26 saat 16 dakika sonra yeniden başladı.
- Tarsnap, kesinti nedeniyle telafi olarak kullanıcı hesaplarına bir aylık depolama ücretinin %50'sini sundu.
- Kullanıcıların, soru veya endişeleri için Tarsnap'in kurucusu Colin Percival ile iletişime geçmeleri öneriliyor.
1 yorum
Hacker News görüşleri