Sorunun arka planı: Kritik ve uyarı (Warning) bildirim kanalları ayrıldı ve kritik bildirimlerde telefonla arama devreye alındı; ancak aylık 10 bini aşan uyarı bildirimi patlaması nedeniyle bildirimlerin göz ardı edilmesi ve nöbetçi (on-call) yorgunluğunun artması yaşandı.
Temel içgörü: Aşırı bildirimler, sistemi görünür kılmak yerine mesajlaşma aracını bir sağlık denetleyicisine indirger ve sistem görünürlüğünü zayıflatır. Bildirimleri azaltmak için temel metrik olarak Slack emojileriyle (👀, ✅) ölçülen 'bildirim yanıt oranı' önerildi.
Çözüm süreci:
İlk yapılandırma niyeti ile mevcut ortamın uyuşmadığı bildirimler (ör. EBS hacim artırma eşiği uyumsuzluğu) ayarlandı veya silindi.
Önceki çalışanın niyeti anlaşılamayan, anlam taşımayan bildirimler kararlılıkla kaldırıldı.
Ek kazanım: Bildirim gürültüsü temizlendikten sonra, belirli bir sunucudaki yüksek iowait değerinin nedeninin, gerçek iş yüküne kıyasla aşırı ayarlanmış ZFS recordsize olduğu keşfedildi ve normale döndürüldü.
Sonuç: Uyarı niteliğindeki bildirimlerde %95,7 azalma (ayda 10.553 → 453). Gece geç saatlerde/tatillerde gelen kritik telefon çağrılarında %70'in üzerinde azalma. On-call kaynaklı uyku eksikliği çözüldü ve sistem erişilebilirliği ile görünürlüğünde somut iyileşme sağlandı.
3 yorum
Loglar, metrikler ve alarmlar düzenli olarak ayarlanmasını gerektiren bir pratiktir.
Bir yerden gördüğüm bir takma ad diye düşünmüştüm; meğer eskiden cron çıktılarıyla eğlenceli bir yazı yazan kişiymişsiniz. Bu yazınızı da keyifle okudum :D
Beğenerek okuduğunuza sevindim, teşekkür ederim