11 puan yazan computerphilosopher 2026-03-03 | 3 yorum | WhatsApp'ta paylaş

Sorunun arka planı: Kritik ve uyarı (Warning) bildirim kanalları ayrıldı ve kritik bildirimlerde telefonla arama devreye alındı; ancak aylık 10 bini aşan uyarı bildirimi patlaması nedeniyle bildirimlerin göz ardı edilmesi ve nöbetçi (on-call) yorgunluğunun artması yaşandı.

Temel içgörü: Aşırı bildirimler, sistemi görünür kılmak yerine mesajlaşma aracını bir sağlık denetleyicisine indirger ve sistem görünürlüğünü zayıflatır. Bildirimleri azaltmak için temel metrik olarak Slack emojileriyle (👀, ✅) ölçülen 'bildirim yanıt oranı' önerildi.

Çözüm süreci:

İlk yapılandırma niyeti ile mevcut ortamın uyuşmadığı bildirimler (ör. EBS hacim artırma eşiği uyumsuzluğu) ayarlandı veya silindi.

Önceki çalışanın niyeti anlaşılamayan, anlam taşımayan bildirimler kararlılıkla kaldırıldı.

Ek kazanım: Bildirim gürültüsü temizlendikten sonra, belirli bir sunucudaki yüksek iowait değerinin nedeninin, gerçek iş yüküne kıyasla aşırı ayarlanmış ZFS recordsize olduğu keşfedildi ve normale döndürüldü.

Sonuç: Uyarı niteliğindeki bildirimlerde %95,7 azalma (ayda 10.553 → 453). Gece geç saatlerde/tatillerde gelen kritik telefon çağrılarında %70'in üzerinde azalma. On-call kaynaklı uyku eksikliği çözüldü ve sistem erişilebilirliği ile görünürlüğünde somut iyileşme sağlandı.

3 yorum

 
darjeeling 2026-03-03

Loglar, metrikler ve alarmlar düzenli olarak ayarlanmasını gerektiren bir pratiktir.

 
roxie 2026-03-03

Bir yerden gördüğüm bir takma ad diye düşünmüştüm; meğer eskiden cron çıktılarıyla eğlenceli bir yazı yazan kişiymişsiniz. Bu yazınızı da keyifle okudum :D

 
computerphilosopher 2026-03-03

Beğenerek okuduğunuza sevindim, teşekkür ederim