Opslane - On-call mesajlarını birleştirip stresi azaltan araç

(github.com/opslane)

2 puan yazan GN⁺ 2024-07-29 | 1 yorum | WhatsApp'ta paylaş

LLM kullanarak uyarıları eyleme dönüştürülebilir olanlar ve gürültü olarak sınıflandırır
- Uyarı geçmişini ve Slack konuşmalarını analiz ederek uyarının eyleme dönüştürülebilir olup olmadığını belirler
- Müdahale için duruma özel bilgiler (içgörüler ve ek kaynaklar) sağlayarak uyarı yorgunluğunu azaltır
Slack ile entegre çalışır, uyarı kalıplarını analiz eder ve kanaldaki uyarılar için haftalık rapor sunar

Modüler mimari

Uyarı toplama: Datadog, webhook üzerinden uyarıları FastAPI sunucusuna gönderir
FastAPI sunucusu: Sistemin çekirdeği olarak gelen uyarıları işler, Slack ile etkileşime girer ve veri akışını yönetir
Slack entegrasyonu: Uyarı yönetimi ve etkileşim için kullanıcı arayüzü sağlar
Veritabanı: Uyarı verilerini ve embedding'leri depolamak için Postgres ve pgvector kullanır

Entegrasyonlar

Esnek veri modeli sayesinde birden fazla entegrasyon desteklenebilir. Şu anda Opslane, Datadog'u destekliyor

GN⁺ özeti

Opslane, uyarı yorgunluğunu azaltıp eyleme dönüştürülebilir uyarıları ayırarak on-call deneyimini daha az stresli hale getiren bir araçtır
Slack ile entegrasyonu sayesinde uyarı yönetimi ve debug süreçlerine yardımcı olur, haftalık raporlarla uyarı kalitesini analiz eder
Açık kaynak olarak sunulur, topluluk katkılarını memnuniyetle karşılar ve Datadog entegrasyonunu destekler
Benzer işlevlere sahip araçlar arasında PagerDuty ve VictorOps bulunur.

1 yorum

GN⁺ 2024-07-29

Hacker News görüşleri

Birinci görüş: Uyarı yorgunluğunu azaltmak için uyarıları eyleme dönüştürülebilir olanlar ve gürültü olarak sınıflandırıp işlemek üzere bağlamsal bilgi sağlayan ürünler tartışılıyor
- Bu sorun, faydalı gözlemlenebilirlik oluşturamayan şirketlerin sorununu daha iyi gösteriyor
- Ürün memnuniyetle karşılanabilir, ancak kötü kültürel pratikleri mümkün kılan yönünün ana satış noktası olarak vurgulanmaması tercih ediliyor
- Telekomünikasyon sektörü bu sorunu 15 yıl önce Fault Management otomasyonu ile çözmüştü
- Uyarılar Slack'e taşınınca veriler yapısız metne dönüştü ve karmaşık filtreleme çözümleri gerektirmeye başladı
İkinci görüş: Kritik işler için güvenilmez LLM'ler kullanılmasına dair endişe dile getiriliyor
- Asıl sorunun çözülüp LLM eklenmemesi isteniyor
Üçüncü görüş: All Quiet kurucusunun LLM kullanmayan bir araç geliştirdiği belirtiliyor
- Kullanıcılar kritik uyarıların opak bir LLM'e dayanmasını istemiyor
- AI semptomlara yardımcı olabilir, ancak kök neden olan gözlemlenebilirlik ve süreç sorunlarını çözemez
Dördüncü görüş: LLM ile bildirimlerin önemini filtreleme konusunda endişe dile getiriliyor
Beşinci görüş: Aracı Slack'e sıkı şekilde bağlamanın kullanılabilir platformları sınırladığı belirtiliyor
- Başka anlık mesajlaşma platformları da var
- IM kullanmanın daha geniş sorunu başka bir yorum dizisinde tartışılıyor
Altıncı görüş: Bu yönelimin büyük bir hayranı olunduğu belirtiliyor
- İlk bootstrapping ve sürekli baseline oluşturma hakkında merak dile getiriliyor
- Louie.AI ekibinin SE ve kilit pozisyonlar için işe alım yaptığı bildiriliyor
Yedinci görüş: Mevcut iş yerinde uyarı sisteminin sorunlarının bilindiği ama neden çözülemediği açıklanıyor
- Uyarıların kapatılamaması ve kök nedenin belirlenip çözülememesi sorunu
- On-call sürecini iyi yürütmek kültürel bir sorundur
- Teknik araçlar kültürel sorunları çözemez
- Kültürel sorunları çözmek için ya başka bir iş bulmak ya da sorunu kabullenmekten başka yol olmadığı söyleniyor
Sekizinci görüş: Ürünü geliştirdikleri için tebrik ediliyor ve ilk paragrafta bir kelimenin eksik olduğu belirtiliyor
Dokuzuncu görüş: İş uyarıları için benzer bir UI arandığı belirtiliyor
- Snowflake/BigQuery gibi veri kaynaklarını kullanan bir araç isteniyor
- Kullanılan araçların sonunda spam dolu Slack kanallarına dönüştüğü söyleniyor