2 puan yazan GN⁺ 2024-07-29 | 1 yorum | WhatsApp'ta paylaş
  • LLM kullanarak uyarıları eyleme dönüştürülebilir olanlar ve gürültü olarak sınıflandırır
    • Uyarı geçmişini ve Slack konuşmalarını analiz ederek uyarının eyleme dönüştürülebilir olup olmadığını belirler
    • Müdahale için duruma özel bilgiler (içgörüler ve ek kaynaklar) sağlayarak uyarı yorgunluğunu azaltır
  • Slack ile entegre çalışır, uyarı kalıplarını analiz eder ve kanaldaki uyarılar için haftalık rapor sunar

Modüler mimari

  1. Uyarı toplama: Datadog, webhook üzerinden uyarıları FastAPI sunucusuna gönderir
  2. FastAPI sunucusu: Sistemin çekirdeği olarak gelen uyarıları işler, Slack ile etkileşime girer ve veri akışını yönetir
  3. Slack entegrasyonu: Uyarı yönetimi ve etkileşim için kullanıcı arayüzü sağlar
  4. Veritabanı: Uyarı verilerini ve embedding'leri depolamak için Postgres ve pgvector kullanır

Entegrasyonlar

Esnek veri modeli sayesinde birden fazla entegrasyon desteklenebilir. Şu anda Opslane, Datadog'u destekliyor

GN⁺ özeti

  • Opslane, uyarı yorgunluğunu azaltıp eyleme dönüştürülebilir uyarıları ayırarak on-call deneyimini daha az stresli hale getiren bir araçtır
  • Slack ile entegrasyonu sayesinde uyarı yönetimi ve debug süreçlerine yardımcı olur, haftalık raporlarla uyarı kalitesini analiz eder
  • Açık kaynak olarak sunulur, topluluk katkılarını memnuniyetle karşılar ve Datadog entegrasyonunu destekler
  • Benzer işlevlere sahip araçlar arasında PagerDuty ve VictorOps bulunur.

1 yorum

 
GN⁺ 2024-07-29
Hacker News görüşleri
  • Birinci görüş: Uyarı yorgunluğunu azaltmak için uyarıları eyleme dönüştürülebilir olanlar ve gürültü olarak sınıflandırıp işlemek üzere bağlamsal bilgi sağlayan ürünler tartışılıyor

    • Bu sorun, faydalı gözlemlenebilirlik oluşturamayan şirketlerin sorununu daha iyi gösteriyor
    • Ürün memnuniyetle karşılanabilir, ancak kötü kültürel pratikleri mümkün kılan yönünün ana satış noktası olarak vurgulanmaması tercih ediliyor
    • Telekomünikasyon sektörü bu sorunu 15 yıl önce Fault Management otomasyonu ile çözmüştü
    • Uyarılar Slack'e taşınınca veriler yapısız metne dönüştü ve karmaşık filtreleme çözümleri gerektirmeye başladı
  • İkinci görüş: Kritik işler için güvenilmez LLM'ler kullanılmasına dair endişe dile getiriliyor

    • Asıl sorunun çözülüp LLM eklenmemesi isteniyor
  • Üçüncü görüş: All Quiet kurucusunun LLM kullanmayan bir araç geliştirdiği belirtiliyor

    • Kullanıcılar kritik uyarıların opak bir LLM'e dayanmasını istemiyor
    • AI semptomlara yardımcı olabilir, ancak kök neden olan gözlemlenebilirlik ve süreç sorunlarını çözemez
  • Dördüncü görüş: LLM ile bildirimlerin önemini filtreleme konusunda endişe dile getiriliyor

  • Beşinci görüş: Aracı Slack'e sıkı şekilde bağlamanın kullanılabilir platformları sınırladığı belirtiliyor

    • Başka anlık mesajlaşma platformları da var
    • IM kullanmanın daha geniş sorunu başka bir yorum dizisinde tartışılıyor
  • Altıncı görüş: Bu yönelimin büyük bir hayranı olunduğu belirtiliyor

    • İlk bootstrapping ve sürekli baseline oluşturma hakkında merak dile getiriliyor
    • Louie.AI ekibinin SE ve kilit pozisyonlar için işe alım yaptığı bildiriliyor
  • Yedinci görüş: Mevcut iş yerinde uyarı sisteminin sorunlarının bilindiği ama neden çözülemediği açıklanıyor

    • Uyarıların kapatılamaması ve kök nedenin belirlenip çözülememesi sorunu
    • On-call sürecini iyi yürütmek kültürel bir sorundur
    • Teknik araçlar kültürel sorunları çözemez
    • Kültürel sorunları çözmek için ya başka bir iş bulmak ya da sorunu kabullenmekten başka yol olmadığı söyleniyor
  • Sekizinci görüş: Ürünü geliştirdikleri için tebrik ediliyor ve ilk paragrafta bir kelimenin eksik olduğu belirtiliyor

  • Dokuzuncu görüş: İş uyarıları için benzer bir UI arandığı belirtiliyor

    • Snowflake/BigQuery gibi veri kaynaklarını kullanan bir araç isteniyor
    • Kullanılan araçların sonunda spam dolu Slack kanallarına dönüştüğü söyleniyor