Opsgenie 소개

Print

개요

  • 사전에 설정한 조건에 맞는 알림(장애) 발생 시, 담당자에게 전화, SMS, E-mail 등을 통하여 알려주는 장애전파 서비스입니다.

목적

  • 장애 발생 시, 담당자가 장애를 확실히 인지할 수 있도록 하며, 상황 파악 및 후속 조치가 용이하도록 합니다.

특징

  • 팀 중심의 운영
    • 시스템별 팀을 구성하여, 팀의 admin이 팀 내에서의 라우팅 규칙(알림의 종류와 시기별 트리거 설정), Escalation, On-call 스케줄을 적용할 수 있습니다.
    • 자신의 팀에 해당하는 Alert만 표시되어 처리할 수 있습니다.
    • 팀별 설정 외에 사용자별 알림 규칙은 개인별 설정 가능합니다.
  • On-call 스케줄에 따른 운영
  • 장애의 특성에 따라 담당자에게 알림
  • 200개가 넘는 Integration 지원 - Slack, Grafana, Webhook, API 등
  • Opsgenie에 등록된 사용자만 알림을 받을 수 있습니다.(User를 지정하여 알림 설정)

동작 방식

  1. 서비스 장애 발생
    1. ZMON(http://mon.cloudz.co.kr)에서 감지하여 Opsgenie에 Alert 생성
  2. 각 시스템별 On-call 담당자(시스템 Owner 등)에게 알림 - 전화, SMS, 이메일 등
    1. 국제 전화로 알림이 오며, 전화의 경우 영어 ARS입니다.(Description read 시에 내용에 한글이 포함될 경우, 해당 부분을 Skip합니다.)
    2. 각 시스템(팀)별 알림을 받을 담당자가 지정되어 있어야 합니다.(On-call 담당자 또는 Admin)
    3. Escalation rule도 설정되어 있어야 합니다.
    4. 심각도에 따라 사업팀 담당자, 고객 담당자에게 알림도 가능합니다.
  3. Slack의 시스템별 Alert 채널에 알림 메시지가 표시됩니다.
  4. 담당자가 장애를 인지하면(Acknowledge 버튼 클릭, Alert view, 담당자 Assign 등) 알림은 종료되며, Escalation은 더이상 동작하지 않습니다.
    1. 인지하지 못하면 Escalation rule에 따라 다음 수신자에게 알림이 가게 됩니다.

이 답변이 유용합니까? 아니오

Send feedback
도움을 드리지 못해 죄송합니다. 피드백을 주시면 이 문서의 품질을 높이겠습니다.