Симптомы и лечение от событийной усталости (или alert fatigue, как говорят у них)

2 min readFeb 22, 2019

Специально для телеграм-канала @monitorim_it.

Поздно чесать бороду, когда привалило событий

Я сначала думал расписаться тут на пару статей, но зачем лить воду, когда можно всё уместить в два небольших раздела: симптомы и лечение. Если в вашей системе мониторинга присутствует хотя бы один сиптом — повод задуматься, два и более — принимайте активные действия.

Симптомы

вы не успеваете реагировать на все поступающие события;
вы не знаете на кого назначить полученные события;
вы не понимаете какая должна быть реакция на события;
вы считаете, что критичность события не соответствует действительности;
избыточные события утомляют дежурную группу (история про волки-волки, но потом они на самом деле пришли).

Лечение

Чтобы начать решать проблему нужно задавать вопросы. Адресовать их нужно сначала себе, а после анализа понять кто сможет на них ответить и переадресовывать этим людям. Я тут предполагаю, что мой дорогой читатель имеет определённое влияние на вектор развития системы мониторинга. Если нет — найдите поскорее ответственного товарища.

Для удобства разбил вопросы на 4 группы:

1. Определитесь с источником

- выясните кто заказывал этот мониторинг;

- найдите у кого есть права менять/согласовывать настройки мониторинга;

- выясните причины постановки на мониторинг;

-идите от целей ваших пользователей, а потом выбирайте метрику, но не наоборот. Возможно, эта метрика никого не беспокоит а вы пытаетесь довести ее до какого-то адекватного значения

2. Определитесь с доверием

- подумайте, верите ли вы событию, которое сообщает что произошла проблема;

- подумайте, верите ли вы событию, на которое, как вы считаете, можно не реагировать;

- подумайте, верите ли вы событию, которое даёт информацию для диагностики проблемы.

3. Определитесь с действием

- знаете ли вы как реагировать на событие?

- требуется ли от вас действие на это событие?

- кто должен действовать?

4. Определитесь с улучшением

- соответствует ли критичность события степени его влияния на предоставляемый сервис?

- классифицировано ли событие (инфраструктура, приложение, пользователи)?

- нужно ли внести изменения в модель здоровья сервисов?

5. Регулярные мероприятия

- еженедельно анализируйте пришедшие события, определяйте их актуальность;

- автоматизируйте реакцию на события (всё, что можно автоматизировать). Даже Google SRE говорит о том, что часть своего времени инженеры SRE должны посвящать автоматизации.

-настраивайте корреляцию событий. Пучок событий касательно одного источника проблемы должен быть минимален.

Не забывайте, что лишние события подрывают авторитет вашей системы мониторинга.

Другие статьи в блоге

Трейсинг информационных потоков распределённого приложения и другие подходы к мониторингу

Мониторинг распределённых систем — опыт Google (перевод главы 6 книги Google SRE)

Цели уровня обслуживания — опыт Google (перевод главы 4 книги Google SRE)

Можно ли сделать идеальный дашборд для мониторинга

APM на службе у бизнеса и при чём тут цифровые близнецы