Симптомы и лечение от событийной усталости (или alert fatigue, как говорят у них)
Специально для телеграм-канала @monitorim_it.
Я сначала думал расписаться тут на пару статей, но зачем лить воду, когда можно всё уместить в два небольших раздела: симптомы и лечение. Если в вашей системе мониторинга присутствует хотя бы один сиптом — повод задуматься, два и более — принимайте активные действия.
Симптомы
- вы не успеваете реагировать на все поступающие события;
- вы не знаете на кого назначить полученные события;
- вы не понимаете какая должна быть реакция на события;
- вы считаете, что критичность события не соответствует действительности;
- избыточные события утомляют дежурную группу (история про волки-волки, но потом они на самом деле пришли).
Лечение
Чтобы начать решать проблему нужно задавать вопросы. Адресовать их нужно сначала себе, а после анализа понять кто сможет на них ответить и переадресовывать этим людям. Я тут предполагаю, что мой дорогой читатель имеет определённое влияние на вектор развития системы мониторинга. Если нет — найдите поскорее ответственного товарища.
Для удобства разбил вопросы на 4 группы:
1. Определитесь с источником
- выясните кто заказывал этот мониторинг;
- найдите у кого есть права менять/согласовывать настройки мониторинга;
- выясните причины постановки на мониторинг;
-идите от целей ваших пользователей, а потом выбирайте метрику, но не наоборот. Возможно, эта метрика никого не беспокоит а вы пытаетесь довести ее до какого-то адекватного значения
2. Определитесь с доверием
- подумайте, верите ли вы событию, которое сообщает что произошла проблема;
- подумайте, верите ли вы событию, на которое, как вы считаете, можно не реагировать;
- подумайте, верите ли вы событию, которое даёт информацию для диагностики проблемы.
3. Определитесь с действием
- знаете ли вы как реагировать на событие?
- требуется ли от вас действие на это событие?
- кто должен действовать?
4. Определитесь с улучшением
- соответствует ли критичность события степени его влияния на предоставляемый сервис?
- классифицировано ли событие (инфраструктура, приложение, пользователи)?
- нужно ли внести изменения в модель здоровья сервисов?
5. Регулярные мероприятия
- еженедельно анализируйте пришедшие события, определяйте их актуальность;
- автоматизируйте реакцию на события (всё, что можно автоматизировать). Даже Google SRE говорит о том, что часть своего времени инженеры SRE должны посвящать автоматизации.
-настраивайте корреляцию событий. Пучок событий касательно одного источника проблемы должен быть минимален.
Не забывайте, что лишние события подрывают авторитет вашей системы мониторинга.
Другие статьи в блоге
Трейсинг информационных потоков распределённого приложения и другие подходы к мониторингу
Мониторинг распределённых систем — опыт Google (перевод главы 6 книги Google SRE)
Цели уровня обслуживания — опыт Google (перевод главы 4 книги Google SRE)