Персентиль vs среднее — кто тут молодец?

Anton I. Kasimov
2 min readFeb 24, 2019

--

Специально для телеграм-канала @monitorim_it.

Результаты выборочного опроса пассажиров плацкартных вагонов показали, что пьяные дембеля никому не мешают.

Опрос проводили пьяные дембеля.

При правильном подходе статистика может творить чудеса. Правда, в случае с мониторингом эти чудеса обернутся плачевно. На конец 2018 года мне известны несколько крупных российских компаний, которые при агрегации показателей времени выполнения запросов, количества ошибок и других, используют среднее значение.

Персентиль (или перцентиль или процентиль) — методика измерения в статистике, которая показывает процент значений измеряемой метрики, который находится ниже значения персентиля. Например, если говорить о времени ответа системы, 99й персентиль на отметке 100 миллисекунд говорит о том, что 99% измеряемых запросов выполнились за 100 миллисекунд и менее.

В далёком 2012 году в блоге Dynatrace вышла статья со спорным названием. Но в ней очень понятно объяснено почему ориентация на среднее значение ни к чему хорошему не приведёт.

Время ответа в миллисекундах на уровне среднего (зелёное) , 50 персентиля (оранжевое) и 90 персентиля (красное)

Как видно на графике, средние значения (зелёные) не показывают запросов, которые выполнялись аж 1000 миллисекунд. Возможно, это клиенты с корзиной на несколько десятков тысяч рублей, которые слишком долго ждут перехода на этап оплаты. Значения на уровне 50 персентиля (оранжевые) вообще говорят «расслабься, парень», не показывают особых выбросов, типа система в целом работает, но как именно — умалчивают. Если же смотреть на значения 90 персентиля (красное), вы увидите, что часто бывают запросы под 1000 миллисекунд. А это уже повод разобраться.

Правильные измерения — залог хорошего сна дежурных администраторов и ещё один способ снизить количество ложных событий в вашей системе мониторинга.

Другие статьи по теме

Трейсинг информационных потоков распределённого приложения и другие подходы к мониторингу

Перевод главы 6 книги Google SRE Мониторинг распределённых систем — опыт Google

Перевод главы 4 книги Google SRE Цели уровня обслуживания — опыт Google

Можно ли сделать идеальный дашборд для мониторинга

APM на службе у бизнеса и при чём тут цифровые близнецы

--

--