Что будет, если использовать параметрический критерий на ненормально распределенной выборке.

Часто a/b тесты начинают анализировать через калькуляторы предварительно не изучив данные и не разобравшись, на основе какого критерия работает калькулятор. В этой статье мы рассмотрим, чем это может быть чревато.
Критерии, которые приводятся в статье я взял просто для примера.
Критерий Стьюдента — самый популярный параметрический критерий.
Критерий Манна-Уитни — самый популярный непараметрический критерий.
Выглядит он очень просто и я бы даже сказал аккуратно:

Выборочная оценка дисперсии определяется по следующей формуле:

Фактически, мы делим разницу наших средних на дисперсию.
Дальше получаем нашу t- статистику и по критическим значениям определяем наш p-value.
И вроде как все просто, бери да считай любой a/b тест. Да вот только не совсем. У данного критерия есть вполне понятные ограничения:
- Выборка должны иметь нормальное распределение
- Дисперсии в наших выборках должны быть гомогенны, т.е. взяты из одной генеральной совокупности.
А теперь давайте представим, что мы хотим проанализировать тест, в котором основной метрикой будет являться время, которое пользователь провел на странице.
В итоге мы получим следующее распределение:

Если посмотреть на описательные статистики, то увидим следующее:

Обратите внимание, какой разброс от минимального до максимального значения, если мы будем полагаться на сравнение средних, то размажем весь шум, который есть в данных.
А теперь представьте, как поведет себя статистика, если для анализа этого a/b теста будет использоваться параметрический критерий. Этим результатам нельзя будет доверять.
Вот что отдаст критерий Стьюдента:

А вот что отдаст критерий Манна-Уитни(как пример непараметрического критерия):

Как видите, но основе полученных статистик по критерию Стьюдента, мы отклоняем H0, а по результатам Манна-Уитни — нет.
Это вызвано, что t-критерий работает на основе сравнения средних из фактических наблюдений, в то время как критерий Манна-Уитни использует сравнение рангов, что позволяет ему быть устойчивым к выбросам.
Важно ответить, что на этом этапе анализ a/b тесте не ограничивается и есть еще много важных моментов, на которые необходимо посмотреть:
Как накопительно менялся p-value
Как вел себя эксперимент в тенденции
Как отклонились друг от друга плотности вероятности
и тп.
Я буду все это буду описывать в следующих статьях.
Получается, если бы мы полагались на результат критерий Стьюдента, мы могли бы упустить важную точку роста в нашем эксперименте.
Но это не означает, что на этом возможность статистики заканчивается. Для использования критерия нам недостаточно знать только распределение, нам также необходимо учитывать:
Кол-во групп в эксперименты
Равенство дисперсий и прочие описательные статистики
Тип признака, который мы хотим описать
Набор дополнительных предикторов, которыми мы хотим описать нашу метрику
и т.п.
В качестве вывода:
В анализе данных, самой важной составляющей является их исследование. Использовать критерий — это самое простое. А вот корректно оценить данные для того, что выбрать нужный критерий — это уже настоящая ценность в работе. Так что калькуляторы и подобные способы “упростить” свою работу очень часто могут привести к тому, что вы можете допустить серьезную ошибку.

