Суслик есть, p > 0.05
Напомню, что подавляющее большинство научных работ, тестирующих те или иные статистические гипотезы, используют для в качестве математического аппарата фишеровский подход.

Данный подход, если коротко, состоит в следующем:
- Выдвигается нулевая гипотеза. Обычно она состоит в том, что в мире не происходит ничего необычного. Нулевая гипотеза всегда не верна, но мы должны от чего-то отталкиваться.
- Нулевая гипотеза описывается статистической моделью. Эта модель всегда неверна, но она может быть полезной и другой у нас нет.
- Выдвигается альтернативная гипотеза. Она состоит в том, что в мире должно что-то происходить. Она тоже всегда неверна, как правило более неверна, но иногда чуть менее неверна, чем нулевая гипотеза. Именно это мы хотим проверить экспериментом.
- Проводится эксперимент для проверки альтернативной гипотезы.
- Подсчитывается вероятность, с которой результат нашего эксперимента мог бы получиться в рамках неверной статистической модели неверной, но полезной нулевой гипотезы. Это так называемое p-value
- Если эта вероятность достаточно высока, скажем 40%, то мы считаем что результат эксперимента случаен и нулевая гипотеза не может быть отвергнута.
- Если эта вероятность низка, например 1%, то мы считаем, что это жжж неспроста, и нуль гипотезу можно заменить альтернативной.
- В качестве “уровня отсечки” вероятности обычно используется 5%, то есть 0.05.
Проблем у этого метода масса. Фактически, он порождает больше проблем, чем решает, но сейчас не вообще об этом, а о одной частной проблемке.

Основная критика подхода направлена на область, где p < 0.05, так как именно туда направлены все усилия исследователей и именно в этой области происходит генерация основной ерунды в науке. Но проблемность использования статистических методов, основанных на вычислении p-value и/или доверительных интервалов (в меньшей степени) лежит не только там, где p < 0.05, но и по другую сторону значимости. Так, например, любой сторонник Фишера (считай “почти любой ученый”) оказывается неспособен отбросить нулевую гипотезу там, где следовало бы. Несмотря на то, что все на свете указывает на ошибочность нулевой гипотезы, слово Фишера является решающим.
Эзра Хауер приводит несколько примеров, ценой которых (могут) быть человеческие жизни. Я поделюсь двумя.
Пример 1. Поворот направо на красный свет.
В некоторых местах мира разрешен поворот направо на горящий красный прямо. При введении этой практики в США проводился эксперимент с разрешением такого поворота на некоторых перекрестках, с фиксацией статистики аварийности “до” и “после”.

Как мы можем видеть из таблицы, после введения практики поворота на красный цвет, аварийность выросла по всем измеряемым показателям. Однако статистическая значимость этих изменений не достигла необходимых p < 0.05, что позволило авторам исследования признать рост аварийности не значимым. А регулятору заявить, что поворот на красный не приводит к росту аварийности и это science-based.
Хотя результаты наблюдений не только говорят сами за себя, но и прекрасно согласуются со здравым смыслом. Посмотрите в таблицу и убедитесь сами.
Пример 2. Асфальтированные обочины
Второй пример связан с дискуссией о необходимости асфальтирования обочин на шоссе. Чтобы оценить, насколько это снизит аварийность, были проведены эксперименты по асфальтированию ряда участков дорог. Результаты вы можете видеть ниже.

Из результатов наблюдений отчетливо видно не только то, что наличие асфальтированной обочины снижает аварийность, но и то, что чем она шире — тем лучше для безопасности дорожного движения. Однако и в этот раз статистическая значимость не достигла желаемых < 0.05. Что позволило авторам сказать, что у них нет оснований отбросить нулевую гипотезу и что безопасность будет улучшена. А регулятору, в свою очередь, заявить, что обочины не при чем. И так нормально.
Годы спустя, когда данных набралось достаточно и статистическая мощность подросла, нужные выводы конечно были сделаны. Но harm was already done.
Заключение
Никогда не используйте p-value для принятия каких-либо решений. Оно обманет вас, если оно < 0.05. Оно обманет вас, когда оно > 0.05. Оно обманет вас всегда. p-value вообще не может быть доказательством ничего, его значение может лишь добавлять или убавлять аргументов в пользу или против вашей находки, но не более.