А/Б тестирование: от А до Б

Тема тестов, как и тема аналитики, постоянно находит меня в работе. Когда впервые я столкнулась с задачей проведения A/B тестов, то терялась в книгах по анализу данных и статистике. Но нашлись щедрые коллеги, которые посоветовали с чего начать и как окунуться в тему. Оказалось, что многим авторам статей можно писать напрямую, можно общаться в комментариях и, в итоге, найти еще множество ресурсов с полезной информацией. Здесь я хочу собрать материалы, которые, в свое время помогли мне, чтобы для кого-то мой путь оказался немного короче.

Базовые понятия

  1. The Ultimate Guide To A/B Testing. Объемная статья от сооснователя VWO , в ней он описывает основные понятия А/Б тестов и дает множество ссылок на ресурсы с дополнительной информацией и use cases. Если бы эта подборка ссылок попалась мне в начале моего пути, то ответы на многие вопросы были бы получены гораздо быстрее.
  2. Четыре статьи от программиста и предпринимателя Джесси Фармера, который очень доступно объясняет основные понятия и математику А/Б тестов:
  1. Statistics for Online Experiments. Сервис Optimizely сделал целую брошюру с описанием методов, которые используются в их продукте. Здесь содержится весьма базовая информация, не все стоит использовать в точности, как написано, но что-то можно взять на вооружение.
  2. Расчет размера выборки. Еще раз про основные термины

Подсчет выборок

Проведение сплошного исследования почти в 100% случаев неоправданно, поэтому всем исследователям потребуется иметь дело с выборками. От верно взятой выборки зависит достоверность и успешность теста. Имеющиеся калькуляторы я условно разделяю на те, которые учитывают размер генеральной совокупности, и те, которые не учитывают. На самом деле в обоих случаях формула используется одна, а для маленьких генеральных совокупностей используется коэффициент поправки.

  1. Creative Research Systems — расчет по генеральной совокупности.
  2. Evan’s Awesome A/B Tool — один из самых универсальных и точных калькуляторов расчета выборок.
  3. Optimizely — хороший калькулятор, но очень сложно задавать изменение конверсии в относительных величинах.
  4. VWO — данный калькулятор определяет длительность теста, что не всегда оправданно с точки зрения достоверности.
  5. Определение размера выборки при планировании научного исследования — А/Б тесты для электронных продуктов берут свое начало из медицины, в данной статье описываются принципы подсчета выборок в медицинских исследованиях

Про процесс

  1. Одна из основных статей, обязательная к прочтению, от Эвана Миллера How Not To Run An A/B Test. Основная идея состоит в том, что нельзя “добирать” выборки, чтобы получить значимый результат тестирования.
  2. A/B Testing with Multiple Looks. Как провести тесты и не потерять работу? Как экономить ресурсы и как заранее останавливать тесты, которые не дадут значимого результата? Об этом в двух статьях, где очень много математики.
  3. A Bayesian Approach to A/B Testing. В статье обсуждаются разные методы проведения тестов и критерии их остановки.

Анализ результатов тестирования

Стоит сказать, что разные исследователи по-разному анализируют результаты тестов и пользуются разными статистическими критериями. Для простоты анализа полученных данных было создано несколько калькуляторов, которые проверяют ваши гипотезы.

  1. ABBA A/B Test (Split Test) Calculator — калькулятор, который помогает интерпретировать результаты тестов. Не самый наглядный из продуктов, так как требует детально изучить схему работы калькулятора, чтобы понять, что именно значат результаты расчетов.
  2. G-test Calculator — данный калькулятор считает G-статистику.
  3. ABTestGuide — инструмент с очень красивыми графиками и визуализацией результатов.

Ссылка на картинку