Как выбрать источник трафика для A/B тестов

Последнее время тема A/B тестов становится все более популярна, что очень радует. А вот качество самих A/B тестов и понимание особенностей данной методики проверки гипотез оставляет желать лучшего. Но данная заметка не про вечные проблемы и размывание мыслью по древу. Сегодня мы поговорим про то, как выбрать источник трафика для A/B тестов.

Шаг 1: Определяем самые сочные источники трафика.

Нам необходимо отобрать самые емкие источники трафика как с точки зрения пользователей, так и с точки зрения конверсий/продаж (в зависимости от типа вашего бизнеса).

Но желательно не просто оценивать кол-во трафика, а его минимальный объем для репрезентативной выборки и срок проведения данного A/B теста (исходя из объема). Для этого нам необходимо рассчитать объем трафика на ОДНУ ветку теста исходя из ожидаемого эффекта изменения в вашем показателе. Пугать вас формулами не буду,так что вот вам прекрасный сервис — http://www.evanmiller.org/ab-testing/sample-size.html

Представим, что под рассчитанную выборку нам подойдут три источника трафика (они быстрее всего смогу собрать нужное кол-во пользователей и конверсий в двух недельный срок).

Yandex

Google

Bing

На этом не все. Нам важно убедиться в том, что источники трафика однородны с точки зрения конверсий. Т.е. конверсии не сильно шатает от дня ко дню (грубо говоря, вчера было 20 конверсий, а сегодня 150. Такой эффект усложнит понимание того, что повлияло на результаты A/B теста).

Для этого нам необходимо рассчитать вариацию источников конверсий, на которых мы будем проводит тест.

Вариация — отклонение от среднего выраженное в процентах. Если вариация выше 30%, то выборка считается не репрезентативной и на ее основе нельзя принимать никаких решений.

Шаг 2: Считаем вариацию по источникам трафика

Для этого нам нужно:

  1. Разложить кол-во конверсий по каждому источнику трафика по дням
  2. Найти среднее кол-во конверсий на всю выборку
  3. Найти стандартное отклонение
  4. Посчитать вариацию

Так же, рекомендую провести пристрастие выборки и исключить точки экстремума (т.е. исключить самые маленькие и самые высокие результаты).

Для расчетов мы будем использовать вот такую простую формулу

Где:

σ — стандартное отклонение

x — среднее

v — коэффициент вариации

Теперь начинаем считать

Используя стандартные формулы екселя считаем среднее и стандартное отклонение.

Из полученных данных считаем вариацию

И так для каждого источника трафика, которые мы выбрали ранее.

В итоге у нас получилось следующее:

  • Yandex — 30,6%
  • Google — 15%
  • Bing — 35,1%

Как можно увидеть, самый допустимый коэффициент вариации у Google. Именно на этом источнике мы будем проводить наши тексты.

Важное уточнение,данная методика хорошо подойдет для тех проектов, у которых мало источников трафика и короткие цепочки последовательности. Если у вас зоопарк источников и длинные цепочки, то желательно считать вариации не на источники, а на цепочки (исходя из вашей атрибуции).

На этом все, друзья!