CUPED или увеличение чувствительности метрики

Vit Cheremisinov
expf
Published in
4 min readFeb 5, 2020

--

С темпами развития культуры экспериментов в компаниях вопрос о методах анализа результатов перестает быть самым актуальным.

На передний план выходят такие проблемы, как увеличение чувствительности метрик и ускорение сходимости дисперсии.

Вариантов для увеличения чувствительности достаточно много — стратификация, классификаторы, трансформация метрик и т.п. Но сегодня мы поговорим про один из самых легко интерпретируемых и эффективных методов, а именно CUPED.

Сам метод популяризирован командой exp-platform из Microsoft и активно используется ими, а еще booking, google, netflix, airbnb и другими.

Что такое CUPED

Суть CUPED заключается в том, что мы учитываем поведение пользователя до эксперимента(ковариата) и после эксперимента (фактическая метрика) и пытаемся найти между этими метриками зависимости.

Как это работает

Метрика CUPED считается следующим образом:

  • covariateметрика до эксперимента
  • metricметрика после эксперимента
  • theta вычисляется как
Именно за счет этого куска формулы и меняется дисперсия. Если ковариация большая, то дисперсия сократится значительно.

Важно отметить, что CUPED хорошо поддается развитию. Можно использовать ошибки от предикта в моделях, в которых используется несколько ковариат — при таких подходах можно значительно увеличивать эффект полученный от метода.

Сам поиск covariate может стать исследовательским процессом, причем достаточно увлекательным.

Но для базового использования можно взять просто метрику пользователя до самого эксперимента.

Допустим, чек у пользователя до эксперимента был 2.500 , а после эксперимента стал 2.650 — на основе этих метрик мы и будем строить модель.

В результате преобразования получаем поюзерную метрику CUPED.

Теперь можно оценить ее описательные статистики , распределение и сравнить дисперсию итоговой метрики и CUPED.

По графикам и описательным статистикам видно, что CUPED значительно сокращает дисперсию и меняет форму исходного распределения метрики. При этом важные статистики остаются интерпретированы.

Как это сказывается на результатах экспериментов

Для оценки влияния на скорость эксперимента мы можем оценить как меняется сходимость дисперсии в “до CUPED” и “CUPED”.

По графику видно, что дисперсия начинает сходиться к 1 на меньшем количестве наблюдений. Следовательно, мы могли бы раньше принять решение о результатах.

Для итоговой оценки a/b теста после применения CUPED можно использовать bootstrap или параметрический t.test, если полученная метрика будет удовлетворять базовым условиям его применения.

CUPED достаточно простой и доступный в применении метод, который может помочь значительно сократить дисперсию и уменьшить время на принятие решений. Если у вас большой продукт и потоковые эксперименты, такие практики просто необходимы. Еще раз хочется отметить, что метод можно и нужно адаптировать и развивать под особенности продукта, в котором он используется.

Интенсив по математической статистике и a/b тестам ExperimentFest 25–26 апреля experiment-fest.ru/ab_course

Может возникнуть вопрос, кто из российских компаний активно использует такой подход. Кроме нас своим опытом поделились x5, skyeng, avito

Александра Крецу, аналитик в SKYENG https://www.facebook.com/aleksandra.kretsu

В skyeng мы проводим много экспериментов на небольших сегментах учеников. Это сильно повышает наши требования к скорости проведения тестов, и cuped оказывается как нельзя кстати: с его помощью мы снижаем дисперсию тестовой метрики на ~30%. Это позволяет пропорционально снизить количество необходимого траффика.

Тимур Исмагилов, ведущий аналитик в AVITO https://www.facebook.com/t.ismagilov

В Авито мы проводим часть экспериментов по регионам — одна группа регионов получает тестовые условия, а другая — контрольные. В этом случае считать экспериментальными единицами пользователей некорректно, и мы считаем за экспериментальную единицу целый регион. Значение целевой метрики по таким статистическим единицам имеет большую дисперсию. Чтобы сократить ее и получить статистически значимые результаты, наша практика — использовать в таких экспериментах CUPED-метрику вместо целевой метрики.

Валерий Бабушкин, Director of Data Science в X5 Retail Group https://www.facebook.com/valeriy.babushkin.9

Мы регулярно оцениваем эффективность различных нововведений, пилотов, запусков новых продуктов. В оффлайн бизнесе это само по себе непросто, есть множество подводных камней. Cuped позволяет значительно снизить дисперсию, не изменяя среднее значение метрик. В качестве ковариатов мы используем часовые гистограммы значений, что позволяет подобрать максимально корреллирующий с основной метрикой ковариат и тоже время эту операцию можно объяснить с точки зрения бизнеса. Дисперсия удается снизить на 40–70 %

--

--