Увеличиваем чувствительность экспериментов при помощи ранговой трансформации

Iskander Mirmakhmadov
expf
Published in
11 min readAug 17, 2020

--

Это перевод статьи booking.ai про увеличение чувствительности метрик в экспериментах с маленькими эффектами.

Описанная ниже методика трансформации позволяет увеличить скорость проведения эксперимента. В предыдущей статье в нашем блоге, мы рассказывали про метод CUPED, который в том числе позволяет ускорять A/B. Крайне желательно сначала изучить как работает CUPED перед прочтением этой статьи.

Записывайтесь на следующий поток интенсивного курса по математической статистике и A/B-тестированиям, который пройдет в октябре 2020 г.

Для Booking.com контролируемые онлайн эксперименты (A/B тестирование) — это ключевой способ измерения и оценки изменений на сайте, а также основной источник информации для принятия решений (Kaufman, Pitchforth, & Vermeer, 2017). Учитывая размеры и масштаб Booking.com, повышение метрики даже на долю процента приносит существенные для бизнеса результаты. (Jackson, 2018). Мы давно прорабатываем тему повышения чувствительности экспериментов. Это позволяет нам выявлять менее масштабные эффекты или же работать с меньшей выборкой (или в более короткие сроки) и таким образом ускорять разработку. В частности, для повышения чувствительности экспериментов мы часто используем метод CUPED (контролируемый эксперимент с использованием данных “до эксперимента”).

Однако классические методы A/B тестирования (такие как двухвыборочный независимый t-тест) могут быть недостаточно чувствительными, когда распределение данных далеко от нормального — даже с учетом использования методов уменьшения дисперсии вроде CUPED. В основе t-теста лежит предположение о нормальном распределении данных. Эмпирически, это предположение не всегда соответствует реальности.

Рис 1. Распределение реальной метрики, которую используют в Booking.com

К примеру, на рис. 1. изображено распределение реальной метрики, которое мы зафиксировали на Booking.com. Метрика сильно искажена целым рядом отклонений.

Исследования показывают, что t-тест достаточно устойчив к отклонениям от нормального распределения при условии что объем выборки достаточно большой. Однако, нельзя сказать наверняка, насколько именно “большой” должна быть выборка и достаточно ли она велика для решения отдельно взятой проблемы. Если мы не знаем природы и степени отклонения от взятого за основу предположения о нормальном распределении, то мы и не можем предугадать величину ошибок, которые появятся в результате этого предположения. (Colquhoun, 1971).

В этой статье мы предлагаем проводить t-тест не на изначальных данных, а на рангах, присвоенных этим данным — как способ повышения чувствительности экспериментов в ситуациях вроде той, что описана выше. Мы также хотим подчеркнуть, как важно понимать базовые интересы бизнеса, уделять внимание распределению данных и проводить моделирование чувствительности при выборе статистических методов.

Во-первых, мы покажем, что из себя представляет ранговая трансформация и продемонстрируем, что проведение t-теста на рангах дает примерно такие же результаты, как при применении непараметрического U-критерия Манна-Уитни.

Далее мы разберем реальные примеры с Booking.com, которые показывают, как увеличилась чувствительность экспериментов в результате применения t-теста к рангам данных. В конце статьи мы приводим конкретные рекомендации: когда использовать ранговую трансформацию в коммерческом A/B тестировании, а когда не стоит.

Ранговая трансформация

Метод

Ранговая трансформация — это просто преобразование данных путем присвоения им рангов. Таким образом, параметрический тест (например, t-тест) проводится не на самих данных, а на рангах. Данные из контрольной и тестовой выборок ранжируются вместе от меньшего к большему, а при наличии связей присваивается средний ранг.

В нашем примере в исходных данных есть большой выброс (нижний ряд). Исходное значение метрики — 100, и это сильно исказило бы статистику, если бы мы работали с самими данными,. Однако величина выброса не влияет на ранг. Самому большому значению будет присвоен ранг 6 — и не важно, 100 это или 3.

Как вариант, при распределении трафика в эксперименте 50/50, трансформацию можно определить как:

где N — это общий размер выборки. С точки зрения мощности эксперимента, трансформация сравнима по эффективности с простым ранжированием элементов выборки, но интерпретируемость трансформированной метрики лучше — и вот почему:

  • Среднее значение по тестовой выборке равно вероятности того, что случайный элемент из тестовой выборки больше, чем случайный элемент из контрольной выборки. Эта вероятность также известна (в зарубежных источниках) как величина эффекта “общего языка” (common language effect size) для U-критерия Манна-Уитни.
  • Абсолютная величина эффекта равна рангово-бисериальному коэффициента корреляции.

Взаимосвязь между t-тестом на рангах и U-критерием Манна-Уитни

Проведение t-теста на рангах данных дает примерно такие же результаты, как применение непараметрического U-критерия Манна-Уитни. Когда применение U-критерия Манна-Уитни к инфраструктуре, с которой вы работаете, не представляется возможным, практически эквивалентной альтернативой будет t-тест на рангах, который, к тому же, достаточно прост в проведении.

U-критерий Манна-Уитни

Поскольку U-тест Манна-Уитни — непараметрический, он не предполагает какого-то конкретного распределения данных. Нулевая гипотеза звучит так: случайно выбранное значение из одной выборки может быть равновероятно больше или меньше случайного значения из другой выборки. Или в виде формулы:

В то же время у t-теста другая нулевая гипотеза: что средние значения в двух выборках равны:

Таким образом, принимая решение о применении того или иного теста для решения наших задач, мы будем руководствоваться именно нулевой гипотезой.

  • T-тест стоит выбрать, если основная задача бизнеса — узнать среднее изменение: например, если на основании средней разницы по итогам эксперимента будут приниматься финансовые решения. К примеру, t-тест является лучшей опцией, если мы хотим узнать, насколько в следующем месяце вырастет общее количество бронирований в результате изменений.
  • Мы не рекомендуем использовать t-тест, если бизнесу нужно знать не среднее изменение, а медиану [1] (то есть, к примеру, улучшился ли опыт взаимодействия у большинства пользователей). Например, если бизнесу нужно убедиться, что большинство пользователей в результате изменений стали бронировать чаще — тогда стоит воспользоваться U-тестом Манна-Уитни.

Измерим при помощи вывода формул и моделирования, насколько “эквивалентными” являются t-тест на рангах и U-критерий Манна-Уитни. (Zimmerman, 2012).

Мы знаем, что по двухвыборочному t-тесту для независимых выборок у нас есть t-статистика:

где n — это объем выборки для выборки X, m — это объем выборки для выборки Y. N = n+m, а t-статистика сравнивается с квантилями из t-распределения с N-2 степенями свободы.

В непараметрическом U-тесте Манна-Уитни, мы заменяем значения данных на присвоенные им ранги Rᵢ от 1 до N и используем статистику (с поправкой на связи в рангах).

где S — это сумма рангов:

и W-статистика сравнивается со стандартным нормальным распределением, когда объем выборки больше 20.

Задача метода ранговой трансформации — вычислить t-статистику для рангов Rᵢ в точке данных, чтобы получить t-статистику (прим.: в соответствии с формулой для t-статистики, между вторым и третьим слагаемым в знаменателе должен сохраниться знак +. в противном случае мы получим ряд ситуаций с отрицательными значениями под корнем):

Мы можем наблюдать взаимосвязь между tᵣ и W. Они не строго эквивалентны.

Взяв производную первого порядка от функции по к W, мы видим, что tᵣ является монотонной возрастающей функцией W.

При помощи моделирования мы попробуем изучить разницу между проведением t-теста на рангах данных и применением U-критерия Манна-Уитни в следующих аспектах:

  • Согласованность в статистических решениях
  • Разница в p-значениях
  • Степени ошибок в зависимости от объема выборки и величины эффекта

Мы смоделировали пару ненормальных распределений с:

  • величиной эффекта от 0 до 0,1 и шагом 0,01
  • объемом выборки 30, 50, 100, 200, 300, 400, 500, чтобы проверить минимально необходимый объем выборки для получения «эквивалентного» результата
  • 5000 итераций на величину эффекта на объем выборки на распределение

Мы смоделировали следующие распределения, которые имитируют реальные распределения в контексте разных бизнес сценариев:

  • Смешанное нормальное распределение состоящее из выборок из N (0, l) с вероятностью 0,95 и из N (0,400) с вероятностью 0,05. Это распределение используется для моделирования данных, содержащих выбросы;
  • Распределение Пуассона;
  • Распределение Коши с тяжелыми хвостами и без конечной дисперсии;
  • Соотношение нормального и равномерного распределения, также известное как slash-распределение;
  • Экспоненциальное распределение;
  • Усеченное нормальное распределение — искаженное распределение, полученное из N (0,1) путем сохранения только наблюдений, превышающих 0;
  • Распределение Power law

1.Согласованность в статистических решениях

На все 2,695,000 симуляций результаты проверки значимости отличались только в 1,215 случаев. Другими словами, несогласованные статистические решения выявлены в 0.045% случаев.

В таблице ниже показано соотношение согласованных и несогласованных статистических решений по разным объемам выборки для распределений Пуассона и Коши. Доля несогласованных решений снижается по мере увеличения объема выборки. Учитывая объемы выборок, с которыми нам приходится работать в бизнесе, мы вряд ли столкнемся с проблемой несогласованности статистических решений при проведении t-теста.

Таблица 1. Процент согласованных и несогласованных статистических решений по разным объемам выборки для распределений Пуассона и Коши.

2.Разница в p-значениях между t-тестом на рангах и U-критерием Манна-Уитни.

Каждое значение ограничено одним конкретным распределением. В нескольких смоделированных ненормальных распределениях мы видим немного разные но, как правило, согласованные результаты (см. ниже).

  1. На графике ниже мы видим, что разница в p-значениях достаточно маленькая (менее 0,005)
  2. При объеме выборки более 300, расхождение p-значений ниже 0,0005
Рис. 2a. Ошибка в p-значении: t-тест на рангах и U-критерий Манна-Уитни. Распределение Пуассона на разных объемах выборки.
Рис 2b. Ошибка в p-значении: t-тест на рангах и U-критерий Манна-Уитни. Разные распределения и разные объемы выборки.

3.Доля ошибок в зависимости от объема выборки и величины эффекта

В целом доля ошибок по разным распределениям снижается с ростом объема выборки/величины эффекта.

Рис. 3a. Медианные различия p-значений между t-тестом на рангах и U-критерием Манна-Уитни. Распределение power law, разные объемы выборки.
Рис. 3b. Медианные различия p-значений между t-тестом на рангах и U-критерием Манна-Уитни. Разные распределения, разные объемы выборки.

Итак:

  • Оба подхода примерно эквивалентны при достаточно большом объеме выборки (>=500 для каждой выборки) — вне зависимости от величины эффекта и распределения данных;
  • В контексте проверки значимости, несогласованность статистических решений практически отсутствует (справедливо для разных распределений). Несогласованные статистические решения наблюдаются лишь в 0,045% случаев в 2,695,000 симуляциях.

Моделирование чувствительности

T-тест довольно хорошо показал себя в условиях отклонения от предположения о нормальности распределения данных — при условии, что размер выборки достаточно велик. Однако, как мы уже говорили ранее, невозможно точно сказать, насколько большая выборка считается достаточной. Как правило, в таких ситуация рекомендуется прибегать к непараметрическим тестам, поскольку они более эффективны, чем параметрические и дают больше контроля над ошибками первого рода при ненормальном распределении данных (например, с сильной асимметрией или эксцессом Lehmann, 1979).

С другой стороны, при нормальном распределении данных, непараметрические тесты вроде U-критерия Манна-Уитни или ранговой трансформации будут менее эффективны — для выявления той же величины эффекта потребуется больший объем выборки. Если предположение о нормальном распределении справедливо, U-тест Манна-Уитни показывает асимптотическую относительную эффективность 0,955 по отношению к t-тесту. Это означает, что когда объем выборки стремится к бесконечности, а данные нормально распределены, относительная эффективность U-теста Манна Уитни в сравнении с t-тестом составляет 0,95.

Однако этот результат относится к бесконечной выборке. Мы не знаем, насколько эффективен будет тест в условиях нашей конечной выборки.

Моделирование чувствительности поможет нам оценить, какую минимальную величину эффекта нам нужно получить в разных статистических тестах, чтобы понять, какой метод лучше подойдет для решения конкретной задачи. Мы смоделируем относительную минимально-обнаруживаемую величину эффекта для разных корректировок метрики, показанной ранее. Структура симуляции показана на на рис. 4.

Во-первых, мы проводим повторную выборку, подставляя данные из реальных экспериментов и случайным образом разбиваем каждую выборку на контрольную и тестовую. Далее мы добавляем разные искусственные (относительные) величины эффекта в тестовые выборки и проводим статистические тесты, чтобы выявить, проявляется ли добавленный эффект. По каждой выборке мы сможем оценить минимально-обнаруживаемую величину эффекта (minimum detectable effect) и предполагаемый объем выборки со статистической мощностью 80% для каждого метода.

Рис. 4. Как смоделировать мощность метрики, используя реальные данные экспериментов.

С помощью моделирования чувствительности мы оценили минимально-обнаруживаемую величину эффекта (minimum detectable effect) в нашей нескорректированной метрике, показанной на рис. 1. Результат показан на рис. 5. Он показывает, что мы можем наблюдать статистически значимый результат в 80% случаев, при истинной относительном величине эффекта 17,9%.

Рис. 5. Смоделированная мощность нескорректированной метрики с порогом частоты ложно-положительных результатов 10%. Минимальный эффект, необходимый для получения статистически-значимого результата в 80% случаев, составляет 17,9%.

Имея на руках такое ненормальное распределение, можно попробовать преобразовать данные в нормальное распределение (например, провести логарифмическое преобразование), как показано на рис. 6. Однако для повышения вероятности выявления истинного эффекта, логарифмическое преобразование не особо-то помогло. Как мы видим, для получения статистически значимого результата в 80% случаев в логарифмически-преобразованной метрике истинный относительный эффект должен составлять 16%. То есть значительного улучшения по отношению к нескорректированной метрике (17,9%) мы не наблюдаем.

Рис. 6. Логарифмически преобразованная метрика (слева) и смоделированная мощность этой метрики (справа). Как видите, несмотря на то, что распределение больше похоже на нормальное, значительного роста мощности мы не наблюдаем.

Мы можем сильнее уменьшить минимально-обнаруживаемую величину эффекта в экспериментах за счет уменьшения дисперсии (например, корректировки данных “до эксперимента”). Как видно на рисунке 7, в результате корректировки по методу CUPED чувствительность метрики значительно увеличилась: минимально-обнаруживаемый размер эффекта снизился до 8,4%.

Рис. 7. Метрика, скорректированная по методу CUPED (слева) и смоделированная мощность метрики (справа). Корректировка CUPED не привела распределение метрики к нормальному, но значительно повысила чувствительность метрики за счет корректировки данных “до эксперимента”.

Однако метрика, скорректированная по CUPED, все еще ненормально распределена и “засорена” выбросами. Поэтому проведем ранговую трансформацию на скорректированной метрике, чтобы еще увеличить ее чувствительность.

Мы применяем ранговую трансформацию к метрике, скорректированной по CUPED. Как видно на рисунке 8, метрика после ранговой трансформации распределена равномерно, выбросов больше нет. За счет того, что мы провели ранговую трансформацию после корректировки по CUPED, мы значительно снизили дисперсию и упорядочили форму распределения, за счет чего чувствительность значительно выросла — минимально-обнаруживаемый размер эффекта теперь составляет 4,2%.

Рис. 8. Распределение метрики после ранговой трансформации (слева) и смоделированная мощность метрики (справа). Ранговая трансформация проводилась после корректировки по CUPED. В результате минимально-обнаруживаемый размер эффекта значительно снизился.

Минимально-обнаруживаемый размер эффекта: Сравнение

На рисунке 9 мы видим как в результате разных корректировок меняется минимальная величина эффекта для получения статистически-значимых результатов в 80% случаев. Очевидно, что пара “ранговая трансформация + CUPED” самая эффективная: минимально-обнаруживаемый эффект составляет 4,2%.

Рис. 9. Минимально-обнаруживаемый эффект при мощности 80% после разных корректировок.

Говоря конкретно, если бы мы работали с нескорректированной метрикой, для получения статистически-значимого результата в 80% случаев нам потребовалось бы проанализировать в 17,95 раз больше посещений — только в этом случае мы бы получили минимально-обнаруживаемый размер эффекта 4,2% (см. сравнение всех корректировок на рис. 10). Это огромное улучшение — применив ранговую трансформацию и CUPED, мы можем измерить размер эффекта за 2 недели. Работай мы с нескорректированной метрикой, этот процесс занял бы почти 36 недель.

Рис. 10. Относительное количество посещений, достаточное для получения того же размера эффекта при ожидаемой мощности 80% без корректировки. Проведение ранговой трансформации в сочетании с CUPED эквивалентно увеличению размера выборки в 17,95 раз.

Ранговая трансформация: применять или не применять?

Несмотря на то, что ранговая трансформация может здорово увеличить чувствительность эксперимента при ненормальном распределении данных, применять ее уместно далеко не всегда, поскольку в процессе ранговой трансформации тестируется другая нулевая гипотеза, нежели в t-тесте (как мы уже писали ранее). Нулевая гипотеза в t-тесте предполагает, что средние значения в двух выборках равны. А нулевая гипотеза для ранговой трансформации звучит так: случайно выбранное значение из одной выборки может быть равновероятно больше или меньше случайного значения из другой выборки. Выбирая, какой тест подходит нам больше, мы будем руководствоваться конкретным интересом бизнеса.

Таким образом, для выбора наиболее подходящего метода под конкретную задачу, мы рекомендуем: отталкиваться от ключевого интереса бизнеса, изучить распределение данных и провести моделирование чувствительности, чтобы выяснить минимально-обнаруживаемый размер эффекта.

Когда применять ранговую трансформацию:

  • Когда основной интерес бизнеса — выявить не среднее изменение, а медиану (то есть, к примеру, изменится ли пользовательский опыт большинства в лучшую сторону)
  • Когда распределение данных сильно искажено и далеко от нормального и когда ранговая трансформация повышает вероятность выявить меньший размер эффекта.

Когда не стоит применять ранговую трансформацию:

  • Когда основной интерес бизнеса — выявить среднее изменение (если, например, на основании среднего изменения в результате эксперимента будут приниматься финансовые решения). В таких случаях мы рекомендуем для увеличения чувствительности эксперимента применять метод корректировки ковариата (например, CUPED) — или использовать другие методы (вроде усеченного t-теста) для обработки возможных выбросов
  • Когда распределение данных близко к нормальному и когда ранговая трансформация не увеличивает вероятность выявления меньшего размера эффекта.

Благодарности

Хочется поблагодарить Рафаэля Моро, Темиса Мавридиса и Стивена Багули за их ценный вклад в статью.

Примечание:

[1] U-критерий Манна-Уитни можно использовать для сравнения медиан, но для этого требуется сделать дополнительное предположение о формах распределений. (Pratt, 1964 & Kasuya, 2001)

Оригинал статьи на booking.ai

Подписывайтесь на наш канал в Telegram: https://t.me/exp_fest

--

--