Парадоксальные тенденции в групповых данных

Сергей Базанов
Paradox Review
Published in
3 min readNov 28, 2017

--

Иногда, люди, наблюдая изменение данных во времени, видят парадоксальные вещи: общее значение за период увеличилось, при этом значение каждой категории или группы за тот же период уменьшилось. Как такое может быть? Попробуем разобраться…

Это довольно распространенный статистический парадокс, который кажется очень запутанным, но на самом деле всё довольно просто объясняется.

Начнем с примера:

Средние значения за два года для двух групп и в целом.

Мы видим парадокс:

  • Группа А снижается
  • Группа B снижается
  • В целом, итоговое значение растет

Это достаточно распространенный пример и эти данные могут появиться в любом виде: зарплаты в корпорации, веб-трафик, реакция пациента на лечение и т.п.

Вы можете спросить, как могут одновременно существовать две взаимоисключающие тенденции?

Что же на самом деле происходит?

Сначала рассмотрим набор исходных данных для каждой группы по годам:

Данные по годам и группам (выделены цветом).

Эти гистограммы отображают тренды в группах: среднее значение зеленой группы, также как и красной, уменьшается. Но мы также видим еще кое-что.

Размер групп отличается!

В первый год преобладают красные данные (группа В), но во втором году чаще встречается зеленый цвет (группа A). Поэтому, в первый год среднее значение (медиана) данных была смещена к группе красных точек, а во второй год она сместилась к зеленой группе. Это означает, что общая медиана должна сместиться вверх .

Таким образом, парадокс разрешен. Одновременно происходят два вида изменений:

  • Фактические значения увеличились для отдельных измерений. Зарплаты растут из-за инфляции. Трафик сайта вырос. Пациенты выздоравливают.
  • Мы не тщательно контролировали то, что измеряли, и состав образцов данных сместился.

В идеальном, строго научном мире мы бы не допустили, чтобы произошел второй случай. Вместо этого мы бы разработали эксперимент с одинаковым количеством измерений во всех категориях («контролируя» эти различия). Но в наблюдательных исследованиях и в хаотичном реальном мире мы часто не можем этого сделать. Даже в науке вы можете понять это только после того, как увидите, что результаты не похожи на те, что вы ожидали. Таким образом, мы используем данные, которые у нас есть, но мы должны быть более внимательными к тому, как мы их интерпретируем.

Итак, то, что сначала казалось парадоксальным противоречием, — это всего лишь два вида изменений, проявляющихся в одно и то же время:

Средние значения в обеих группах действительно снижаются, а общее среднее действительно растет. «Парадокс» был нашим наивным предположением, что они должны изменяться одинаково. А объяснение «парадокса» — изменение размера групп во времени.

Решение?

Возможно, вы сможете избежать этой ситуации, контролируя свои группы в будущем, обеспечивая одинаковое количество данных в каждой группе.

Представляя результаты, вы можете использовать только общее среднее или средние значения групп, в зависимости от того, что вы хотите узнать из ваших данных.

Сообщая эти результаты другим, можно попытаться скрыть один эффект и подчеркнуть другой. Но вы сами должны понимать, почему это произошло и найти объяснение, похожее на это.

Пример набора данных:

год      группа   значение
1 A 7
1 A 8.5
1 A 10
1 A 11.5
1 A 13
1 B 32
1 B 34
2 A 5.5
2 A 7
2 A 8.5
2 B 27
2 B 28.5
2 B 29.5
2 B 33

1-й год:

  • Среднее значение в группе A — 10.
  • Среднее значение в группе B — 33.
  • Среднее общее значение — 16,57.

2-й год:

  • Среднее значение в группе A — 7.
  • Среднее значение в группе B — 29,5.
  • Среднее общее значение — 19,86.

По материалам: Explaining Paradoxical Trends in Data

--

--