Simpson’s Paradox and Confounding

Bonnie BK
BON DATA
Published in
8 min readAug 2, 2021

(1) 심슨의 역설을 예시로 쉽게 이해하기

배경

데이터 분석에 있어서 ‘Segmentation, Breakdown’ 과 같이 데이터를 쪼개보며 현상에 대한 원인을 진단하는 일은 기본적인 방법론입니다. 특히 실험을 할 경우 Experimental Data (실험군, 대조군 존재) 에서 데이터를 쪼개보면서 실험군과 대조군을 비교하는 상황도 존재하는데요. 분석가로서 통계의 함정에 빠지지 않고 정확한 결론을 내는 것이 장기적인 제품/ 서비스 방향에 정말 중요하다고 생각합니다.

아래 두 필수 지식들을 함께 채워 보시죠!

(1) Simpson’s Paradox (심슨의 역설)
(2) Confounding (교란 변수)

이번 포스팅은 (1)을 다루는 글이며 (2)는 다음 포스팅으로 이어집니다.

Simpson’s Paradox (심슨의 역설)

심슨의 역설 개념을 함축하는 그래프

1. 개념

심슨의 역설은, 여러 그룹의 자료를 합했을 때의 결과와 각 그룹을 구분했을 때의 결과가 다른 때를 말합니다. 부분을 단순히 합친 것 뿐인데 그 결과가 각 부분을 비교했을 때의 결과와 달라지는 것은 일방적인 상식으로 이해가 되지 않으므로 ‘역설’ 이라고 합니다.

2. 예시로 이해하기

[1] COVID-27 라는 새로운 질병이 발병 했고, 여러분은 백신을 수입하는 역할의 정부 담당자입니다.

여러분의 목적은 환자의 사망률(Mortality Rate) 을 가장 낮추는 백신을 선택해 수입하는 것입니다.

[1] 예시 이해하기
- 이 COVID-27 백신은 Treatment 라고 칭하고, A와 B로 총 2가지로 존재합니다.
- 특히 백신 A보다 B가 개수가 모자라서 희귀합니다.
- 백신을 맞게될 국내 환자들은 Mild, Severe 두 가지 상태(Condition)로 분류될 수 있고
- 백신을 맞게 되었을 때에 결과로 가능한 환자의 상태는 Outcome 이라고 칭하며 Alive, Dead 입니다.

[2] 아래는 백신 A,B 를 맞은 그룹의 사망률입니다.

[2] 백신 A,B 를 맞은 그룹의 사망률

전체 그룹을 묶어서 비교했을 때 사망률이 16%로 더 낮은 백신 A를 선택해 수입하는 것이 맞아 보이는데요.

참고로, 이렇게 전체 그룹을 묶어서 Treatment의 효과를 파악하는 방법을 평균 처치 효과 (Average Treatment Effect: ATE) 라고 칭합니다.

[3] 만약 위 데이터를 환자가 백신을 맞기 전 당시 상태(Condition)에 따라 계층화한다면 어떨까요?

[3] 사망률을 계층화 했을 때

환자의 상태에 따라 백신 A, B가 사망률이 뒤바뀌는 결과를 보입니다.

  • Mild 한 상태였던 환자의 경우, 백신 B가 더 낮은 사망률을 보여 효과적입니다.
  • Severe 한 상태였던 환자의 경우에도, 백신 B가 더 낮은 사망률을 보여 효과적입니다.

개별 Subgroup 에서 백신의 효과를 비교했을 때는 백신 B를 수입하는 것이 맞겠지만, Mild + Severe Subgroup 을 합쳤을 때, 백신 A를 선택하는 것이 옳아 보입니다. 이 현상을 Simpson’s Paradox 라고 칭합니다.

A, B 그룹의 유저 수 구성을 자세히 살펴본다면 Simpson’s Paradox 현상의 원인을 알 수 있습니다.

  • Treatment A 의 Population은 93%(1400/1500)의 비율로 Mild Condition 유저가 구성하고 있으며, Treatment B의 경우 Severe Condition 유저가 Population 의 91%(500/550) 를 차지하고 있기 때문입니다.
  • 다시 말해, 각 Treatment 그룹을 구성하는 Condition의 가중치 때문에 그룹 전체를 평균 내었을 때 숫자에 왜곡이 발생한 것이 원인입니다.

[4] 이런 역설적인 상황에서 어떤 백신을 수입하는 게 맞을지는 문제의 인과 모형(Causal Structure)에 따라 달라집니다.

예시 [3] 에서 [4]로 이어지는 로직은 아래와 같습니다.

Simpson’s Paradox 의 원인을 알고 싶다.
→ 각 Treatment 그룹을 구성하는 Condition 의 가중치가 다르기 때문이다.
→ 가중치 차이의 원인을 알아야 이 역설적인 상황에서 어떤 Treatment 가 나은지에 대한 의사 결정을 할 수 있다.
→ 이 예시에서는 문제의 인과 모형 형태 2가지 예시로 가중치 차이의 원인을 파악한다.
(1) 환자의 Condition이 Treatment 의 원인이 될 때
(2) 환자에게 투약한 Treatment 가 Condition 의 원인이 될 때

(1) 환자의 Condition이 Treatment 의 원인이 될 때

환자의 Condition이 Treatment 의 원인

만약 병원에서 백신 A보다 B가 희귀해서 증상이 Mild 한 환자들에게는 수량이 많은 백신 A를 투약하고, 희귀해서 아껴야 하는 백신 B를 주로 Severe 한 환자들에게 투약하는 결정을 내렸다면?

  • 백신 A를 투약 받은 그룹은 불균형적으로 사망할 확률이 낮은 환자가 다수를 구성하게 됩니다.
  • 백신 B를 투약 받은 그룹은 불균형적으로 사망할 확률이 높은 환자가 다수를 구성하게 됩니다.
정리
- Treatment A is disproportionately being assigned to people with mild condition who have lower chance of dying.
- Treatment B is disproportionately being assigned to people with severe condition who have higher chance of dying.

이 상황에서는 Subgroup 간의 비교 결과를 보는 것이 맞습니다. 따라서 백신 B가 효과적입니다.

(2) 환자에게 투약한 Treatment 가 Condition 의 원인이 될 때

환자에게 투약한 Treatment 가 Condition 의 원인

만약 병원에서 백신 B를 맞기로 결정되었다면, 약이 비교적 희소하기 때문에 투약을 위해 대기 시간이 길어 대기하는 동안 Mild → Severe Condition 으로 변화했으며, 백신 A는 수량이 충분해 투약을 위해 대기 시간이 짧아 Mild Condition 그대로 변화 없이 투약할 수 있다면?

  • 백신 B를 투약 받은 그룹은 투약을 위해 대기하는 시간동안 사망할 확률이 높아지게 됩니다.
  • 백신 A를 투약 받은 그룹은 투약을 위해 대기하는 시간이 없어 사망할 확률이 높아지지 않게 됩니다.
정리
- Treatment is causing people to have worse condition when treated B.
- Treatment → going through condition → outcome

이 상황에서는 Treatment 가 Condition 에 주는 영향도 포함하기 때문에, 백신 A가 효과적입니다.

출처: Brandy Neal, Causal Inference Lectures

3. 심화 예시: 회귀식 피팅해보기

[1] 예를 들어서, “대학생 학점과 수능 성적.. 아무 관련이 없어…” 라는 뉴스 헤드라인이 있습니다.

  • 이 뉴스 헤드라인은 아래 산점도를 기반으로 지어졌다고 합시다. 수능 성적과 학점 간의 선형 회귀 직선을 피팅할 경우 아무 관계가 없으니 수평에 가까운 직선이 나왔습니다.
x축: 수능 성적, y축: 학점 (scale 은 상대적인 값)

[2] 하지만 이 데이터 포인트들을, 3가지 학과별로 구분할 수 있다고 가정하고, 산점도를 구분해서 보면 어떨까요?

x축: 수능 성적, y축: 학점 (scale 은 상대적인 값)
  • 전체 데이터에서는 보이지 않았던, 학과 1에서의 우상향 트렌드가 보입니다. 즉, 학과를 무시하고 전체 데이터를 2차원 평면에 뿌렸을 때 전혀 상관관계가 없어 보이던 (수능 점수, 학점)이 데이터를 쪼개어 보았을 때 명확한 상관관계를 보일 수 있다는 점입니다.

출처: 윤선미, 심슨의 역설 데이터 야놀자 2019

심슨의 역설: 실험 데이터 분석 에서의 큰 함정

위에서 살펴 보았듯이 숫자를 조작한 것도 아니고 단지 고려해야만 하는 변수를 무시했을 뿐이지만, 통계를 정반대로 해석해 잘못된 의사결정을 할 위험을 지닙니다.

마지막으로 한번 더 정리하면 Simpson’s Paradox 는

1. 최소 한 개 이상의 Confounding Variable 을 고려하지 않았다.

2. 실험 대상이 되는 그룹 내에서 Confounding Variable 의 불균형적인 할당이 있었다.

위 두가지 조건의 조합으로 인해 발생하는 문제입니다.

출처: Simpson’s Paradox and Experimental Research

다음 포스팅에서는 위 Confounding Variable 에 대해 알아봅시다.

--

--

Bonnie BK
BON DATA

옆 동네 데이터 분석가, 데이터로 유저의 행동을 이해하고 인과관계를 파악합니다. Contact me through 🔗 https://www.linkedin.com/in/b-choi/ 🗂 https://www.slideshare.net/choibokyung/presentations