Simpson’s Paradox and Confounding

Bonnie BK

Published in

BON DATA

14 min readAug 29, 2021

(2) 교란 변수 예시로 쉽게 이해하기

배경

(1) Simpson’s Paradox (심슨의 역설)
(2) Confounding (교란 변수)

(1) 심슨의 역설을 예시로 쉽게 이해하기 에서 이어지는 포스팅입니다. Simpson’s Paradox 는 아래 두 가지 조건의 조합으로 인해 발생하는 문제라고 설명 드렸는데요.

1. 최소 한 개 이상의 Confounding Variable 을 고려하지 않았다.

2. 실험 대상이 되는 그룹 내에서 Confounding Variable 의 불균형적인 할당이 있었다.

출처: Simpson’s Paradox and Experimental Research

Simpson’s Paradox 를 발생시키는 Confounding Variable 의 개념을 실제 프로덕트 데이터 분석 도중에 발생했던 케이스를 기반으로 이해하고 Research Design / Analysis 단계별로 영향을 최소화할 수 있는 방안을 알아보시죠!

목차Confounding (교란 변수)
   1. 개념
   2. 예시로 개념 이해하기 
      [1] 뱃지 획득 → 유저 잔존 Causal Diagram
      [2] 광고 노출 빈도 → 유저 잔존 Causal Diagram   3. 교란 변수의 영향을 최소화하는 방안들
      [1] 교란 변수를 Research Design 단계에서 최소화하는 방안 3가지
      [2] 교란 변수를 Analysis 단계에서 최소화하는 방안 3가지Residual Confounding (잠재 교란 영향)
      [1] 농약 → 폐암 Causal Diagram
      [2] 광고 노출 빈도 → 유저 잔존 Causal DiagramCollider Variable VS Confounding Variable
Spurious Variable VS Confounding Variable

Confounding (교란 변수)

1. 개념

Confounding (교란 변수)는 Confounding Variable, Confounder, Confounding Factor 등 으로도 불립니다. 한국어로는 교란 변수, 혼란 변수라고 불립니다.

Confounding 은 원인 변수 X와 결과 변수 Y에 동시에 영향을 주면서, 원인 변수 X와 결과 변수 Y사이에 상관 관계를 만드는 변수를 말합니다.

Confounding 이 되기 위한 조건 3가지

The confounding factor must be associated with both the risk factor of interest and the outcome. (교란 변수는 원인 변수와 결과 변수에 모두 연관되어야 한다.)
The confounding factor must be distributed unequally among the groups being compared. (각 그룹에 교란 변수가 동일하게 분배된다면 곧 교란 변수가 통제된 것과 다름이 없으므로, 불균형적으로 분배되었을 때 교란 변수의 특성을 가진다.)
A confounder cannot be an intermediary step in the causal pathway from the exposure of interest to the outcome of interest. (교란 변수는 원인 변수로부터 결과 변수로 이어지는 Causal Pathway 에 있는 중간 단계가 아니어야 한다.)

출처: Conditions Necessary for Confounding

2. 예시로 개념 이해하기

[1] 뱃지 획득 → 유저 잔존 Causal Diagram

유저의 잔존을 높이기 위한 게이미피케이션은 모바일 앱 또는 서비스에서 주로 사용하는 전략인데요. 뱃지 시스템을 활용한 게이미피케이션에 대한 Causal Diagram (인과 모형)을 구성하여 이해해 봅시다.

(1) 콴다 뱃지 시스템 (2) 당근마켓 뱃지 시스템 (3) Kaggle 랭킹 시스템

만약 A/B 테스트를 설계하지 않은 후 100% 유저들에게 뱃지 시스템을 출시하고, 단순히 뱃지를 획득한 유저 군의 잔존 지표과 뱃지를 획득하지 못한 유저군의 잔존 지표 를 비교한다면 어떨까요?

이 경우, 공정한 비교가 되지 않습니다.

그 이유는, 애초에 서비스에 대한 애착도가 높은 유저는 뱃지를 획득할 가능성이 높을 수 있으며, 애착도의 영향으로 인해 잔존 지표가 높아질 가능성도 높을 수 있습니다.

즉, 서비스에 대한 애착이 뱃지 획득과, 잔존 지표에 동시에 영향을 주기 때문에, 실제로 뱃지 획득 → 잔존 지표간의 인과 관계가 없더라도 상관 관계가 생기게 됩니다.

즉, 실제로는 뱃지 획득으로 인해 잔존 행동 에 변화가 발생한 것이 아님에도 불구하고 인과 관계가 있다는 잘못된 판단을 할 수 있습니다.

해당 인과 모형에 있어서 애착도는 측정하고자 하는 인과 관계를 왜곡하는 Confounding Variable 이 됩니다.

참고: NC SOFT, 게임 플레이어는 좋은 아이템을 획득하면 게임을 더 열심히 하게 될까?

[2] 광고 노출 빈도 → 유저 잔존 Causal Diagram

유저가 광고에 노출된 빈도 가 유저의 잔존 지표에 어떤 영향을 주는 지 측정하고자 하는 예시입니다.

예를 들어, 구글과 같이

검색 기능이 서비스에서 가장 주요한 기능이며
검색을 광고 지면으로 사용하는 서비스 ABC 가 있다고 합시다.
일별 광고에 노출되는 한도 (Max Cap)는 존재하지만, 기본적으로 검색 빈도와 광고 노출 빈도가 비례한다고 합시다.
측정하고자 하는 잔존 행동은 광고가 노출된 후 1주 후에 다시 검색을 하는 행동입니다.

이 케이스의 경우, 광고 노출 빈도가 잔존 행동에 주는 인과 효과를 측정하고자 할 때 어떻게 하면 좋을까요?

유저가 본래 얼마나 검색을 많이 하는지(검색 빈도)에 따라, 광고 노출 빈도가 영향을 받습니다.

하지만 본래 검색을 많이 하는 유저일수록 장기로 잔존할 확률이 높을 수 있습니다. 즉,검색 빈도의 영향으로 인해 잔존 지표가 높아질 가능성도 높을 수 있습니다.

해당 인과 모형에 있어서 검색 빈도는 측정하고자 하는 인과 관계를 왜곡하는 Confounding Variable 이 됩니다.

3. 교란 변수의 영향을 최소화하는 방안들

따라서 인과 관계의 추정에서는 교란 변수의 영향을 통제하는 것이 중요합니다. 어떻게 통제할 수 있을까요?

[1] 교란 변수를 Research Design 단계에서 최소화하는 방안 3가지

Randomization
Restriction of Enrollment
Matching Compared Groups

1–1. Randomization

무작위 임상 실험을 의미합니다. 교란 변수가 그룹 간에 균등하게 분배되기 때문에 교란 변수가 주는 영향이 통제됩니다.

예시

위 [2] 광고 노출 빈도 → 유저 잔존 Causal Diagram 예시에서 Randomization 을 통해서 Confounding Variable 을 통제할 수 있습니다.

콴다의 경우, 실제 광고 실험 디자인 단계에서 Randomization (Randomized Controlled Trial)을 통해 검색 빈도라는 Confounding Variable을 실험군, 대조군에 균등하게 분배함으로써, 검색 빈도라는 교란 변수가 광고 노출 빈도에 주는 영향을 통제했습니다.

장점

통제할 수 있는 교란 변수의 개수에 한계가 없습니다.
Known confounders, Unknown confounders 모두를 통제할 수 있습니다.
성공적으로 무작위 실험이 실행된다면, 사후 분석 단계에서 조정할 필요가 없습니다.

단점

Intervention Studies 에 한정됩니다. (즉, 개입이 가능할 때로 한정)
작은 규모의 연구에 효과적이지 않습니다.

1–2. Restriction of Enrollment

교란 변수의 하나의 카테고리에 속하는 피실험자 에게만 실험을 진행합니다. 즉, 실험 대상이 모두 교란 변수의 동일한 레벨을 가지도록 합니다.

예시

흡연 여부가 교란 변수라면 연구 모집단을 흡연자 또는 비흡연자 한 쪽으로만 한정합니다. 성별이 교란 변수라면 여성으로 연구 모집단으로 한정하거나, 남성으로 연구 모집단을 한정할 수 있습니다.

단점

알려진 교란 변수 (Known confounders) 와 피실험자의 교란 변수 값을 알 수 있을 때만 가능합니다.
Residual Confounding 이 발생 가능합니다. (아래 목차에서 설명합니다.)
조사자가 제한할 수 있는 교란 변수는 한정되어 있습니다.
피실험자가 될 수 있는 조건을 제한함으로써 피실험자의 샘플 사이즈가 줄어듭니다.
피실험자가 될 수 있는 조건을 제한함으로써 실험 결과 (Findings)를 일반화할 수 없게 됩니다.
교란 변수가 여럿일 경우 제어하기 어렵습니다.

1–3. Matching Compared Groups

비교 대상이 되는 실험군, 대조군을 구성하는 집단이 다르게 분포되었다면, 교란 변수에 맞게 각 집단 내 피실험자들을 매칭하여 비교합니다.

Matched-Comparison Group Design 이라고도 불리는 방법론이며 Cohort Studies, Case-Control Studies 에 사용될 수 있는 방법입니다.

이전 포스팅에서 다룬 Simpson’s Paradox 에서 Condition 이라는 변수로 쪼개면서 실험군과 대조군을 비교하던 방법을 하나의 Confounding 조절 방법으로 이야기합니다.

예시

흡연이 건강에 주는 인과 효과를 측정하고자 할 때, 흡연자와 비흡연자를 같은 나이대 그룹으로 묶어서 효과를 측정합니다. 이로 인해 나이대 라는 교란 변수가 주는 효과를 방지할 수 있습니다.

장점

복잡하거나 측정하기 어려운 교란 변수를 제어할 때 유용합니다
(예: 대기 오염이라는 교란 변수를 통제하고 싶을 때, 지역이라는 공통적인 요소가 있는 이웃끼리 매칭합니다.)

단점

적절한 매칭 항목을 찾는 것이 어렵고 비용이 많이 듭니다.
매칭 변수에 대한 효과를 측정할 수 없습니다.
매칭에는 특별한 분석 방법이 필요할 수 있습니다. (e.g. Propensity Score Matching 등)

출처: Three Methods for Minimizing Confounding in the Study Design Phase

[2] 교란 변수를 Analysis 단계에서 조정하는 방안 3가지

Standardization
Stratified Analysis
Multiple Variable Regression Analysis (e.g. 2-stage least squares regression)

3가지 방법을 통해 교란 변수로 인해 Bias된 데이터를 사후 분석 단계에서 조정할 수 있다고 합니다. 하지만 Selection Bias, Information Bias 가 발생한 데이터의 경우 이 3가지 방안들을 통해서 사후 조정이 어렵습니다.

출처: Adjusting for Confounding in the Analysis

Residual Confounding (잠재 교란 영향)

Residual Confounding은, 인과 관계 모델링에 있어서 교란 변수를 통제/보정했지만, 교란 변수 층 내에서 잔류 교란 변수가 존재해 인과 관계에 영향을 주고 있을 때를 의미합니다.

[1] 농약 → 폐암 Causal Diagram

아래는 [농약 → 폐암] 인과 관계에 있어서 흡연력이라는 교란 변수를 보정하기 위해 피실험자의 흡연 경험 이라는 변수를 통해 층화 분석 (stratification) 을 진행했습니다.

흡연 경험을 층화하는 것은 층간의(between-stratum) 교란 변수에 의한 영향을 보정할 수는 있습니다.

하지만, 각 층 내의 (within-stratum) 교란 변수의 영향을 보정할 수는 없습니다.

e.g. 흡연자 중에서도 하루 한팩 초과하는 흡연량 vs 일주일 한팩 흡연량

e.g. 흡연자 중에서도 현재 흡연자 vs 2년전 흡연자

즉, 흡연량과 흡연 최신성이라는 잔류 교란 변수가 존재합니다.

[2] 광고 노출 빈도 → 유저 잔존 Causal Diagram

실제로 콴다에서 분석했던 케이스입니다. [광고 → 잔존] 인과 관계에 있어서 검색 빈도 변수를 통제하기 위해 RCT를 진행했지만, 추가로 Subgroup ATE 분석을 진행하고자 했습니다. 이 때, 피실험자의 검색 경험이라는 변수를 통해 층화 분석을 진행했습니다.

검색 경험을 층화하는 것은 층간의(between-stratum) 교란 변수에 의한 영향을 보정할 수는 있습니다.

하지만 검색 경험자 중에서도 검색 빈도와 검색 최신성이라는 층 내 잔류 교란 변수가 존재할 수 있습니다.

e.g. 검색 경험자 중에서도 검색 빈도 High 유저 vs 검색 빈도 Low 유저

* 실제로는 RCT를 진행했기 때문에 검색 빈도, 검색 최신성도 균등하게 실험군과 대조군에 분배되었고, 이해를 돕기 위한 예시입니다.

이와 같은 잔류 교란 변수의 영향을 최소화시키기 위해서는, 사후 분석에서 층화 및 모델을 통한 보정이 동시에 적용되는 것이 필요하다고 합니다.

출처: 농약과 건강

Collider Variable VS Confounding Variable

실험 설계 또는 분석 단계에서 Confounding 을 조정하기 위해, 교란 변수로 판단되는 가능한 많은 변수를 통제하여 인과 관계를 추정하면 될까요?

아니요.

그 중 Collider 변수는 통제 대상에서 제외되어야 합니다.

Collider Variable 이란 원인 변수와 결과 변수에 동시에 영향을 받는 변수를 의미합니다.

예를 들어 뱃지를 더 획득하게 될수록, 자연스레 검색 뱃지도 포함하기 때문에 검색 빈도가 증가하며, 잔존할 확률이 높을수록 잔존하며 검색 기능을 쓸 확률이 높아지겠죠.

이 예시에서는 검색 빈도가 Collider Variable 입니다.

Collider 변수를 통제하게 될 경우의 문제는 아래와 같이 발생합니다.

따라서 실제 X → Y의 인과 관계를 추정하기 위해서는 다양한 외부 변수와 의 관계를 고려한 후, 실제로 통제가 필요한 변수만 선별하는 것이 필요합니다.

참고: NCsoft, 게임 플레이어는 좋은 아이템을 획득하면 게임을 더 열심히 하게 될까?

참고 자료

출처: https://sites.google.com/view/causal-inference2021

Spurious Variable VS Confounding Variable

허위 변수 (Spurious Variable)

원인 변수 X와 결과 변수 Y 모두에 영향을 미치며, 이들 간의 공동변화를 모두 설명하는 변수를 의미합니다. 즉 X와 Y 사이에는 실제로는 인과관계가 없으나 있는 것처럼 보이게 하는 변수를 말합니다.

교란 변수 (Confounding Variable)

원인 변수X와 결과 변수Y 두 변수 모두에 영향을 미치나, X와 Y 사이에도 인과관계가 존재할 경우를 의미합니다. 따라서 교란변수의 존재는 X와 Y 사이의 인과관계의 크기를 실제보다 크거나 작은 것으로 보이게 왜곡합니다.

출처: https://igija.tistory.com/274

마무리

역시 실무에서는 Randomized Controlled Trial 이 가장 편리하고 최선인 것 같습니다. RCT를 진행하지 못하더라도, 다양한 외부 변수와 의 관계를 고려한 후, 실제로 통제가 필요한 변수만 선별해 Confounder 의 영향을 통제하는 것이 중요해보입니다. 많은 공부가 필요합니다. 😂

Hierarchy of Evidence (증거의 위계)