(2) 교란 변수 예시로 쉽게 이해하기
배경
(1) Simpson’s Paradox (심슨의 역설)
(2) Confounding (교란 변수)
(1) 심슨의 역설을 예시로 쉽게 이해하기 에서 이어지는 포스팅입니다. Simpson’s Paradox 는 아래 두 가지 조건의 조합으로 인해 발생하는 문제라고 설명 드렸는데요.
1. 최소 한 개 이상의 Confounding Variable
을 고려하지 않았다.
2. 실험 대상이 되는 그룹 내에서 Confounding Variable
의 불균형적인 할당이 있었다.
Simpson’s Paradox 를 발생시키는 Confounding Variable
의 개념을 실제 프로덕트 데이터 분석 도중에 발생했던 케이스를 기반으로 이해하고 Research Design / Analysis 단계별로 영향을 최소화할 수 있는 방안을 알아보시죠!
목차Confounding (교란 변수)
1. 개념
2. 예시로 개념 이해하기
[1] 뱃지 획득 → 유저 잔존 Causal Diagram
[2] 광고 노출 빈도 → 유저 잔존 Causal Diagram 3. 교란 변수의 영향을 최소화하는 방안들
[1] 교란 변수를 Research Design 단계에서 최소화하는 방안 3가지
[2] 교란 변수를 Analysis 단계에서 최소화하는 방안 3가지Residual Confounding (잠재 교란 영향)
[1] 농약 → 폐암 Causal Diagram
[2] 광고 노출 빈도 → 유저 잔존 Causal DiagramCollider Variable VS Confounding Variable
Spurious Variable VS Confounding Variable
Confounding (교란 변수)
1. 개념
Confounding (교란 변수)는 Confounding Variable, Confounder, Confounding Factor 등 으로도 불립니다. 한국어로는 교란 변수, 혼란 변수라고 불립니다.
Confounding 은 원인 변수 X
와 결과 변수 Y
에 동시에 영향을 주면서, 원인 변수 X
와 결과 변수 Y
사이에 상관 관계를 만드는 변수를 말합니다.
Confounding 이 되기 위한 조건 3가지
- The confounding factor must be associated with both the risk factor of interest and the outcome. (교란 변수는 원인 변수와 결과 변수에 모두 연관되어야 한다.)
- The confounding factor must be distributed unequally among the groups being compared. (각 그룹에 교란 변수가 동일하게 분배된다면 곧 교란 변수가 통제된 것과 다름이 없으므로, 불균형적으로 분배되었을 때 교란 변수의 특성을 가진다.)
- A confounder cannot be an intermediary step in the causal pathway from the exposure of interest to the outcome of interest. (교란 변수는 원인 변수로부터 결과 변수로 이어지는 Causal Pathway 에 있는 중간 단계가 아니어야 한다.)
2. 예시로 개념 이해하기
[1] 뱃지 획득 → 유저 잔존 Causal Diagram
유저의 잔존을 높이기 위한 게이미피케이션은 모바일 앱 또는 서비스에서 주로 사용하는 전략인데요. 뱃지 시스템을 활용한 게이미피케이션에 대한 Causal Diagram (인과 모형)을 구성하여 이해해 봅시다.
만약 A/B 테스트를 설계하지 않은 후 100% 유저들에게 뱃지 시스템을 출시하고, 단순히 뱃지를 획득한 유저 군의 잔존 지표
과 뱃지를 획득하지 못한 유저군의 잔존 지표
를 비교한다면 어떨까요?
이 경우, 공정한 비교가 되지 않습니다.
그 이유는, 애초에 서비스에 대한 애착도
가 높은 유저는 뱃지를 획득
할 가능성이 높을 수 있으며, 애착도
의 영향으로 인해 잔존 지표
가 높아질 가능성도 높을 수 있습니다.
즉, 서비스에 대한 애착
이 뱃지 획득
과, 잔존 지표
에 동시에 영향을 주기 때문에, 실제로 뱃지 획득
→ 잔존 지표
간의 인과 관계가 없더라도 상관 관계가 생기게 됩니다.
즉, 실제로는 뱃지 획득
으로 인해 잔존 행동
에 변화가 발생한 것이 아님에도 불구하고 인과 관계가 있다는 잘못된 판단을 할 수 있습니다.
해당 인과 모형에 있어서 애착도
는 측정하고자 하는 인과 관계를 왜곡하는 Confounding Variable 이 됩니다.
[2] 광고 노출 빈도 → 유저 잔존 Causal Diagram
유저가 광고에 노출된 빈도
가 유저의 잔존 지표
에 어떤 영향을 주는 지 측정하고자 하는 예시입니다.
예를 들어, 구글과 같이
- 검색 기능이 서비스에서 가장 주요한 기능이며
- 검색을 광고 지면으로 사용하는 서비스 ABC 가 있다고 합시다.
- 일별 광고에 노출되는 한도 (Max Cap)는 존재하지만, 기본적으로 검색 빈도와 광고 노출 빈도가 비례한다고 합시다.
- 측정하고자 하는 잔존 행동은 광고가 노출된 후 1주 후에 다시 검색을 하는 행동입니다.
이 케이스의 경우, 광고 노출 빈도가 잔존 행동에 주는 인과 효과를 측정하고자 할 때 어떻게 하면 좋을까요?
유저가 본래 얼마나 검색을 많이 하는지(검색 빈도
)에 따라, 광고 노출 빈도
가 영향을 받습니다.
하지만 본래 검색을 많이 하는 유저일수록 장기로 잔존할 확률이 높을 수 있습니다. 즉,검색 빈도
의 영향으로 인해 잔존 지표
가 높아질 가능성도 높을 수 있습니다.
해당 인과 모형에 있어서 검색 빈도
는 측정하고자 하는 인과 관계를 왜곡하는 Confounding Variable 이 됩니다.
3. 교란 변수의 영향을 최소화하는 방안들
따라서 인과 관계의 추정에서는 교란 변수의 영향을 통제하는 것이 중요합니다. 어떻게 통제할 수 있을까요?
[1] 교란 변수를 Research Design 단계에서 최소화하는 방안 3가지
- Randomization
- Restriction of Enrollment
- Matching Compared Groups
1–1. Randomization
무작위 임상 실험을 의미합니다. 교란 변수가 그룹 간에 균등하게 분배되기 때문에 교란 변수가 주는 영향이 통제됩니다.
예시
위 [2] 광고 노출 빈도 → 유저 잔존 Causal Diagram 예시에서 Randomization 을 통해서 Confounding Variable 을 통제할 수 있습니다.
콴다의 경우, 실제 광고 실험 디자인 단계에서 Randomization (Randomized Controlled Trial)
을 통해 검색 빈도
라는 Confounding Variable을 실험군, 대조군에 균등하게 분배함으로써, 검색 빈도
라는 교란 변수가 광고 노출 빈도에 주는 영향을 통제했습니다.
장점
- 통제할 수 있는 교란 변수의 개수에 한계가 없습니다.
- Known confounders, Unknown confounders 모두를 통제할 수 있습니다.
- 성공적으로 무작위 실험이 실행된다면, 사후 분석 단계에서 조정할 필요가 없습니다.
단점
- Intervention Studies 에 한정됩니다. (즉, 개입이 가능할 때로 한정)
- 작은 규모의 연구에 효과적이지 않습니다.
1–2. Restriction of Enrollment
교란 변수의 하나의 카테고리에 속하는 피실험자 에게만 실험을 진행합니다. 즉, 실험 대상이 모두 교란 변수의 동일한 레벨을 가지도록 합니다.
예시
흡연 여부
가 교란 변수라면 연구 모집단을 흡연자 또는 비흡연자 한 쪽으로만 한정합니다. 성별
이 교란 변수라면 여성으로 연구 모집단으로 한정하거나, 남성으로 연구 모집단을 한정할 수 있습니다.
단점
- 알려진 교란 변수 (Known confounders) 와 피실험자의 교란 변수 값을 알 수 있을 때만 가능합니다.
- Residual Confounding 이 발생 가능합니다. (아래 목차에서 설명합니다.)
- 조사자가 제한할 수 있는 교란 변수는 한정되어 있습니다.
- 피실험자가 될 수 있는 조건을 제한함으로써 피실험자의 샘플 사이즈가 줄어듭니다.
- 피실험자가 될 수 있는 조건을 제한함으로써 실험 결과 (Findings)를 일반화할 수 없게 됩니다.
- 교란 변수가 여럿일 경우 제어하기 어렵습니다.
1–3. Matching Compared Groups
비교 대상이 되는 실험군, 대조군을 구성하는 집단이 다르게 분포되었다면, 교란 변수에 맞게 각 집단 내 피실험자들을 매칭하여 비교합니다.
Matched-Comparison Group Design 이라고도 불리는 방법론이며 Cohort Studies, Case-Control Studies 에 사용될 수 있는 방법입니다.
이전 포스팅에서 다룬 Simpson’s Paradox 에서 Condition 이라는 변수로 쪼개면서 실험군과 대조군을 비교하던 방법을 하나의 Confounding 조절 방법으로 이야기합니다.
예시
흡연
이 건강에 주는 인과 효과를 측정하고자 할 때, 흡연자와 비흡연자를 같은 나이대
그룹으로 묶어서 효과를 측정합니다. 이로 인해 나이대
라는 교란 변수가 주는 효과를 방지할 수 있습니다.
장점
- 복잡하거나 측정하기 어려운 교란 변수를 제어할 때 유용합니다
(예:대기 오염
이라는 교란 변수를 통제하고 싶을 때,지역
이라는 공통적인 요소가 있는 이웃끼리 매칭합니다.)
단점
- 적절한 매칭 항목을 찾는 것이 어렵고 비용이 많이 듭니다.
- 매칭 변수에 대한 효과를 측정할 수 없습니다.
- 매칭에는 특별한 분석 방법이 필요할 수 있습니다. (e.g. Propensity Score Matching 등)
출처: Three Methods for Minimizing Confounding in the Study Design Phase
[2] 교란 변수를 Analysis 단계에서 조정하는 방안 3가지
- Standardization
- Stratified Analysis
- Multiple Variable Regression Analysis (e.g. 2-stage least squares regression)
3가지 방법을 통해 교란 변수로 인해 Bias된 데이터를 사후 분석 단계에서 조정할 수 있다고 합니다. 하지만 Selection Bias, Information Bias 가 발생한 데이터의 경우 이 3가지 방안들을 통해서 사후 조정이 어렵습니다.
Residual Confounding (잠재 교란 영향)
Residual Confounding은, 인과 관계 모델링에 있어서 교란 변수를 통제/보정했지만, 교란 변수 층 내에서 잔류 교란 변수가 존재해 인과 관계에 영향을 주고 있을 때를 의미합니다.
[1] 농약 → 폐암 Causal Diagram
아래는 [농약 → 폐암] 인과 관계에 있어서 흡연력이라는 교란 변수를 보정하기 위해 피실험자의 흡연 경험
이라는 변수를 통해 층화 분석 (stratification) 을 진행했습니다.
흡연 경험
을 층화하는 것은 층간의(between-stratum) 교란 변수에 의한 영향을 보정할 수는 있습니다.
하지만, 각 층 내의 (within-stratum) 교란 변수의 영향을 보정할 수는 없습니다.
e.g. 흡연자 중에서도 하루 한팩 초과하는 흡연량 vs 일주일 한팩 흡연량
e.g. 흡연자 중에서도 현재 흡연자 vs 2년전 흡연자
즉, 흡연량
과 흡연 최신성
이라는 잔류 교란 변수가 존재합니다.
[2] 광고 노출 빈도 → 유저 잔존 Causal Diagram
실제로 콴다에서 분석했던 케이스입니다. [광고 → 잔존] 인과 관계에 있어서 검색 빈도 변수를 통제하기 위해 RCT를 진행했지만, 추가로 Subgroup ATE 분석을 진행하고자 했습니다. 이 때, 피실험자의 검색 경험
이라는 변수를 통해 층화 분석을 진행했습니다.
검색 경험
을 층화하는 것은 층간의(between-stratum) 교란 변수에 의한 영향을 보정할 수는 있습니다.
하지만 검색 경험자 중에서도 검색 빈도
와 검색 최신성
이라는 층 내 잔류 교란 변수가 존재할 수 있습니다.
e.g. 검색 경험자 중에서도 검색 빈도 High 유저 vs 검색 빈도 Low 유저
* 실제로는 RCT를 진행했기 때문에 검색 빈도
, 검색 최신성
도 균등하게 실험군과 대조군에 분배되었고, 이해를 돕기 위한 예시입니다.
이와 같은 잔류 교란 변수의 영향을 최소화시키기 위해서는, 사후 분석에서 층화 및 모델을 통한 보정이 동시에 적용되는 것이 필요하다고 합니다.
출처: 농약과 건강
Collider Variable VS Confounding Variable
실험 설계 또는 분석 단계에서 Confounding 을 조정하기 위해, 교란 변수로 판단되는 가능한 많은 변수를 통제하여 인과 관계를 추정하면 될까요?
아니요.
그 중 Collider 변수는 통제 대상에서 제외되어야 합니다.
Collider Variable 이란 원인 변수
와 결과 변수
에 동시에 영향을 받는 변수를 의미합니다.
예를 들어 뱃지를 더 획득하게 될수록, 자연스레 검색 뱃지도 포함하기 때문에 검색 빈도
가 증가하며, 잔존할 확률
이 높을수록 잔존하며 검색 기능을 쓸 확률이 높아지겠죠.
이 예시에서는 검색 빈도가 Collider Variable 입니다.
Collider 변수를 통제하게 될 경우의 문제는 아래와 같이 발생합니다.
따라서 실제 X → Y의 인과 관계를 추정하기 위해서는 다양한 외부 변수와 의 관계를 고려한 후, 실제로 통제가 필요한 변수만 선별하는 것이 필요합니다.
참고 자료
Spurious Variable VS Confounding Variable
허위 변수 (Spurious Variable)
원인 변수 X
와 결과 변수 Y
모두에 영향을 미치며, 이들 간의 공동변화를 모두 설명하는 변수를 의미합니다. 즉 X와 Y 사이에는 실제로는 인과관계가 없으나 있는 것처럼 보이게 하는 변수를 말합니다.
교란 변수 (Confounding Variable)
원인 변수X
와 결과 변수Y
두 변수 모두에 영향을 미치나, X와 Y 사이에도 인과관계가 존재할 경우를 의미합니다. 따라서 교란변수의 존재는 X와 Y 사이의 인과관계의 크기를 실제보다 크거나 작은 것으로 보이게 왜곡합니다.
마무리
역시 실무에서는 Randomized Controlled Trial 이 가장 편리하고 최선인 것 같습니다. RCT를 진행하지 못하더라도, 다양한 외부 변수와 의 관계를 고려한 후, 실제로 통제가 필요한 변수만 선별해 Confounder 의 영향을 통제하는 것이 중요해보입니다. 많은 공부가 필요합니다. 😂
Hierarchy of Evidence (증거의 위계)
Causal Hierarchy (인과 추론의 위계)