실무 인과추론 Toolkit : 회귀 불연속 (Regression Discontinuity)

연속적인 숫자나 점수를 기점으로 사용자에게 다른 경험을 줄 때

Bonnie BK
BON DATA
11 min readSep 5, 2022

--

실무 인과추론 ToolKit 시리즈로 회귀 불연속(Regression Discontinuity)을 설명하는 포스팅입니다.

PAP에서 진행했던 Causal Discovery 스터디에서 제가 진행했던 세션인데요. 내용이 길고 어려워서, 필요하실 때 찾아보는 것을 추천드립니다.

Reference

이 방법론, 사용할 만할까?

회귀 불연속 (Regression Discontinuity로 이하 RD), Causal Mixtape 및 기타 자료에서는 Regression Discontiuity Design 으로 줄여서 RDD라고 칭하기도 한다.

RD 방법론 자체는 1960년 Donald Campbell 이라는 교육 심리학자에 의해서 (1960) 발명되었다. 정말 오래되지 않았는가? 그 당시에는 그렇게 인기가 많지 않았다.

1999년부터 Quarterly Journal of Economics Econometrics 의 다수의 논문에서RD를 활용하기 시작하며 그 이후부터 20년간 인기가 급상승하기 시작했다.

A picture is worth a thousand words.

말 천 마디보다 그림 하나가 낫다는 의미다. 가정을 잘 만족시켰는지(Identification strategy)와 인과추론 결과를 시각화하는 것은 독자를 설득하기 위한 필수 요소다.

경험적으로도 시각화가 강력한 DiD를 활용해보며 그 장점을 느꼈지만, Causal Mixtape에서도 강조되고 있다.

RD의 상대적 강점은 시각화가 가능하다는 점이다. 하지만 RD의 시각적 디자인은 Synthetic Control과 함께 가장 시각적으로 이해하기 어려운 디자인에 속한다.

RD의 디자인, 공부하기 전까지는 거부감이 느껴졌다.

RD의 시각화는 강점이지만, 어렵다보니 명확하고 투명하게 그 의미를 드러낼 수 있도록 돕는 것이 필요하다.

실무에서는 이렇게 써볼 수 있다

◼ ️Yelp 예시

  • 문제 : 레스토랑의 별점이 레스토랑의 매출에 주는 영향을 알고 싶다.
  • 방식 : 고객들이 레스토랑에 대한 리뷰를 매김으로써 평균 점수가 나오지만, 옐프는 평균 점수를 반올림하여 가장 가까운 0.5 단위의 별점을 보여준다. 따라서 반올림이 되는 지점을 배정변수로 활용한다.
Discontinuity가 존재

◼ ️HyperConnect 예시

  • 문제 : 100% 배포된 라운지 유도 팝업이 탭 진입율에 준 영향은?
  • 방식 : RDiT, 배정 변수로 배포 날짜를 활용했다.
  • 출처 : 링크

회귀 불연속 사례로 쉽게 개념 이해하기

방법론을 실무에서 사용해서 인과관계 기반 의사결정을 이끌어내고 싶다면 ‘명확하고 투명하게’ 이해시키는 것이 중요하다. 고수들의 경제학에서는 간단한 사례를 언급하며 RD를 설명하는데 이는 이해에 큰 도움이 된다.

◼ ️문제 상황

“술을 마실 수 있도록 합법적으로 허용해주면, 사망률이 높아질까?”

  • 법적 최소 음주 연령 (Minimum Legal Drinking Age, MLDA) 제도가 사망률에 주는 영향을 알고 싶다.
  • 미국 MLDA는 21세 기준으로 적용이 되기 시작한다.

◼️ 모델링

  • 처치 (T) : 술을 마실 수 있도록 합법적으로 허용하는 것
  • 배정변수 (Running Variable) : 처치를 결정하는 변수. 나이 또는 출생 월을 의미하며, 21세를 넘느냐 안 넘느냐에 따라 처치를 결정함.
  • 규제가 주는 자연 실험 환경
  • 결과변수 : 나이별 사망률 (Death Rate)

◼️ 메커니즘

회귀식 : 선형적인 추세선 (보유하고 있는 데이터 포인트들을 기반으로 추세를 그리는 예측된 선)

◼️ 이중차분법 (DiD)과 유사하지만 다른 회귀 불연속 (RD)

  • 이중차분법 (DiD) : 대조군으로 여겨지는 그룹의 Treatment 전/ 후 데이터가존재해, 대조군과의 차이를 기반으로 인과효과를 추정한다.
이중 차분법
  • 회귀 불연속 (RD) : 대조군으로 여겨지는 그룹이 없으며, 배정변수 (Running Variable)라는 개념을 통해서 자연적으로 실험과 같은 환경을 구성함.

“그래서, DiD 대비해서 RD는 어떻게 차이가 나나?”

  1. RD에서는 배정변수 개념이 추가되었다. → 배정변수 전후 샘플은 차이가 없을 것이다는 가정 (+1, -1세 범위의 사람들은 차이가 없을 것이다.)
    다만, 얼마나 전후까지 괜찮은가? (e.g. +3, -3세..면 괜찮을까?) 의 질문이 파생된다. Bandwidth 설정이 중요해진다.
  2. RD에서는 대조군으로 여겨지는 그룹의 Treatment 전/ 후 데이터가 없다. → 배정변수 이전/ 이후의 데이터 포인트들을 기반으로 그 추세를 학습한다.
    따라서, 데이터 포인트들을 잘 설명할 수 있는 모형이 무엇일까? 의 질문이 파생된다. Parametric 모델 설정이 중요해진다.

“만약 둘다 적용할 수 있는 상황이라면?”

  • 둘다 적용할 수 있는 상황이라면, 더 충족시키고 검증하기 쉬운 가정은 DiD이므로 DiD가 우위에 있다.
  • DiD의 Parallel Trend Assumption은 Causal 기법 중에서 가장 검증이 쉬운 가정이다. 명시적으로도 검증 가능하고, 통계적으로도 Relative Time Model, Lead-Lag Model 으로 검증 가능하다.
  • 하지만 RD의 가설 검증은 어렵다. 불연속 임계치 전후로 특성이 유사해야 한다. Cutoff가 정말 임의로 설정된다면, 불연속 지점 전후로는 비교가 가능하겠지만 대역폭을 넓혀서 보게 되면 어렵다.
    (e.g. 20세 ~ 22세 비교하기 vs 0세 ~ 80세 비교하기)

회귀 불연속 키워드로 개념 확실히 하기

◼️ 회귀 불연속 (RD)의 Rationale

제약을 가하는 경직적인 규칙이 자연 실험 환경을 만들어낸다. (Natural Experiment 계열) 따라서 무작위 시행의 결과와 동일한 인과적 위력을 갖는다.

◼️ 회귀 불연속 (RD)을 구성하는 주요 키워드

  • 배정변수 (Running Variable) : 처치를 결정하는 변수
  • 처치변수 (Treatment Variable) : 처치 여부 변수
  • 대역폭 (Bandwidth) : 배정변수 전후로 얼마까지 인과효과 추정에 활용할 것인지의 너비

◼️ 회귀 불연속 (RD)의 종류

앞서 살펴보았던 깔끔하게 임계치 (age = 21) 기점으로 처치 여부가 결정되는 경우는 실제에서 많이 없다.

임계치를 기점으로 처치 확률 및 강도가 변경되는 정도로 영향을 주게 되는데 이 문제가 곧 Imperfect Compliance와 같다.

  • 계단형 회귀 불연속 (Sharp RD) : 배정변수가 임계치를 통과함에 따라 처치 여부가 0에서 1으로 깔끔하게 바뀐다.
  • 경사형 회귀 불연속 (Fuzzy RD) : 배정변수가 임계치를 통과함에 따라 처치 확률 혹은 강도가 급격히 변한다.

회귀 불연속을 통해서 정확하게 추정하려면?

D와 DiD의 차이에서 보았듯이, RD의 핵심은 대역폭 / 배정변수 2가지로 구성이 된다. 이 2가지만 기억하더라도 RD를 어느 정도 잘 이해했다고 볼 수 있다.

[1] 대역폭 (Bandwidth)

  • 기본적으로 대역폭을 좁히는 것이 좋지만, 샘플 사이즈가 적어지는 Trade-off 가 있어 조절이 필요하다.
  • 대역폭을 좁히다보면 결과는 엄밀하더라도, 샘플 사이즈가 너무 적어지므로 LATE(Local Average Treatment Effect)가 될 수 있다. ”일반화 문제 발생”
  • 대역폭을 넓게 본다면, 배정변수의 증가에 따른 변화가 있을 수 있을 것이라고 가정한다. ”선택 편향 문제 발생"
  • 보완하기 위해서는? 배정변수의 변화에 따라 얼마나 그 인과효과가 변할지 추정하여 선택 편향을 설명할 수 있다. (e.g. 선형적, 2차식으로 예측)

[2] 배정변수 (RV)

  • Parametric : 선형 비선형 등으로 데이터를 가장 잘 표현하는 식을 구성하는 방식
  • Nonparametric : 단순 평균 내는 방식

Trade-off가 있으므로 위 2가지 방식들을 2x2 매트릭스로 구성할 수 있다. 이때, Global Experiment 는 활용되는 경우가 없고 Local Bandwidth 하의 2가지 관점이 주로 활용이 된다.

위 2x2 매트릭스를 더 잘 설명하기 위에 RD를 시각적으로 그려낸 사례에서 살펴보겠다. 더 자세한 설명은 아래 그림을 참고하자.

회귀 불연속 가정을 검증하는 방법

◼️ Identification Strategies

  1. Nonparametric일 때 : Cutoff가 정말 임의로 설정된다면, 불연속 지점 전후로는 비교가 가능하겠지만 대역폭을 넓혀서 보게 되면 어렵다.
  2. Parametric일 때 : 가정이 1보다는 완화되지만, 실제에서는 어떤 Function이 실제 데이터에 맞는 모델인지를 알 수 없다.
    “근본 문제" 데이터가 Linear, Nonlinear 모양이 진짜 모델인지 알 수 없다.

즉, True Model을 알 수 없기 때문에 Sensitivity Test가 신뢰도 형성에 중요한 역할을 한다. 1차식 ~ 3차식까지 식을 만들어서 피팅해보는 식으로 대부분의 연구에서 접근을 취하고 있다.

Identification을 위해서, 2가지에 대해서 Sensitivity Test를 진행하게 된다.

  1. 대역폭 (Bandwidth)
  2. 회귀 모형 (Functional form)

즉, 목표는 하나의 완벽한 대역폭을 찾아내는 것 보다는 특정한 대역폭을 선택했을 때 도출되는 결과가 우연에 의한 것이 아님을 입증하는 것이다.

◼️ RD 유의점들

  1. X, Y의 관계가 선형이 아닐 때 선형 모형을 이용해 구한 추정치들은 비선형성을 ‘단절’로 잘못 인식한다.
  2. RD 연구자는 자신의 RD 추정치들이 추정치를 구하는 데 사용한 회귀 모형의 세부 사항들이 변함에 따라 어떻께 달라지는지 독자에게 보고해야 한다.
  3. 임계치(배정변수)로 부터 떨어진 추정치들은 과감한 외삽(Extrapolation)을 통해서 도출되기 대문에 이 값들은 매우 신중하게 받아 들여져야 한다. (e.g. 음주 합법화가 22세 사망률에 주는 영향 <<< 음주 합법화가 70세 사망률에 주는 영향 에서 더 신중해야 한다.)
  4. 화려한 모형과 단순한 모형 중 어느 것이 나은지에 대한 일반적인 규칙은 존재하지 않는다. 단순한 모형(선형 회귀)의 경우에도 충분히 유연하게 데이터를 표현할 수 있다.
  5. 특히 Nonparametric으로 특정 폼을 가정하지 않고 대역폭 줄여서 추론하는 때도 있으며 유용하다. 직관적이다. 데이터들이 임계치 근처에 모여 있다면 유효한 방법론이다.

Comments

RD를 어떻게 활용하면 좋을까 스터디 원분들과 논의를 했었다.

  1. 상품 / 이벤트 적용을 바꿀 때에는 비즈니스 로직이 주로 존재한다. 예를 들어서, 유저의 참여 일수나 구매 활동등을 점수화하여 임계치를 넘으면 상품을 주거나 이벤트를 적용한다.
  2. 이 때 내부 비즈니스 로직으로 산정된 ‘임계치'는 Continuous한데, 임계치 전과 후의 대역폭에서는 유저의 특성이 유사할 것이므로 RD를 적용해서 풀기 적합한 문제가 된다.

예를 들어서, 구매금액 15만원 전후로 14만원 ~ 16만원 사이의 유저의 특성이 동일할 것으로 보고, 골드로 승격시킨 것의 효과를 RD를 통해서 추정해볼 수 있겠다.

출처 : https://www.makeheal.com/m/page.html?id=10

--

--

Bonnie BK
BON DATA

옆 동네 데이터 분석가, 데이터로 유저의 행동을 이해하고 인과관계를 파악합니다. Contact me through 🔗 https://www.linkedin.com/in/b-choi/ 🗂 https://www.slideshare.net/choibokyung/presentations