Causal Inference: 인과추론 소개

Bonnie BK
BON DATA
Published in
5 min readFeb 22, 2021

비즈니스 현장은 인과를 통해서 성과를 만드는 곳.

데이터 분석가는 세계 공통으로 ‘그래서 이 이벤트/프로덕트의 성과가 어땠어요?’ 의 질문을 받지 않을까 싶다. 그래서 이 포스팅은 데이터 분석일을 하다 인과관계에 대한 갈증이 생겨 공부를 한 내용이다.

인과 관계는 데이터 분석의 핵심이자, 비즈니스에서 끊임없이 물어보는 문제.

케이스를 들어서 생각해보자.

- 문제 정의: 콴다에서 충성 유저를 늘리고 싶다.- 유저의 <앱 지속 사용 여부>와 <가입 후 1주 이내 B 기능 사용 여부>가 상관 관계가 있음을 확인했다. - 그러면 가입 후 1주 이내 B 기능을 사용하도록 팝업을 띄워 유도하면 충성 유저가 될까?

→ No. 인과 관계의 확인이 필요하다. “상관관계는 인과관계를 의미하지 않는다.”고 흔히들 읽어본 말이 있듯이 상관 관계는 데이터를 통해서 가져올 수 있는 가장 베이직한 인사이트다.

- 만약에 B 기능 유도 액션을 실제로 집행할 경우, 그 액션은 <다양한 이벤트, 다른 팀의 출시, 시험 기간 시즌> 등의 외생 변수가 개입하는 상황에서, 유저들의 리텐션을 늘리는 데에 효과가 얼마나 좋았는지 알 수 있을까?

→ 외생 변수를 통제하고, 원하는 조치의 영향 만을 알고자 할 때는 실험 설계가 필요한 영역이다.

중요한 비즈니스 문제는 인과 관계 추론을 필요로 한다. 좋은 데이터 분석은 인과 관계를 바탕으로 스토리텔링 하는 것이기 때문이다.

분석이 힘을 얻기 위해서는 개연성이 필요하다. 납득할 수 있는, 검증된 인과관계는 개연성에 힘을 보탠다. 상관관계 여럿보다 인과관계 하나를 아는 것이 더 강력하다. 따라서 데이터를 바탕으로 스토리텔링을 하기 위해서는, 인과 관계에 대한 고민이 필수적인 것이다.

문제는 인과 관계를 검증하기 위해서는, 시간과 방법론들이 필요하다. 이상과 현실은 벽이 있다. 실험 설계를 할 수 없거나, 지난 데이터를 재구성하여 인과 관계 추론하고 싶을 때는 어떻게 할 수 있을까?

왜 인과 관계가 중요할까? 그리고 어떻게 추론 또는 검증할 수 있을까? 를 다음 포스팅에서 이어갑니다.

Ladder of Causality (Pearl, 2019)

우리는 옛날부터, 우리의 경험을 원인과 결과로 구분해왔다.

“왜 이런 일이 일어났을까?” “내가 그 때 다르게 행동했다면, 어떻게 되었을까?” “내가 그때 삼성 전자를 샀었다면……….”

우리를 인간으로 만든 핵심적인 인지 발달(Cognitive advances) 과정이지만, 지금까지 ML은 이것을 놓치고 있었다. ML은 다양한 피쳐들을 기반으로, 목표 값을 예측하는 것이 근본 구조다.

케이스를 들어서 생각해본다.

- 한 약국에서 치약 가격의 변동(x)와 치약의 판매량(y)가 상관 관계가 없음을 확인하고, 수익 창출을 늘리기 위해 치약 가격(x)을 인상했다.- 한 달 후, 치약의 판매량(y)이 치실, 쿠키 및 기타 품목과 함께 감소했다.= 다른 약국의 치약 가격 변동(경쟁 요소)가 있었음을 놓쳤던 것이다. 이 약국에서 일방적으로 치약 가격을 인상하자, 제품 가격에 민감한 고객들은 다른 곳에서 치약을 산 것이다. 덩달아 치약과 연관된 소비재인 치실도 감소했을 것이다.

과거 데이터의 일부만으로는 원인을 알 수 없으며, 데이터의 종류(other x variables, features)를 추가하기 보다는 인과관계의 방향에 대한 근본적인 고민이 중요하다는 것을 보여준다.

예측 모델, 인과 추론 모델의 차이 (출처 링크)

Ladder of Causality

Association, Prediction (연관성)

  1. 서로 연관성이 높은 현상들을 찾는다.
  2. 현상들 간의 연관성과 추세를 바탕으로 예측한다.
  3. 필요 데이터: observational data (current Machine Learning)

Intervention (개입)

  1. 어떤 행동을 취했을 때 그 영향과 결과를 예측한다.
  2. 필요 데이터: experimental, interventional data(randomized controlled trials, a/b test) (current Reinforcement Learning)

Imagining, Counterfactual (조건법적 서술)

  1. 시나리오 형태로 상황을 가정하여 서술한다. (만약 다르게 행동했다면 결과가 어땠을까?)
  2. 타임 머신을 개발하지 않는 이상 사용 가능한 데이터가 없음.

이 내용을 요약하면

  • 각 단계는 근본적으로 다른 개념이며, 다양한 수학적 tool이 필요하다고 한다. 특히 3단계에서 시나리오 statement를 서술하기 위해서는, 시스템의 이해와 시스템을 구성하는 요소들이 어떻게 연결되어있는지(인과관계)를 함께 뒤얽힌 채 이해할 수 있어야 한다.
  • 사다리에서 더 높은 단계에 도달하기 위해서는, 끝없이 데이터를 추가하는 대신, 근본적인 인과 요인의 모델, 즉 원인과 결과의 수학이 필요하다는 것.
  • Reference: http://www.econovill.com/news/articleView.html?idxno=339057, https://michielstock.github.io/causality/

왜 인과 관계가 중요할까? 그리고 어떻게 추론 또는 검증할 수 있을까? 를 다음 포스팅 “인과 관계를 추정하는 법" 에서 이어갑니다.

--

--

Bonnie BK
BON DATA

옆 동네 데이터 분석가, 데이터로 유저의 행동을 이해하고 인과관계를 파악합니다. Contact me through 🔗 https://www.linkedin.com/in/b-choi/ 🗂 https://www.slideshare.net/choibokyung/presentations