실무자를 위한 인과추론 Best Practices

인과추론이 비즈니스에 가져다 줄 수 있는 기회는?

Bonnie BK
BON DATA
10 min readApr 20, 2022

--

세션 진행 배경

2022년 2월 Product Analytics 커뮤니티 PAP 에서 컨퍼런스 PAPCON 시즌 1을 열었습니다. 이 때 저는 시즌 1 기수 분들과 진행했었던 DoWhy 스터디 결과물을 널리 알리고 싶어서 발표 준비를 하게 되었는데요. 스터디 관련해서는 다음번에 후기를 작성해보겠습니다.

처음에는 발표가 처음이신 멤버 분들께 부담이 될까봐 컨퍼런스를 내부 인원으로만 한정하려고 했는데, Facebook Group 및 그 외로 참여해주시는 분들과 함께 해야 겠다는 생각이 들었습니다.

Facebook과 LinkedIn에 올렸는데 신청자가 269명을 기록했습니다.

행사 진행도 하고, 세션도 준비하느라 정신 없는 시기였는데요. 제 세션을 글로 기록해두려고 합니다. 영상은 아래에서 확인 가능합니다.

PAP 채널 구독하면 복 받으실 거에요

🎬 슬라이드쉐어에서 자료 보러가기

주요한 목차는 아래 3가지로 구성이 됩니다.

인과추론, 나한테만 이렇게 어려운 걸까?

3개월간 PAP 멤버 분들과 인과추론 스터디를 진행하면서 꽤 절망적인 순간들이 많았는데요. 특히, 인과추론 기본 방법론들에 Machine Learning 을 도입할 경우 도저히 이해를 할 수가 없습니다.

오갔던 이야기들

걱정마세요. 어려운 것은 우리만의 문제가 아닙니다.

실무에 인과추론을 활용하기 위해 극복해야 할 챌린지를 Chicken and Egg problem 으로 설명할 수 있습니다.

A/B 테스트로 대답이 될 수 없는 실무의 질문들, 테스트가 불가능한 상황들이 있기에 인과추론을 배워야 하는 필요성은 인지하고 있습니다. 하지만, 애널리스트들은 신뢰 가능한 숫자를 도출할 수 있을 정도로 인과추론에 대해 충분히 이해하지 못합니다.

역으로 연구의 소비자는 분석 결과에 대해서 심문을 할 수 있을 만큼, 충분히 이해하지 못합니다.

즉, 어디서 시작되는지는 알 수 없지만 두 측면은 서로를 강화 시킵니다. 데이터를 보시는 분들은 아시겠지만, 이해할 수 없는 숫자는 결국 간과됩니다.

따라서 굳이 이 기법들을 배울 인센티브가 없어집니다. 이 문제는 저도 경험하고 있고, 해외에서 인과추론을 접목하고자 하는 실무에서도 다수 마주치는 문제입니다.

실무 인과추론의 위계

다음 목차로는, 이 어려운 인과추론을 효율적으로 공부하기 위해서 실무에서 활용되기 좋은 기법들과 Best Practice들을 먼저 살펴 보고자 합니다. 일명 ‘거인의 어깨 위에 올라서는' 것이죠.

  1. Randomization : A/B 테스트와 같은 의미이며, 실험이 가능한 상황이라면 골든 스탠다드입니다. 그래서 현업에서는 Agile한 A/B 테스트 파이프라인을 구축하는 데 최선을 다하는 것이 좋습니다. MAB, Uplift Modeling을 통해서 Randomization의 효율을 높여주거나 추가적인 가치를 더해줄 수 있다는게 실무에서 활용할만한 Randomization 의 포인트입니다.
  2. Natural Experiment : 실험의 상황에 가까운 부분적인 데이터셋을 찾자는 관점, As-if-random으로도 칭해지는데요. 관측되지 않는 변수도 있으니, 변수를 많이 수집해도 결국 관측되지 않는 것에 한해서는 다 통제할 수 없다는 관점에서 출발합니다.
  3. Conditioning Method : 가정들을 기반으로 변수들을 통제하는 관점입니다. 다양한 방식들이 있지만, DoWhy 라이브러리에서는 5가지 방식을 제공하고 있습니다.

위 내용을 Hierarchy 형태로 정리하고, 각 기법들을 나열하면 아래와 같습니다.

현업에서 자주 마주치는 인과추론 문제의 유형

인과추론으로 풀 수 있는 비즈니스 문제들, 어떤 것들이 있을까요?

현업에서 경험해 본 문제 위주로 3가지를 추리고, 리서치하여 이 문제를 푼 1 ~ 2개의 기업 사례를 가져왔습니다.

이하 내용은 Slide 에 정보를 상세히 정리해두어서, 설명은 간략하게 이미지의 상세 설명으로 표기해두겠습니다.

방법론 01. 도구변수 (Instrumental Variable)

A/B 테스트를 진행해도, 유저가 처치를 받지 않을 수 있다. 이 때 처치의 효과를 어떻게 확인할 수 있을까?

트립어드바이저의 KDD 사례 (econML이라 실제로 빠르게 적용해보기는 어렵습니다)
도구변수를 활용해야 했던 이유와, 도구변수를 활용하는 방법론을 Recommendation A/B 테스트로 부른다는 내용
Roblox 에서 도구변수 활용한 사례, 2SLS 라 가장 접근하기 용이합니다.

방법론 02. 업리프트 모델링 (Uplift Modeling)

비용이 수반되는 A/B 테스트를 진행했다. 어떤 유저에게서 가장 처치의 효율을 극대화할 수 있을까?

Uber Eats 에서 Uplift Modeling 을 광고 타겟팅을 위해서 활용한 사례, 실제로 어떤 메커니즘으로 활용했는지도 설명해두었으니 본 슬라이드를 확인해주세요.
DoorDash 에서 Uplift Modeling 을 프로모션 타겟팅을 위해서 활용한 사례, 어떤 메커니즘으로 활용했는지는 슬라이드의 링크에서 확인하시는 것이 좋습니다.

방법론 03. 이중차분법 (Difference-in-Differences) 또는 매칭 (Matching)

A/B 테스트를 진행하지 않았다. 이 때 처치의 효과를 어떻게 확인할 수 있을까?
+ (최근에 진행해보니) A/B 테스트를 진행해도, 유저가 처치를 받지 않을 수 있다. 이 때 처치의 효과를 어떻게 확인할 수 있을까? 에도 DiD 는 적용 가능합니다.

DiD, Matching 이 비교적 많이 사용이 되고 있는 방법론이기에 추천드립니다.
제가 진행했었던 사례인데, SQL Excel 만으로도 진행이 가능해서 용이합니다. 블로그의 글 참조 가능합니다.
DoWhy는 간결한 것이 장점이지만 단점이기도 합니다. 손쉬운 인터페이스이지만 실무에 가져가서 설득하기에는 출력해주는 정보가 충분치 않습니다. 결국 깊이 이해하고 상세 메커니즘 내부 값을 확인할 수 있어야 신뢰할 수 있습니다.

인과추론, 실무에 적용할 때의 어려움

위에서 실무 위계, Best Practices 들을 살펴 보았는데요. 리서치와 경험을 기반으로 실무에 적용할 때의 어려움을 3가지로 분류했습니다.

[1] 인과추론을 위한 가정들

해외 조사에 따르면, 응답자 중에서, 51%가 실험이 아닌 관측형 데이터에서의 인과추론일 때, 가정을 만족시키기 어려움이 있다고 응답했습니다.

이 문제는 불가피한 것 같습니다. 몇 가지 대안을 제안해보자면,

  • 다수의 기법들을 사용해 추정 결과를 교차 검증하는 것이 필요하고
  • 엄밀한 가정들을 만족시켜야 하는 기법보다, 가정이 비교적 적은 기법을 선택하는 것이 좋을 것 같습니다.
  • DoWhy 처럼 가정들에 대한 Sensitvity Analysis를 많이 제공하는 라이브러리를 활용하는 것도 대안이 됩니다.
  • 궁극적으로 이 기법들을 사내에서 적용해보면서 노하우를 쌓고 템플릿화하는 것이 필요합니다. (요새 문제 의식으로 삼고 있는 부분입니다)

[2] 사람에 대한 데이터가 가지는 본질적인 한계

두번째 어려움으로는 사람에 대한 데이터가 가지는 본질적인 한계가 있습니다.

  • 추정된 인과 효과는 Context-dependent 하다는 사실 (플랫폼 종류, 문화, 유저 특성 등)
  • 일반화가 어렵다는 한계를 인정하고 명시할 것 (Non-generalizability에 대해서 투명해질 것)
  • 사람에 대한 데이터가 주로 가지는 4가지 Selection Bias(Confounders)를 소개

Microsoft Research는 이런 데이터가 주로 가지는 4가지 바이어스를 소개하는데요. Demographic, Usage, Activity, Preferences 가 있으니 링크에서 확인해보시고 유의하시면 좋겠습니다.

[3] Educational Gap (정보/ 교육 격차)

마지막 어려움은 Educational Gap입니다. 서베이에 따르면, 이 교육 격차도 인과추론 실무 접목에 있어서의 챌린지 중 하나인데요.

데이터 사이언스 팀 내에서도 주로 소수의 인과추론 전문가에게 지식을 의존함.

궁극적으로 이 교육 격차는 관리자 레벨으로 확장되어, 인과추론 데이터 사이언스 기법들이 의사 결정에 가져다 줄 수 있는 기회를 인지하지 못하게 하고 있습니다.

이를 해결하기 위해서는 창출할 수 있는 비즈니스 기회를 이해할 수 있게 전파하고, DS들은 효과적인 정보 전달을 위해 고민하는 것이 필요하다고 판단했습니다.

효과적인 정보 전달을 위해서 개인적으로 하고 있는 생각은,

  • Mixpanel, Amplitude에서도 인과추론 기법들이 기능으로 구현되어 있습니다. Product Analytics SaaS 로서 다양한 형태의 데이터에 맞을 수 있는 기법이 무엇인지, 다수의 사용자의 이해를 도울 수 있는 시각화 방식은 무엇인지 고민했을 텐데요. 이를 레퍼런스 삼아서 인과추론 기법 & 시각화 방식를 선택해도 좋을 것 같습니다.
  • PA SaaS 는 대부분 DiD 형태입니다. Amplitude 가 인수한 Clearbrain 의 경우는 Lift 를 보여주는 UI를 취하고 있습니다.

마무리

데이터와 인과관계를 기반으로 의사결정을 하는 순간들이 더 많아졌으면 좋겠습니다. 다만 의사결정에 가까이 있는 데이터 분석 생산자들은 대부분 시간에 쫓기기 좋고, 설득이 어렵습니다. 데이터 분석 소비자가 곧 생산자가 될 수 있는 아름다운 미래가 오기 전까지는, 꾸준히 공부하고 서로 공유해야 할 것으로 믿고 있습니다.

데이터 분석 생산자들은 실무에서 잘 쓰이는 기법 위주로 메커니즘에 대해 확실히 이해하고, 데이터 분석 소비자들은 비즈니스에 인과추론이 가져다 줄 수 있는 기회에 대해 더 잘 이해하고, 활용될 수 있도록 하면 좋겠습니다.

즉, 좋은 순환이 발생하기를 소망합니다.

자료를 다시 보고 싶으신 분들은 슬라이드쉐어에서 자료 보러가기 확인해주세요!

--

--

Bonnie BK
BON DATA

옆 동네 데이터 분석가, 데이터로 유저의 행동을 이해하고 인과관계를 파악합니다. Contact me through 🔗 https://www.linkedin.com/in/b-choi/ 🗂 https://www.slideshare.net/choibokyung/presentations