베이시안 통계 첫걸음!

딥벨리데이션
5 min readApr 15, 2017

--

자! 오늘은 베이시안 통계를 쉽고 직관적으로 설명해 드릴게요!

베이시안 통계란?

베이즈 확률론(Bayesian probability)은 확률을 ‘지식 또는 믿음의 정도를 나타내는 양’으로 해석하는 확률론이다.[1] 확률을 발생 빈도(frequency)나 어떤 시스템의 물리적 속성으로 여기는 것과는 다른 해석이다. 이 분야의 선구자인 18세기 통계학자 토머스 베이즈의 이름을 따서 명명되었다. — Wikipedia

조금 난해한 정의군요! 그럼, 좀 더 흥미로운 이야기부터 시작해볼까요? 통계학의 계보를 거슬러올라가면 실제로 베이시안 통계가 순서상 먼저 발명이 되었고, 그 이후에 우리가 평소에 자주 접하는 Frequentist 학파의 통계가 유명세를 타기 시작했습니다.

베이시안 통계의 아버지 Thomas Bayes

어라? 왜 베이시안이 먼저 생겼는데 인기가 없었지? 컴퓨팅 파워가 큰 이유 중 하나였는데요, 뒤에서 자세히 설명하겠지만, 베이시안은 지속적인 업데이트를 통해서 확률을 계산합니다. 컴퓨터가 없었던 과거에는 힘든 부분이었겠지요?

먼저, 동기부여를 위해 우리는 언제 베이시안을 활용할 수 있까요?

  1. 데이터셋이 적으나 관련 정보가 있는 경우: 새로운 마케팅 캠페인의 효과를 측정할 때, 세일즈 활동의 영향력을 파악할 때, 새로운 마켓에 진입할 때 등
  2. 데이터에 그룹이 존재하는 경우: 이커머스에서 주로 쓰는 상품 가격모델, 지리적 모델링 등

오케이! 좋은 건 알겠으니, 그럼 구체적으로 베이시안을 파해쳐 봅시다!

베이시안을 활용하여 새로운 마케팅 캠페인 평가하기!

예를들어서, 온라인 서점을 열었다고 합시다. 우리는 사람들을 끌어 모으기 위해서 마케팅 캠페인을 시작합니다. 다양한 방식의 마케팅 방법 중 어떤게 좋은지 평가하기 위해서, 광고 연결률 (CTR) 를 활용할게요. 자, 우리 웹사이트에는 “데이터 읽어주는 남자 보러가기" 라는 버튼을 만들었고, 총 10명에게 보여줬습니다. 그리고 그 중 7명이 클릭을 했다고 가정해볼게요.

그럼, 다음 고객이 이 버튼을 클릭할 확률은? Frequentist의 입장에서는 70%라고 말할거에요. 우리가 과거에 그렇게 배워왔듯이요!

자! 그렇다면 베이시안적인 관점에서 봅시다. 그전에, 과거의 기억을 되살려서 중, 고등학교 때 동전 던지기 예를 통해 배웠던 통계를 떠올려 볼까요?

역시 통계는 동전 던지기

동전 앞면은 클릭할 고객의 확률, 뒷 면은 클릭하지 않을 확률이라고 해봅시다! 아 이게 그 이항분포구나!

겁먹지 말아요, 해치지 않아요.

예를들어서, 독립적이라는 가정하에, 고객이 클릭할 확률은 0.5! 그렇다면 10명의 고객 중 7명의 고객이 클릭할 확률은? 위 이미지에 n = 10명의 고객! x = 7, p = 0.5. 참 쉽죠?

출처: datascience.inc

우리는 위와 같은 분포를 얻을 수 있어요. 그런데, 마케팅 캠페인을 해보았다면 이게 굉장히 장미빛 확률이라고 느껴지죠? 흠, 그렇다면 과거에 진행됐던 실제 데이터를 포함시켜서 봐볼까요?

출처: datascience.inc

외쪽에 보이는 회색 라인이 과거 사례를 보여주는군요! 아.. 보통 캠페인을 통해서 20%가 들어오는구나. 그렇다면, 우리가 지금 예측하고 있는 70%는 믿을만 한건가?

사전분포를 통해 더 똑똑하게 판단하자!

우리는 10번중에 7명의 고객이 클릭을 했더라도, 과거의 경험상 믿기 힘든 사실이란 걸 알 수 있습니다. 베이시안은 이렇게 과거의 데이터나 사실에 기인한 “믿음"을 계산에 포함합니다.

Prior Beliefs: 과거의 믿음, Evidence: 증거, Posterior Belief: 사후 (계산 후) 믿음

우리는 과거의 믿음 (Prior Beliefs) = “20%정도의 고객이 클릭했다”라는 사실과 최근에 얻은 증거 = “10명중 7명이 클릭했다"라는 정보를 동시에 감안합니다. 이를통해서, 사후 (계산 후) 의 믿음 (Posterior Beliefs)를 계산해냅니다. 그리고 새로운 정보가 들어 올 때마다, 현재의 믿음은 다시 과거의 믿음이 되고 (새로운 데이터가 들어온 순간 현재의 믿음을 과거의 믿음이 됩니다!) 여기에 새로운 정보를 감안해줍니다. 계속해서 “믿음”이 업데이트 되는거죠! 추후에 더욱 구체적으로 다루겠지만, 이런 업데이트를 통해서 더욱 정확한 예측 구간을 형성해갑니다.

이번에는 야구로 예를들어 볼까요?

이번 시즌에 처음으로 출전한 타자가 있습니다. 이 선수의 과거 전적이 없는 상태에서 첫 방망이질에 안타를 쳤다면 타율을 어떻게 될까요?

frequentist의 관점에서 타율은 100%! 반대로 첫 방망이질에 못 쳤다면 타율은? 0%! 참, 의미없는 확률이 되어버리고 말죠!

그렇다면 베이시안은 이 문제를 어떻게 똑똑하게 풀까요? 위에서 말한 과거의 믿음을 활용합시다! 평균적으로 해당 리그에서 출전한 선수 중 해당 선수와 비슷한 특성을 가진 타자들의 평균 타율을 기준 믿음으로 잡고, 이 타자가 시즌 중에 보여지는 타율로 확률을 업데이트 한다면 초반부터 꽤 의미있는 예측을 할 수 있겠죠?

마지막으로, 만약 친구가 동전 던지기로 내기를 하자고 먼저 다가온다면?! 그 친구의 평소 행실을 바탕으로 사전 믿음을 정의해보세요! 가까운 미래에 내기에서 진 자신을 마주하게 될 확률을 조금 더 정확히 예측할 수 있겠죠?

--

--