데이터를 이용한 문제해결의 장점

Jin Young Kim
Korean Medium Post
Published in
12 min readApr 1, 2015

--

지금까지 데이터 과학의 개념을 ‘데이터’와 ‘과학’으로 나누어 알아보았다. 앞에서는 데이터 과학을 데이터에 기반한 문제해결 방식으로 소개했지만, 문제 해결에는 이외에도 다양한 방법이 있다. 개인적인 경우에는 직관에 따라 해결책을 찾을수도 있고, 조직의 경우에는 당사자들간의 토의를 통하여 해결할 수도 있다. 그렇다면 데이터 과학, 즉 데이터 기반의 문제해결이 갖는 장점은 무엇일까?

데이터를 이용한 문제해결의 장점

위 그림에서 요약하듯 흔히 데이터 기반의 문제해결이 분석의 질을 향상시키는 점에만 주목하는 경향이 있지만, 데이터의 활용은 문제정의부터 데이터 분석, 제품 구현 및 의사소통에 이르기까지 문제해결의 전단계에 걸쳐 차이를 가져올 수 있다. 이를 좀더 자세히 알아보자.

새로운 관점과 문제정의

데이터 과학이 흔히 분석 단계에서 직관을 보조하는 도구로 인식되는 경우가 많다. 하지만 이외에도 데이터에 의한 문제해결은 종종 문제에 대한 새로운 관점을 부여하고, 혹은 관습의 틀을 깨는 문제 정의를 가능케 한다. 직관이나 토의에 의한 문제정의은 주로 개인, 혹은 집단에 속한 개인들의 경험과 주관에 의지하는 경우가 많은데 반해, 데이터에 의한 문제정의는 관찰가능한 현상과 누구나 동의할 수 있는 수치화된 지표에 기반하기 때문이다.

‘머니볼’은 데이터 과학을 야구라는 오랜 역사를 가진 스포츠에 적용한 오클랜드A 구단의 단장인 빌리빈의 이야기를 다룬 책이다. 1다른 메이저리그 스카우터들이 자신의 경험과 ‘감’을 통해 선수를 뽑고 있을 때, 빌리빈은 선수의 미래 성적과 가치에 대한 과학적 측정 방법을 도입하여 자신의 팀을 성공으로 이끌었다.

또한, 주어진 문제를 데이터화하려는 노력은 종종 해당 개인이나 조직의 업무 프로세스를 바꾸는 결과를 낳기도 한다. 현상을 데이터화하기 위해서는 업무 프로세스에서 관찰가능한 (즉 측정가능한) 부분을 최대화해야 하기 때문이다. 이는 종종 기존 프로세스에 숨겨져있던 비효율을 없애고, 좀더 투명하고 객관적인 프로세스를 만드는 결과를 낳는다. 문제를 정의하는 과정에서 이미 업무를 개선하는 효과를 얻는 것이다.

필자는 다양한 개인 데이터 분석 프로젝트를 통해 이런 개선 효과를 여러번 경험하였다. 우선 필자가 웨이트 트레이닝을 시작했을 때의 일이다. 보통 근육 운동을 할때 ‘운동기록부’를 작성하라는 조언을 많이 듣는다. 보통 여기에는 그날 한 운동의 종류와 무게, 반복 횟수를 적는데, 이를 통해 자신의 운동 능력의 발달을 한눈에 볼 수 있다.

필자가 적은 운동기록부의 일부

그런데 운동기록부를 적다 보니 그날그날의 반복횟수에 영향을 미치는 요인이 필자의 운동능력 이외에도 다양히 존재하는 사실을 발견했다. 예컨데, 특정 부위의 운동을 여러 종류에 걸쳐서 하면 당연히 나중에 하는 운동에는 100%의 힘을 발휘하기 힘들다. 또한 운동 중간에 쉬는 시간이 길어지면 다음 운동에 평소보다 더 많은 횟수의 반복을 할 수 있다.

즉, 자신의 운동능력을 정확히 반영하는 운동기록부를 작성하기 위해서는 운동의 프로세스 자체를 정형화해야 한다는 점을 깨달았다. 즉, 운동의 순서를 미리 결정하고, 운동을 시행하는 시간 및 쉬는 시간을 모두 타이머로 일정하게 맞추는 것이다. 이렇게 정확한 순서로 운동을 하면서 예전보다 훨씬 더 좋은 결과를 얻을 수 있었다. ‘데이터화’가 가져다준 뜻밖의 효과였다.

세밀하고 객관적인 분석

인간의 두뇌는 다양한 감각을 통해 정보를 수집하고, 이를 바탕으로 거의 순간적인 결정을 내릴 수 있는 엄청난 능력을 지녔다. 그리고 오랜 시간과 노력을 통해 이런 감각과 직관을 세련화한 각 분야의 ‘전문가’들이 보여주는 능력은 많은 사람들을 놀라게 한다. 하지만, 인간의 감각과 직관은 동시에 여러 한계를 지닌다. 여기서는 정확도와 편향이라는 측면에서 이를 생각해보자.

정확도 우선 직관적으로 내릴 수 있는 판단의 정확도에는 한계가 있다. 야구에서 타율 2할 8푼과 3할 타자의 차이는 연봉이나 대우면에서 상당히 다른 결과를 가져온다. 하지만 데이터에 의존하지 않고 순수 인간의 판단만으로 이를 구분해낼 수 있을까? 야구 통계의 아버지 빌 제임스(Bill James)는 ‘머니볼’에서 이렇게 말한다. 3할을 치는 타자와 2할7푼5리의 타자간의 실력 차이를 직관적으로 알기는 어렵다는 이야기다.

Think about it. One absolutely cannot tell, by watching, the difference between a .300 hitter and a .275 hitter. The difference is one hit every two weeks. It might be that a reporter, seeing every game that the team plays, could sense that difference over the course of the year if no records were kept, but I doubt it. (@MBALL)

이번에는 개인 데이터 분석의 사례를 생각해보자. 필자는 2002년부터 다양한 방식으로 필자가 보내는 시간의 질을 측정해오고 있다. 2시간의 질은 주로 그때 그때의 감정 상태에 기반하기 때문에 ‘행복도’라고 봐도 무방할 것이다. 이런 이야기를 주변 사람들에게 하면 항상 듣는 이야기가 있다. “행복도요? 그거 그냥 아는거 아닌가요? 왜 측정을 하죠?” 그럼 필자는 이렇게 답변한다. “그럼 지난주보다 이번주에 10% 더 행복한지 어떻게 알 수 있을까요?” 그럼 대부분의 사람들은 그때서야 수긍을 한다.

위 두 사례에서 내릴 수 있는 결론은 간단하다. 직관적으로 아는 것은 차이를 만들기에 충분치 않다는 것이다. 어쩌면 이것이 우리의 삶과 업무가 수많은 측정 기구로 둘러쌓인 이유일 것이다. 데이터에 기반한 문제해결은 이런 측정값을 모아 좀 더 정확하게 만들고, 이를 바탕으로 삶과 비즈니스의 중요한 문제에 대해 (예컨데 ‘주어진 예산으로 내년에 어떤 선수를 뽑아야 할까?’와 같은) 최적의 판단을 내릴 수 있도록 도와준다.

편향 인간의 판단은 정확도의 한계 이외에도 다양한 종류의 편향과 오류의 가능성을 내표하고 있다. 우선 인간의 판단은 상식이나 자신의 경험에 (그것도 최근의 경험에) 좌지우지된다. 또한 자신이나 자신이 속한 집단의 이익이 걸린 판단의 경우에는, 일단 결론을 내려놓고 이를 정당화할 근거를 찾는 경우도 비일비재하다. 이런 직관의 오류에 대해 ‘머니볼’에서는 다음과 같이 말한다.

The human mind played tricks on itself when it relied exclusively on what it saw, and every trick it played was a financial opportunity for someone who saw through the illusion to the reality. (@MBALL)

실제로 빌리빈 단장이 다른팀에 비해 좋은 선수를 싸게 살 수 있었던 것은 그의 경쟁자들이 직관의 편향이라는 함정에 빠진 반면에 그는 철저의 데이터에 근거해서 결정했기 때문이다. 즉, 다른 스카우터들이 선수의 키나 외모와 같은 눈에 띄지만 실제 경기력과는 관계가 별로 없는 사실에 근거해 판단을 내린 반면에, 빌리빈은 실제 경기 결과와 선수 개인의 특성에 관한 분석을 통해 발견한 출루율과 같은 (그 당시에는 사람들이 별로 신경쓰지 않았던) 지표에 의해 선수를 골랐다.

필자의 행복 측정 프로젝트에서도 비슷한 경험이 있다. 필자가 대학원을 마치고 직장을 구하던 2012년도, 몇달간의 행복도 데이터를 분석하던 필자는 놀라운 결론에 도달했다. 주중보다 주말이, 아침보다 밤, 연구실보다는 집에서의 행복도가 더 낮은 것이었다. 사실 그때까지만 해도 필자는 일반적인 통념에 따라 주중의 행복도가 높다고 생각하고 있었지만, 데이터는 그 반대의 사실을 알려주고 있었다. 쉴때 더 행복하다는 편견을 데이터가 고쳐준 것이다.

분석 결과의 효율적이고 정확한 구현

앞장에서 언급한대로 데이터 분석의 결과물은 다양한 형태로 구현될 수 있다. 일회성 분석이라면 분석 결과가 곧 산출물이 되겠지만, 많은 경우 데이터 과학의 대상이 되는 문제는 반복적으로 발생한다. 이런 경우의 산출물은 반복되는 의사결정을 자동화하는 통계 모델이 될수도 있고, 또한 사용자의 이용 패턴을 반영하는 검색이나 추천 알고리즘이 될수도 있다. 이런 데이터 과학의 산출물을 데이터 제품(Data Product)이라고도 한다.

데이터 기반의 해결책이 갖는 장점은 이런 구현 단계에서도 발휘된다. 우선 인간의 경험과 노력에 의존하는 기존 해결책에 비해 데이터에 기반한 모델이나 알고리즘은 반복적인 의사결정을 굉장히 효율적으로 내릴 수 있다. 또한 일단 모델이 만들어지면, 이를 더 큰 데이터에 적용하기 위해서는 더 많은 데이터를 넣어주면 된다. 모델을 다른 비슷한 상황에 적용하는 일도 간단하다. 해당 상황에 맞는 데이터를 넣어주면 되기 때문이다.

필자의 전공분야인 검색엔진의 경우를 생각해보자. 전통적으로 도서관 등의 정보 저장소에서 자료를 찾아주는 일은 사서의 역할이며, 이는 문헌정보학 및 관련분야의 지식을 필요로 하는 전문직이다. 하지만 아무리 뛰어난 사서라도 어느 이상의 규모를 초과하는 도서관의 장서에 대한 지식을 모두 갖출수는 없을 것이다. 반면에 구글이나 빙과 같은 웹 검색엔진은 전세계의 모든 문서에 대한 검색 서비스를 제공하면서도 상당한 정확도를 자랑한다. 또한, 일단 하나의 국가 혹은 시장에 대해서 검색엔진을 만들어 놓으면, 다른 시장에 대해 서비스하기 위해서는 해당 시장의 문서만 넣어주면 된다.

이처럼 데이터 기반의 제품들이 일단 만들어지면 너무나 쉽고 효율적으로 서비스를 제공할 수 있기 떄문에, 소비자와 물건을 혹은 소비자와 공급자를 연결하는 ‘중계업’들은 점점 설자리를 잃어가고 있다. 아마존으로 대표되는 전자상거래 업체들이 기존의 서점이나 소매상 등을 위협하고 있고, 넷플릭스와 같은 영화 렌탈 서비스가 기존의 비디오 대여점을 거의 대체해가고 있는 것이 대표적인 사례다.

투명하고 강력한 의사소통

접근 방식에 관계없이, 집단 내부나 혹은 고객을 위하여 문제를 해결하는 경우라면 그 최종단계는 관계자나 고객에게 그 결과를 전달하는 작업일 것이다. 객관적인 증거를 제시하기 어려운 기존의 문제해결 방법은 이런 소통 과정에서 많은 한계를 드러낸다. 당사자들이 자신의 주관적 견해에 따라 결과를 받아들이지 않을 수도 있고, 그러다보면 결국 최고의사결정권자의 의중에 따라 결론이 내려지게 마련이기 때문이다.

이런 상황에서 데이터 과학은 어떤 사람도 설득할 수 있는 힘을 부여한다. 이때 그 힘의 원천은 사실에 근거한 결론이다. 제아무리 주관이 강한 사람도 명명백백한 사실을 부인할수는 없을테니 말이다. 또한, 이런 결론은 비슷한 다른 문제에도 적용할 수 있다는 장점이 있다. 문제를 한번만 풀어 놓으면 결과를 계속 사용할 수 있는 것이다. 객관적인 관찰과 실험에 근거하는 과학 논문이 전세계적으로 읽히는 것은 이런 이유에서일 것이다.

물론 데이터 수집, 분석 및 소통에 이르기까지 데이터 과학의 모든 프로세스에는 주관이 개입할 여지가 있다. 하지만, 적어도 결론에 이르는 과정을 투명하게 공개한다면 데이터에 기반한 결정은 객관적으로 검증할 방법이 있다. 또한, 데이터가 있다고 모든 사람을 설득할 수 있는 것은 아니다. 하지만, 데이터의 힘에 대한 믿음이 확산되면서 점점 데이터 기반의 의사결정을 따르려는 개인이나 조직은 점점 늘어나고 있다.

맺음말: 데이터가 만능의 해결책은 아니다

지금까지 데이터 기반의 문제해결의 장점을 살펴보았다. 하지만 필자는 데이터가 모든 문제를 해결할 수 있는 만능의 해결책이라고 주장하는 것은 아니다. 사실 데이터를 통한 문제해결 과정은 수집, 분석, 소통에 이르기까지 상당한 시간과 노력을 필요로 한다. 데이터를 직접 수집해야 하는 경우에는 특히 그렇다. 따라서 데이터 기반의 접근방식을 택하기 이전에, 이런 비용을 감수할 가치가 있는지 충분히 검토해야 한다.

결국 중요한 것은 비용을 정당화할 만큼의 효용을 데이터 기반의 해결책을 통해 뽑아낼 수 있느냐이다. 만약 실패했을 경우 값비싼 대가를 치루어야 하는 의사결정이나, 조직의 운명을 결정할 수 있는 목표 달성을 위해서라면 그에 합당한 투자를 해야 할 것이다. 하지만, 적당한 데이터가 존재하지도 않고, 아주 중요하지도 않은 일회성 결정이라면 굳이 데이터를 모아 분석하는 수고를 할 필요가 있을까.

다시 스포츠 데이터 분석을 사례로 생각해보자. ‘머니볼’에서는 1980년대부터 야구에 데이터 기반의 분석 방법이 널리 사용되게 된 배경을 다음과 같이 설명한다.

When Bill James published his 1977 Baseball Abstract, two changes were about to occur that would make his questions not only more answerable but also more valuable. First came radical advances in computer technology: this dramatically reduced the cost of compiling and analyzing vast amounts of baseball data. Then came the boom in baseball players’ salaries: this dramatically raised the benefits of having such knowledge. (@MBALL)

즉, 야구라는 스포츠가 시작되면서부터 데이터는 쌓여왔지만, 실제 데이터 분석이 진가를 발휘하게 된 것은 극히 최근의 일이라는 것이다. 컴퓨터 기술 발전하면서 분석의 비용은 떨어지고, 선수의 진짜 가치를 판별할 수 있는 분석력의 가치는 메이저리그 선수들의 몸값이 폭등하면서 훨씬 높아졌다는 이야기다.

이처럼 문제해결의 가치는 시대의 흐름에 따라 바뀌기도 하니, 예전에 유효했던 접근방식일지라도 꾸준히 재검토해볼 필요가 있다. 하지만 분석 기술의 발전에 따른 품질 향상과 비용의 하락은 모든 분야에 공통되는 요인이다. 따라서 필자는 데이터 기반의 접근방식이 지금보다 훨씬 널리 쓰이리라는 전망에 한표를 던지고 싶다.

p.s. 추신: 이 글은 권정민 / 김성철님의 피드백을 거쳐 작성되었습니다. 제 글의 초고는 독자그룹 여러분들께 먼저 보내드립니다.

참고자료

Lewis, Michael. 2004. Moneyball: The Art of Winning an Unfair Game. WW Norton & Company.

Originally published at www.lifidea.org on April 1, 2015.

--

--

Jin Young Kim
Korean Medium Post

Head of Data Science and Director of Naver Search US. (We’re hiring data scientists and engineers in Korea & US!) #헬로데이터과학 #데이터지능팟캐스트