데이터 분석에 있어서 도메인 지식에 관하여

미완성의 신
4 min readMar 24, 2019

--

데이터 분석에 있어서 도메인 지식에 대해 써보고자 한다.

왜 이런 글을 쓸까?

데이터 분석에 대해서 사람들은 어떤걸 생각할까?
대부분 인터넷에 온갖 광고에서는 R과 Python 둘중 어떤걸 써야 할지 나오고, 이에 대한 기술적인 장단점에 대해 소개를 한다.
인터넷에 노출 되는 광고에서는 R과 Python 에 대한 컴퓨터 학원이 많이 소개 되어 있다.
또 데이터 분석 하면서 빅데이터 빅데이터 빅데이터 빅데이터 … 이렇게 자주 듣다 보니 프로그래밍 쪽으로 이야기는 쏠리게 된다.

이제 막 데이터 분석을 해보려는 사람은 데이터 분석에 대해서, 그리고 R 언어 Python에 대해서 단순한 프로그래밍이라고 생각하기 쉽지 않을까? 물론 프로그래밍적 지식이 많은 부분을 차지 하지만…
– 열심히 배운 R, Python가지고 데이터를 받으면 어떻게 해야 하는지 모르는 분들을 위해,
– 통계도 알고 있으니 무작정 한번 해볼까 하는 분들을 위해,

조심스럽게 한번 써보려 합.니.다.

데이터 분석의 목적이 무엇일까?

Data를 통해 Insight를 찾아내고 이를 통해 이익을 추구 하는것.

이라고 생.각.한.다.

도메인 지식이 없는 Data는 단순한 숫자, 문자의 집합체뿐

  • 이 단순한 숫자, 문자들을 가지고 방향을 어떻게, 해석은 어떻게 할까?
  • 이 데이터중 어쩐 인자를 사용하고, 어떤 인자를 사용하지 말아야 할까?
  • 그냥 무턱대고 다 돌리나? 컴퓨터가 알아서 해주겠지?

다음 잘못된 데이터 분석의 예시를 보자.

  1. 메이저 리그 타자들을 분석 해보니 나이가 많은 타자의 성적이 다른 타자들보다 좋았다.
    – “아~ 타자의 경우에는 나이가 들어도 실력이 감소하는 것이 아니라 오히려 실력이 성장하는구나”
  2. 게임 홍보를 했는데 이전보다 접속자 수가 늘었다.
    – “아~ 역시 홍보를 해야 접속자 수도 느는거구나”

이는 매우 잘못된 해석으로 좀더 파헤쳐서 알아보면 다음과 같다.

  1. 당시 메이저 리그에서 나이가 많은 타자들은 실력이 상승한게 아니라 나이가 많을 즈음에도 너무너무너무너무너무 잘해서 재계약을 한것 뿐이다. 나이가 듬에 따라 실력이 퇴화 한 선수들은 진작에 메이저리그에서 은퇴를 했다.
  2. 이 홍보를 언제 했을까? 여름방학, 겨울방학 즈음부터 시작을 했었다. 방학 시즌에는 접속자 수가 증가 하는게 당연한것인데, 이에 대한 데이터를 받지 않은 상태에서는 이를 알 수 없다.

1, 2번 모두 잘못된 데이터 일까? 데이터는 전혀 잘못 되지 않았다. 다만, 이 데이터를 취합 하는 과정 중에서 도메인 지식이 전혀 사용되지 않았고 단순히 데이터로써 모든것을 해결 하려고 한 결과이다.

질문?

백종원과 요식업 데이터 분석가 1000명이 서로 이야기를 나눈다고 생각을 해보자. 한쪽은 데이터는 전혀 모르지만 지난 몇년의 시간동안 충분한 도메인 지식과 경험, 지혜를 충분히 갖추었다. 다른 한쪽은 요식업계의 충분한 데이터를 중심으로 여러가지 Insight를 찾아내고 있다.
이렇게 이야기를 나눈다면 어느쪽의 이야기가 거의 맞을까?
당연히 백종원이다.

그렇다면 이 문제는 어떻게 해결해야 할까?

  • 분석을 하고자 하는 분야의 정보를 최대한 공부 해놓아야 한다. 책을 통해, 구글링을 통해, 지인을 통해서라도 어떻게든 공부를 해야 한다. 그러나, 이는 매우 한계가 있어서 추가의 해결방이라면,
  • 데이터 분석가와, 도메인 전문가와 끊임없는 소통이 이루어져야 한다. 이 데이터의 홍수 시대에 대부분의 사람들이 착각 하는것은 “아무것도 모르지만 컴퓨터가 알아서 해주겠지” 라는 전지적 AI를 기대한다. 그 유명하신 알파고 알파고 알파고 알파고 알파고님의 덕분에 이렇게 빅데이터, 딥러닝 등등의 찬양이 이루어져 도메인 전문가 또한 착각을 하게 만들고 있다. 현 시점(2019년 3월 12일)에 여전히 그렇게 생각하는 사람들이 많으며 앞으로 데이터 분석을 하고 하는 사람들은 이를 인지 하고 끊임 없이 도메인 전문가와 소통을 하는 것이 옳다고 생각한다.

--

--

미완성의 신

우리 인간은 미완성의 신들이다. 뛰어난 데이터 과학자를 꿈꾸는. 책을 좋아하는. 그런 사람입니다.