[서울시 먹거리 분석-10]Data에 대한 합리적 의심

미완성의 신
4 min readMay 31, 2019

--

지난 번 분석에서 2018년 Data의 월별, 구별 그래프를 보았다. 그러나 피드백의 과정에서 한 분이 데이터에 대해 의심을 해주셨었고, 막상 보니 이상하다는 생각을 하게 되었다. 이는 매우 재밌는 현상이고, 실제로 실무에서는 이런일이 비일비재 하다. 현재 데이터 분석을 공부를 하고 있으나 실무 경험이 없는 분들에게 초점을 맞추어 이와 같은 경험을 주고자 하는 것이 이번 블로그의 목표이다.

그래서 2017년, 2016년 데이터도 이렇게 되는 것인지 확인을 해볼 필요가 있었다. 먼저 2018,2017, 2016년 동작구, 관악구의 월별 구 별 그래프와 Data를 확인해보자.

유독 2018년만 3~9월의 동작구 관악구 데이터가 이상해 보인다. 이쯤에서 우리는 이제 합리적 의심을 해볼 수가 있다.

혹시… Data가 잘못 된거 아닐까?

혹시… 3~9월 동작구와 관악구 Data가 바뀐게 아닐까?

궁금점을 해결 해보기 위해 직접 SK Data Hub 데이터 문의 사항에 Email을 보내 보았다. SK Data Hub 사이트의 우측 상단에 ‘데이터 문의’ 버튼을 클릭하면 이와 같이 Email 과 고객센터가 나온다. 다음은 Email 내용이다. 지금까지 이 과정에 대해 설명을 했는데, 이 과정은 데이터 분석에 있어서 매우 중요한 부분이다.

주어진 Data가 확실한가?

매우 중요하다. Data가 정확도가 떨어지면 애초에 분석이 불가능하다. 그러나 우리는 데이터 분석을 공부 할때에는 교과서적인 Data만 가지고 하기에 항상 올바른 Data만 다루면서 공부를 한다. 실무에서는 전혀 그럴수가 없고 과거에 데이터 분석 실무에서 있을 법한 일에 대해 적어 봤는데 이와 비슷한 현상이라고 보면 될것 같다. 데이터 분석 실무에서 있을 법한일-1 (예시)
주어진 Data가 무조건 맞다는 틀을 먼저 깨야 한다. 사실 이런 경험을 몇번 해봐야 의심을 한번 두번 하게 되는데, 나 역시 이를 먼저 파악 못했고 피드백을 받는 과정에서 알게 되었다.

그럼 이 2018년 Data는 어떻게 생각 해야 하는가?

정말로. 아주 정말로. 아주 아주 정말로.아주 아주 아주정말로. Data가 이상이 없을수 있다. 2018년에 무슨일이 생겨서 3~9월 동작구, 관악구 Data가 정말 저렇게 쌓였을 수도 있다. 그렇기에 당장 이 데이터가 문제가 있다라고 판단하는건 이르고, 당장은 합리적인 의심을 해야 한다. 그리고 이 합리적 의심에 대한 근거를 Data 담당자에게 잘 정리해서 전달 해주면 된다. 풀스택 데이터 분석가라면 해당되지 않을 수 있지만, 실무에서는 보통 DB 개발자 <-> 데이터 분석가 의 원활한 교류가 이뤄져야 하기 때문이다.

마무리

지난번 블로그에서의 피드백으로 새로운 이슈가 생겼다. 2018년 데이터에 대한 의심이 생겼고, 이에 대해 잘 정리 해서 문의를 했다. 일단은 2018년이 아니라 2017년 데이터로 준비를 해보자.

--

--

미완성의 신

우리 인간은 미완성의 신들이다. 뛰어난 데이터 과학자를 꿈꾸는. 책을 좋아하는. 그런 사람입니다.