[서울시 먹거리 분석-13]SK Data Hub데이터 요청 결과

미완성의 신
3 min readJul 2, 2019

--

SK Data Hub에서 최종적으로 수정을 해주어서 이메일을 보내주었다. 데이터 양이 많은지 최종적으로 약 한달이 결렸고, 이번에는 마무리를 하려고 한다. 이러한 데이터 요청에 관한 이야기는 아래와 같다.

  1. [서울시 먹거리 분석-10]Data에 대한 합리적 의심
  2. [서울시 먹거리 분석-11]Data 요청사항 Review

결과적으로 SK Data Hub는 최선을 다해 주었고, 이에 대한 내용과 실무에서도 가끔(?) 있을 수 있는 특이사항을 적어보려 한다. 아래 그림을 보도록 하자.

관악구는 약 28000건, 동작구는 약 6000건이 맞아 보인다. 새로 처리 해준 데이터는 2018년의 1,2월은 처리 되지 않아서 다시 요청을 했다. 그러나 답변으로는 “개인정보보호방침에 따라 최근 1년 이내 자료” 만 보관 하고 있어서 재처리가 불가능 하다고 한다.

결국

이제는 우리가 스스로 2018년 1,2월의 관악구와 , 동작구를 바꿔주도록 하자. 어느 정도는 있을 수 있는 일이다.

이는 데이터가 갖고 있는 중요도에 따라 조금 나뉠 수가 있다.

그러나.. 실제 돈이 오가는 상황에서의 Data라면.. 절대로 있어서는 안되며 설마 있더라도 더 치밀하게 체크 해야 하고, 어떻게든 복구를 해야한다.

Data 수집에 대해 공감을 해주신 분

지난 한달 동안 실제 분석 하면서 있을 법한 데이터 오류에 대해서 겪었고 이에 대해 이야기를 적어 보았다. 데이터는 곧이 곧대로 믿으면 안되며, 분석가는 스스로 의심할 준비가 되어야 한다고 생각한다. 지난 한달 사이에 이에 대해 같이 공감주었던 분이 있다. 다음은 같이 이야기를 나눴던 카톡 내용이다. 내용중 과거의 블로그 그림이 잘못 되어 피드백도 받았다.

카톡내용

그리고 실제 이 이야기를 사용한 PPT 이다.

PPT 내용

결론

결과적으로 데이터는 잘 처리 되었고, 이 데이터 수집에 대해서 나와 비슷한 생각을 하고 있는 분을 만나게 되었다.

이번 기회에 분석의 과정에서, 그리고 사람과의 관계에서 좋은, 값진 경험을 얻었다.

--

--

미완성의 신

우리 인간은 미완성의 신들이다. 뛰어난 데이터 과학자를 꿈꾸는. 책을 좋아하는. 그런 사람입니다.