데이터 분석가가 되려는 사람들에 초점을 맞춘 이야기를 해보려 한다. 이 이야기는 1, 2편으로 나뉘어져 있으며 2편의 링크는 다음과 같다.
지금 하는 이야기는 데이터 분석의 실무에서 있을 법한 내용을 담고 있다.
교과서에서나 나올법한 Data로 공부를 했고, 실무에서 데이터 분석의 Business가 어떻게 돌아가는지 모르는 분들께는 꽤 도움이 되었으면 한다. 이로인해 처음으로 실무에 접했을 때 생길수 있는 당황함을 현명하게 대처하여 나갈 수 있으면 한다.
따라서,
- “공부와 실무는 달라, 현실은 예측 불가야” 따위의 이야기가 아니며,
- “아~ 이런일이 있을 수 있다. 저런 일이 있을 수 있다” 정도에 초점을 두고 있으며,
이에 대한 해결방안은 어디에도 존재 하지 않다. 다만, 이 이야기들을 미리 알고 있기에 조금 덜 당황하고 쉽게 상황을 파악하기 용이하게 하는것이 목적이다.
데이터 분석가가 실무에서 경험 할 법한 일들
1. 어디서 분석을 할까?
보통은 데이터 분석 회사에서 영업을 통해 분석을 하려는 회사를 찾는다. 즉, A라는 데이터 분석 회사는 B라는 회사의 데이터를 분석 하여 인사이트를 도출 하고 돈을 받는 구조 이다. B라는 회사에서는 사내에서 데이터 분석을 하려고 해도 이를 위한 인력이 없기 때문에 A 회사에게 분석을 의뢰한다. 분석의 시작은 이러하다.
2. 지금도 충분히 잘하고 있는데 왜 굳이 돈을 들여서….
데이터 분석은 어디까지나 보이지 않느곳에 투자를 하는 것이다. 그러나 B 회사에서 분석을 하려고 할경우, 다음과 같은 우려의 목소리가 나올 수 있다.
“지금도 충분히 잘하고 있는데 왜 굳이 돈을 들여서 …”
이에 대한 개인 적인 생각: 이는 굉장히 위험한 말일 수 있다. 물론 회사 사정에 따라 현재에는 당장 필요치 않다고 결론을 지을 수 있겠다. 그러나, 저 발언이 계속 지지 된다면 기존 이어폰으로도 잘 사용하고 있으니 무선이어폰의 개발을 멈추게 되어 무선 이어폰이 나오지 못하는 상황을 만들 수도 있게 된다.
3. 그 뭐야… 머신러닝, 딥러닝으로 하는거에요?, 선형회귀로 할꺼에요? 군집분석이에요? 지금 하는 모델링이 뭐지요?
인터넷에 ‘데이터 분석’ 이라고 치면 나올 법한 내용들에 대해서 질문을 받는 경우가 있을 수 있다. 분석가야 저 내용의 전반적인 내용을 다 알고 있겠다만, B회사는 인터넷에서 본 한두줄 정도의 정의로 이야기 하는 경우가 있다. 이에 대해 잘 설명을 해주고 대처해야 할 필요가 있어 보인다.
4. 그 Data는 왜 안써요? 이 데이터 저 데이터 모두 사용해야 모델이 모든 상황에 대처 하지 않아요?
전처리 과정중 이상치의 경우에 이런 질문을 많이 한다. 이상값이 있으면 제거 해야 하는게 보통 맞긴 하다만 이는 정답이 아닌 경우도 여럿 있다. Data 상에서 이상치로 판명 될수 있다만 도메인 전문가인 B회사의 이야기를 들어보면 매우 중요한 Data로 꼭 참고 해야 하는 겨우가 있다.
5. 그 Data요? 없어요? 잠깐만요.
Data가 제대로 축척되지 않은 경우다. 데이터 분석기법의 속도에 비해 각 현업에서는 Data가 정확하게 축적되지 않은 경우가 종종(생각보다 더 많이) 있다. 언론에서 데이터 분석 기법의 성과에만 초점을 맞추게 되니 Data 축적의 중요성이 떨어져서 생기는 경우이다. 이는 매우 발빠르게 확인 해서 B회사와 계속해서 조율을 해주어야 한다.
조금더 써야 할 내용이 있기에 내용을 단계로 나누어 다음 블로그에 적어보도록 하겠다.