데이터 시각화, 항상 좋은 건 아니다.

타자들의 기록을 바탕으로 한 시각화의 맹점 찾아보기.

안녕하세요.

참 자극적인 제목입니다. 데이터 시각화가 항상 좋은 건 아니라니, 무슨 거창한 소리인가 싶습니다. 위의 자료는 2014년 프로야구 주요 타자들의 데이터들을 담은 엑셀파일입니다. 이를 시각화해 '히트맵' 형태로 시각화 해, 아래와 같이 한 눈에 들어오도록 나타내 보았습니다.

보라색의 색이 진해질수록 수치가 높다는 뜻입니다. 하얀색에 가까워질수록 낮다는 것 의미하구요. 한 눈에 선수들의 특성을 구분하기에 참 좋습니다. 얼핏 보면 시각화의 장점을 잘 살려본 경우라고 평할 수도 있겠습니다. 그러나 야구를 '알고' 살펴보면 얘기는 조금 달라집니다.

'OPS' 수치를 예로 들어 대해 말씀 드려보겠습니다. OPS는 바로 왼쪽에 있는 출루율와 장타율 합친 것입니다. 말 그대로 1루에서 나갈 확률과 2루타 이상을 칠 확률을 더한 것이라 타자의 생산성을 단적으로 드러내주는 기록입니다. 예를 들어 김민성선수의 타율이 0.298, 김상수 선수의 0.299인 것을 보면, 고전적인 관점에선 김상수 선수가 김민성 선수보다 뛰어나다 볼 수 있습니다.

그러나 OPS를 바탕으로 한 생산적인 관점에선 0.815인 김민성 선수가 0.791인 김상수보다 효과적입니다. 타자의 생산성을 단적으로 보여주는 수치이기 때문입니다. 다시 말해, 만약 타율이 높은데 OPS가 낮은 타자면 그냥 짜잘한 안타를 치는 재주만 있지, 1루로 나가기 위한 선구안이나 2루타이상을 칠 파워는 없는 타자라고 유추를 할 수 있습니다. 즉, 타율보다 위에 있는 개념이며 타자의 생산성을 드러내는 개념이 OPS입니다.

그러나 이런 중요한 수치가 시각화를 했을 땐, 크게 구별이 되지 않습니다. 정확히 말하면 세세한 부분을 수치로 살펴보지 않으면 그 의미가 온전히 전달되지 않는다고 볼 수도 있는 것이죠. 이는 시각화의 맹점이기도 하고, 특정한 자료를 그것에 맞게 '최적화'된 시각화로 표현하지 않았을 때 나타날 수 있는 실수이기도 합니다. 우리가 시각화 할 때 항상 유의해야 할 부분이 아닌가 싶습니다.

아래의 내용은 덤으로 한 번 더 넣어봤습니다. 관심 있으신 분은 읽어보시고 가셔도 좋을 것 같습니다.

WAR은 OPS보다 더 재밌는 수치입니다. WAR이란 리그에서 선수를 기용했을 때와 평균과 대비를 해 보고, 이 선수를 기용했을 때 팀이 1년 동안 얼마나 더 많은 승수를 거둘 수 있을까라는 개념입니다. 그 예로 강정호 선수의 WAR이 8.3인 걸 살펴보겠습니다. 이 말은 리그에서 평균인 선수를 쓰는 것 보다 강정호 선수를 쓰는게 팀에게 8.3승을 더 가져다 줬다는 얘기와 같습니다. 이와 대조적으로 조동화 선수는 WAR이 -1.09인데 이 말은 평균적인 선수를 쓰는 것 보다 오히려 조동화를 쓰는게 팀에 -1.09승을 가져다 줬다는 것입니다.

이런식으로 WAR을 통해 리그에서 평균적인 선수를 기용하는 것 보다 이 선수를 기용하는 것이 팀에 얼마나 많은 승수를 가져다 줄 수 있나를 나타내 주는 지표가 WAR입니다. 요즘 야구계의 핫한 트렌드 분석 방법이죠. 물론 WAR에는 타격 뿐만 아니라 수비,주루가 다 포함되어있어서 타격만으로는 선수의 가치를 파악하기 힘들다는 단점도 있긴 합니다.

위와 같은 경우도 그러한 미묘한 차이들을 단순히 색상 차이로 표기하기엔 너무도 미세합니다. 자료를 어떻게 표현해야 적절한 시각화 표현 방식이 될 지, 많이 고민해 봐야 할 것 같습니다.

Show your support

Clapping shows how much you appreciated 정동철’s story.