데이터의 꼴 (Shape of Data)

Sidney @HEARTCOUNT
HEARTCOUNT
Published in
2 min readNov 22, 2017

데이터의 분포를 살펴보는 가장 대표적인 방법은 히스토그램과 박스플롯입니다.

Histogram은 차트를 구성하는 개별 막대의 구간(Bin Size; 너비)을 설정할 때 숫자(예, 나이)를 범주(예, 20~25세, 25~30세 등)로 전환하는 과정에서 필연적으로 정보의 추상화/손실이 발생하게 됩니다. (예, 20살이 100명, 21살~24살은 0명인 경우, 20~25 구간의 빈도는 퉁쳐서 100으로 표시됨)

Boxplot의 경우는 데이터의 중심경향(중앙값)과 퍼진 정도, 대칭성 등을 나름 간결하고 직관적으로 보여주지만 여전히 Boxplot 차트를 해석하는 법을 배워야한다는 문제가 있습니다.

좀 더 쉽게 데이터의 모양을 이해하고 비교할 수 없을까 하는 바람에서 HeartCount 서비스의 SmartPlot 메뉴에 분포를 보는 두가지 방식을 추가하였습니다.

  • (아직 이름 못 정함): 모든 고유한 변수값들의 빈도(frequency)를 길이로 표현하는 plot
  • Heatmap: 색의 농담으로 레코드의 밀도(density)가 높은 영역을 표현하는 plot

아래 동영상으로 새로운 기능을 한 번 살펴보시죠.

p.s. 참고로 항아리처럼 생긴 아이콘으로 표시된 차트는, 데이터 시각화 개발하는 프랑스 친구(Tristan)의 신념이 반영되어, 제 기획 의도와는 다른 방식으로 개발되었습니다만… 타지에서 항상 묵묵히 열일해주는 Tristan에게 고마운 마음 전합니다.

--

--