Smart Ranking: 범주에 대해 이야기할 때 먼저 이야기해야 하는 것

Sidney @HEARTCOUNT
HEARTCOUNT
Published in
4 min readFeb 14, 2018

범주형 변수(성별, 사업부, 직급, 채용경로, 고객군, 판매채널 등)는 우리가 대상을 바라보는 익숙한 관점의 또 다른 이름이다. 하나의 범주를 구성하는 개별 범주값(집단)들 간의 상대적 차이를 한 눈에 비교하기 위하여 HeartCount에 Smart Ranking 기능을 새로 추가하였다.

평균(Average)의 탄생: 본질의 추구; 이상적인 평균

결정론적 세계관(Determinism)은 기본적으로 세상에 질서와 완벽함(or 이상적인 존재)이 존재한다는 믿음에 그 기반을 두고 있다. 플라톤이 동굴의 비유(cave allegory)에서 이야기한 것처럼 이데아(완벽한 존재)가 존재하고 우리가 현상계에서 관찰하는 것은 이상적인 존재의 그림자에 불과하다.

통계학의 역사에서 평균의 개념은 이런 이상적인 존재를 이해하고 설명하기 위해 탄생했다. 가장 이상적인 물방개의 무게와 크기를 설명하기 평균의 개념이 필요했고 평균에서 크게 벗어나면 새로운 종(Species)으로 분류하였다.

[Species(종; 種): An Ideal Type -> Idealized Mean]

분산(Variation)의 탄생: 다윈의 진화론

그러다, 다윈의 진화론을 통해 개별 종 내에서의 차이(Variation)가 바람직하지 못한 무시할 현상이 아니라 그 차이를 통해 의미있는 변화(진화)가 발생하게 된다는 생각이 싹트게 되었다. 동일한 집단 내에서의 차이가 관찰하고 더 깊이 이해해야할 현상으로 주목받기 시작한 것이다.

[진화론: 평균에서 분산으로]

범주 간 차이 vs 범주 내 차이

범주는 우리가 세상이나 대상을 바라보는 익숙하고 효율적인 관점이다. 학력(학사 or 석사)을 파악하고, 고향(대전 or 부산)과 사는 동네(강북 or 강남)를 알아내면서 확인한 개별 범주값에 따라오는 평균적인 모습(이데아)들의 조합을 통해 대상을 Profiling한다.

개별 범주(집단) 내에서의 차이(Variation)를 이해하는 것(같은 대전 사람이라고 모두 말을 느리게 하는 건 아니다)의 중요성이 강조되는 것은 다윈의 덕이겠다. 하지만, 범주(집단) 간 차이를 제대로 이해하는 일은 범주 내 차이를 이해하는 일만큼 중요한 일이다.

특정 집단에 대해 형성된 우리 관념 속의 이데아를 데이터가 보여주는 모습과 비교하여 새로운 영감(Inspiration)을 얻을 수도 있겠다.

Smart Ranking: 개별 범주(집단) 간 차이를 한 눈에 비교

HeartCount의 새로운 기능인 Smart Raking을 통해 서로다른 범주들 간의 차이를 한 눈에 확인해보자.

엑셀에 담긴 모든 관측값(숫자형 변수)들을 한 눈에 보여주고 상대적 차이에 집중할 수 있도록 개별 차트에 담긴 정보량을 최소화하였다.

아래는 매출 데이터인데 [Paper] 제품이 다른 제품과 비교해서 어떻게 다른지 한 눈에 확인할 수 있다. (바의 크기는 절대값의 반영이 아니라 상대적 차이를 나타내도록 하였다.)

  • 종이류가 판매 건수는 제일 높고, 할인률은 상대적으로 낮은 편이고
  • 주문 수량은 거의 꼴지이고, 이익도 하위권 고만고만한 애들하고 섞여 있음 등등
[Smart Ranking: 제품 카테고리별로 어떤 차이가 있는지 한 눈에 보기]

마찬가지로, 아래는 서베이 데이터인데 음주 습관[Alchohol]에 따른 다른 측정값(서베이 문항에 대한 답변)들이 어떻게 다른지 한 눈에 비교할 수 있다.

개별 범주값들의 숫자가 많은 경우(사업부가 80개 정도 되는 경우) 우측 상단에 검색기능을 이용하면 된다. 또한, 개별 창 선택시 우측 상단에 나타나는 Smart Link를 클릭하여 개별 창에 담긴 요약 내용을 개별 레코드 수준에서 자세히 볼 수도 있다.

--

--