데이터의 꼴 (Shape of Data)
데이터의 분포를 살펴보는 가장 대표적인 방법은 히스토그램과 박스플롯입니다.
Histogram은 차트를 구성하는 개별 막대의 구간(Bin Size; 너비)을 설정할 때 숫자(예, 나이)를 범주(예, 20~25세, 25~30세 등)로 전환하는 과정에서 필연적으로 정보의 추상화/손실이 발생하게 됩니다. (예, 20살이 100명, 21살~24살은 0명인 경우, 20~25 구간의 빈도는 퉁쳐서 100으로 표시됨)