정보 시각화가 필요한 이유

Yea-Seul Kim
now-this-sigak
Published in
7 min readApr 19, 2019

포브스지에 따르면 하루에 250경 바이트의 데이터가 인터넷, 소셜 미디어, 스마트폰, 각종 서버 등을 통해서 하루에 생산되고 있다고 합니다 [1]. 이 수치는 우리가 이 글을 읽는 이 순간에도 점점 증가하고 있으며, 앞으로도 가파르게 증가할 것으로 예상됩니다. 구글의 수석 경제학자 Hal Varian에 따르면, 데이터를 이해, 가공하여 가치를 찾아내고 시각화하는 일은 점점 중요해질 것이라고 했는데요, 그렇다면 가용한 데이터가 천문학적으로 늘어나는 추세와 정보 시각화는 어떤 관련이 있을까요?

이 예시를 본다면 데이터를 소비하고 의미를 추출하는 데 있어서 시각화의 필요성을 좀 더 직관 적으로 이해할 수 있습니다.

위의 테이블들은 네 개의 다른 데이터셋을 나타내고 있습니다. 각 데이터셋의 특성을 알아보실 수 있으신가요? 제가 처음 이 데이터들을 접했을 때에, “x4의 경우 8을 많이 가지고 있다.” 정도 이외에는 잘 모르겠다고 생각했었습니다. 이럴 때엔 보통 평균이나 분산 등을 살펴보는 게 일반적일 것입니다. 계산을 해보면 놀랍게도, 이 데이터셋은 모두 같은 평균, 분산, 상관계수를 가지고 있습니다. 회귀 곡선 도 같아요!

x의 평균 : 9
x의 분산 : 11
y의 평균 : 7.5
y의 분산 : 4.125
x, y 상관계수 (correlation coefficient) : 0.816
회귀 곡선 (linear regression line) : y = 3 + 0.5x

그렇다면 우리가 이 데이터들로부터 내릴 수 있는 상관관계에 대한 결론은 모두 동일할까요?

Graphs in Statistical Analysis. F. J. Anscombe, 1973

다음은 각각의 데이터셋을 시각화하여, x/y좌표에 나타낸 것입니다. 데이터에 대한 구체적인 생각을 시작하기도 전에, 우리의 눈은 각각의 데이터들이 상당히 다른 추세를 나타내고 있다는 것을 알아챌 수 있습니다. 좌측 상단에 있는 그래프는 셋은, x1이 증가하면서 y1이 증가하는 상관 관례를 나타내고 있고, 우측 상단의 그래프는, 직선보다는 포물선이 이 데이터셋을 묘사하는데 더 적절할지 모른다는 힌트를 줍니다. 하단의 두 그래프는, 아웃라이어에 대한 정보를 제공하고 있습니다. Francis Anscombe이라는 통계학자가 1973년에 만든 이 데이터 셋들은, 우리가 데이터로부터 가치 있는 정보를 추출하고자 할 때에 시각화의 중요성을 강조하고 있습니다. 숫자로 추론할 때에는 보이지 않던 패턴들이 시각화를 통해 명확해지고 각종 이상점을 확인할 수 있게 도와주기도 합니다.

그래프의 패턴을 쉽게 알아볼 수 있게 해주는 역할 외에도, 시각화는 데이터를 분석함에 있어서 여러 가지의 역할을 하고 있습니다. 시각화는 데이터 관련 질문에 답을 제공하거나 어떤 질문을 던져야 할지 발견하게 해주는 역할을 하기도 하며, 이 과정을 통하여 의가 결정에 도움을 주기도 합니다. 이번 포스팅에서는 다음 세 가지의 역할을 중심으로 시각화가 가진 가치에 대해서 이야기해보고자 합니다.

  1. 머릿속 연산을 대신해주는 연산 대리자
  2. 패턴을 찾게 도와주는 패턴 분석 조수
  3. 데이터에 대한 생각을 전달해 주는 메신저

머릿속 연산을 대신해주는 “연산 대리자”

숫자의 형식을 띄고 있는 데이터나 이 데이터를 이용하는 연산들은 사람이 인지할 수 있는 수준 이상으로 복잡한 경우가 많습니다. 만약 우리가 51 x 39라는 곱셈을 해야 한다고 생각해 보세요. 당장 볼펜과 종이를 찾게 되지 않나요? 머릿속으로 해야 할 생각들을 종이에 써놓고 나면, 모든 정보를 다 머릿속에 담고 있어도 되지 않으므로 한결 연산이 쉬워지게 됩니다. 방대한 데이터를 인터렉티브 한 툴을 통하여 시각화를 한다고 상상해 보세요. 데이터들을 원하는 속성을 중심으로 정렬하여 나타낸다던가, 원하는 데이터만 선별하여 따로 패턴을 나타내 본다던가 하는 기능이 우리가 해야 할 연산을 대신해 줄 수 있습니다. 시각화로 인해 연산에 대한 부담이 적어진 사람은 더 고차원적인 일에 주의를 더 기울일 수 있게 되겠지요.

패턴을 찾게 도와주는 “패턴분석 조수”

시각화는 데이터를 공간적인 정보로 바꾸어 우리의 시각 시스템이 정보를 쉽게 추출할 수 있게 도와줍니다. 그리하여 데이터 분석가들은 추출된 시각 정보를 통해 여러 패턴을 찾을 수 있고, 나아가 주어진 질문에 대답할 수 있게 됩니다.

(좌) 테이블 형태의 데이터 (우) 시각화 된 데이터

위의 이미지는 각 동물 별 평균적인 몸무게와 뇌의 질량에 관한 데이터를 (좌) 시각화 (우) 한 것입니다. 우리는 시각화를 통해서 몸무게와 뇌의 질량의 트렌드를 알 수도 있고, 다른 동물들보다 유난히 뇌가 작거나(=브라키오사우루스, Brachiosaurus) 큰 동물(=현인류, Modern man)들에 대해서도 알 수 있습니다. 숫자 형태로 존재하고 있을 때에는 알 수 없던 패턴들이 시각화를 통해 나타나게 되는 것입니다.

콜레라 발병 지도, John Snow, 1854

위의 그림은 John Snow라는 의사가 콜레라의 원인을 밝히기 위해 콜레라로 사망한 사람들을 나타낸 지도입니다. 1854년 콜레라가 영국의 작은 도시를 덮치면서 많은 사람들이 사망에 이르게 되었는데요, 그때까지만 해도 공기 중에 어떤 오염물질이 콜레라를 일으킨다고 생각했고, 여러 조치들을 취했으나 콜레라의 기세는 줄어들지 않았습니다. John Snow는 식수에 그 원인이 있다고 가설을 세우게 되었고, 여러 가지 실험을 하던 중에 이 지도 제작하게 되었고, 의미 있는 패턴을 발견하게 됩니다. 이 지도는 Broad Street을 중심으로 많은 사람들이 사망했다는 것을 나타내고 있는데요, John Snow는 이 시각화를 바탕으로 그 도로의 우물을 폐쇄할 것을 건의하였습니다. 이미 그 시점에 콜레라의 기세가 꺾이고 있던 터라 식수 오염이 콜레라를 일으킨다는 것을 완벽하게 증명할 수는 없었지만, 이 지도를 포함한 많은 정황 증거들에 의해서 그 가설은 힘을 얻게 됩니다. 또 다른 증거가 있었는데요, 그 시대의 수도승들을 은 물 대신 맥주를 마셨고, 수도승들 중 그 누구도 콜레라에 감염되지 않았었다고 합니다. 콜레라가 식수 오염에서 기인한다는 것을 뒷받침해주는 또 다른 증거가 되겠지요.

데이터에 대한 생각을 전달해 주는 “메신저”

시각화는 우리가 데이터에서 얻은 아이디어를 다른 사람과 나눌 수 있는 좋은 도구입니다. 실제로 많은 뉴스 미디어에서 시각화 없이 데이터를 이야기하는 경우를 찾아보기 힘든 이유도 그 때문일 것입니다.

What’s Really Warming the World? Bloomberg, 2015–06–24

블룸버그의 한 저널리스트가 인터렉티브 한 시각화를 통해서 기후변화는 실제로 일어나고 있는 현상이며, 많은 부분이 사람들에 의해서 초래되고 있다는 이야기를 전달하기 위하여 위의 시각화를 사용하였습니다. 이 시각화는 어떤 요인이 기후 변화에 얼마큼 기여하고 있는지를 인터렉티브 한 기능을 통하여 나타내고자 하였습니다. 그저 말이나 글로, “연평균 기온이 몇 도씩 오르고 있는 추세입니다.”라고 하는 것보다 더 와 닿지 않나요?

다음 주에는, 데이터를 시각화하기 위해 필요한 데이터와 이미지에 대한 모델에 대해 알아보겠습니다.

[1] https://www.forbes.com/sites/bernardmarr/2018/05/21/how-much-data-do-we-create-every-day-the-mind-blowing-stats-everyone-should-read/#5560195360ba

*컨텐츠의 일부는 Jeffery Heer 교수님의 시각화 수업 자료에서 참고하였습니다.

--

--