Data Visualization: Que tipo de gráfico devo escolher para apresentar meus dados?

Guilherme Agostinho
dataframe
Published in
9 min readSep 15, 2021

Sempre me disseram que a melhor forma de se aprender algo é explicando para outra pessoa. Pensando nisso, eu resolvi abrir esse espaço, que chamei de dataframe, para compartilhar e, de certa forma, fixar tudo que tenho aprendido nesses últimos meses sobre ciência de dados.

Nesse primeiro post, pretendo fazer um resumo sobre o conteúdo do capítulo 2 do livro “Storytelling com Dados”, onde Cole Nussbaumer Knaflic explica como escolher uma representação visual adequada que resuma de forma clara e objetiva as informações que devem ser repassadas a um público. Claro que devemos ter em mente que essas indicações são apenas uma direção com base na experiência da autora. Antes de colocar em prática as dicas, ela recomenda pensar se elas realmente fazem sentido considerando os objetivos e o público da apresentação. Por exemplo, se o público é acadêmico, detalhes podem ser importantes. Por outro lado, se o público é leigo, uma apresentação com as principais informações é mais eficaz.

1. Texto Simples:

No caso em que há apenas um ou dois números para se destacar, um texto simples colocando os valores em evidência pode ser a melhor alternativa. Isso porque gráficos com título, subtítulo e legenda podem tirar o foco do que é mais importante. A vantagem do uso de uma frase com destaque é que a informação é apresentada de forma mais clara para o público-alvo. Informações extras podem ser disponibilizadas em um material anexo.

2. Tabelas:

O uso de tabelas é indicado quando o público-alvo é misto e quando existem várias informações específicas para serem repassadas. Nesse caso, cada grupo vai procurar a linha e coluna da tabela para extrair o dado de interesse.

Não é recomendado usar tabelas em apresentações ao vivo porque provavelmente os expectadores vão parar de prestar a atenção no que é falado enquanto tentam buscar os dados. Logo, a aplicação desse recurso é mais eficaz em relatórios, visto que, o leitor tem liberdade para parar de ler o texto e vasculhar as informações na tabela.

Aqui vai uma dica quanto ao design: tabelas com bordas grossas e células sombreadas não são interessantes. Elas tiram o foco dos dados. Tabelas com bordas mínimas (aquelas que separam o cabeçalho do conteúdo) são recomendadas porque destacam o que é importante: as informações.

Um recurso utilizado para direcionar o leitor a encontrar os dados mais rápido em uma tabela é o mapa de calor que compara a magnitude dos valores através de células coloridas.

Observe o exemplo abaixo. É difícil encontrar os maiores valores na tabela tradicional. No mapa de calor, valores menores tem cores mais fracas e os maiores tem cores mais fortes. Dessa forma, é possível verificar de forma mais rápida que os maiores valores se encontram na categoria 5.

3. Gráficos:

Os 4 tipos de gráficos mais usados são os de pontos, linhas, barras e área. Existem outros tipos, mas nosso foco vai estar nesses 4, seus subtipos e características.

A. Dispersão:

Gráficos de dispersão são usados principalmente por acadêmicos para verificar de forma preliminar a existência e o tipo de relação entre algumas variáveis. Um pesquisador pode usar a análise visual combinada a testes estatísticos para justificar o tipo de modelagem feita com os dados (linear, não-linear, etc).

Conforme Cole, apesar de raro, o mundo dos negócios também pode aplicar esse tipo de gráfico. Ao lado, um exemplo: a relação entre milhas dirigidas e o custo por milha enfrentado por uma empresa de ônibus. É possível notar que a relação entre as variáveis é não-linear: inicialmente, poucas milhas rodadas geram um custo alto que se reduz a medida que o número de milhas dirigidas aumenta. A partir de certo ponto, conforme a rodagem aumenta, o custo também aumenta.

Uma aplicação simples desse gráfico para o mundo dos negócios poderia ser determinar uma “faixa ótima” de milhas dirigidas pelos motoristas. Vamos focar na segunda versão do gráfico em que plotamos uma linha com o custo médio por milha ($1,53). Valores de milhas dirigidas abaixo dessa linha são benéficas para a empresa. Nesse caso, os motoristas devem dirigir mensalmente entre 1700 e 3450 milhas. Se a empresa quiser diminuir ainda mais o custo pode restringir essa faixa para 2000 até 3000 milhas rodadas por mês.

B. Gráfico de Linhas:

Gráficos de linhas são usados para registrar variáveis em unidades de tempo (dias, meses, trimestres ou anos). Vale ressaltar que um gráfico desse tipo deve ter apenas um tipo de periodicidade: se o gráfico começa com dados mensais não pode terminar com dados diários.

Abaixo, vemos o tempo de espera médio em minutos no controle de passaportes ao longo dos meses de 2014 e 2015. Nesse exemplo, trazemos uma sugestão que pode ser utilizada na construção desse tipo de gráfico. O sombreamento demonstra o intervalo entre os valores máximos e mínimos do tempo de espera mensal.

C. Gráfico de Inclinação:

O gráfico de inclinação é uma espécie de gráfico de linhas com foco na comparação de valores de uma variável em dois períodos no tempo. Através dele é possível avaliar os aumentos e diminuições relativas (inclinação da reta) e as diferenças entre as categorias entre dois pontos.

Uma sugestão dada por Cole quando existem muitas linhas se sobrepondo é fazer o destaque de categorias importantes com outra cor ou usando negrito. Abaixo, apresento um exemplo:

D. Gráfico de Barras

Fonte: Reprodução Fox News

Esse é o tipo mais comum e por essa razão muitos evitam seu uso. No entanto, ele é um dos mais eficazes para repassar uma informação já que nossos olhos leem de forma rápida qual das barras de um gráfico é maior, menor e a diferença entre elas.

Posteriormente, vou escrever um texto falando sobre o que não deve ser feito ao plotar um gráfico, mas trouxe um dos exemplos do próximo post para explicar algumas das características importantes em um gráfico de barras. Ao lado, você vê um gráfico feito pela Fox News em 2012 para demonstrar a elevação dos impostos nos EUA caso o corte implementado por George W. Bush em 2001 expirasse.

Na verdade, esse gráfico tem alguns atributos modificados para passar uma ~mensagem~. O primeiro é a linha de base da barra. Teoricamente, a base deveria estar em 0% e não em 34%. O segundo é a legenda do eixo y. Quando estamos lendo algo, sempre fazemos da esquerda para direita. No momento em que a emissora colocou a legenda na direita fez com que o primeiro olhar fosse para a “grande” diferença e tirou a possibilidade do expectador interpretar os limites do eixo y antes da visualização das barras.

Ao lado, um exemplo de como deveria ser o gráfico: linha de base da barra em 0 e legenda do eixo y à esquerda (manter a legenda é opcional quando o valor está no rótulo das barras).

Outro aspecto importante a ser observado é a largura das barras. Quanto a essa característica não existe uma regra definida, no entanto, recomenda-se que as barras sejam maiores que o espaço em branco que existe entre elas, mas não tão largas a ponto de tirar o foco de seu tamanho. Abaixo, apresento gráficos que plotei com larguras de barras diferentes. O terceiro é o mais adequado.

Para comparar subcategorias dentro de categorias, recomenda-se o uso do gráfico de barras horizontais porque, além de mostrar de forma clara as diferenças entre grupos, coloca o nome de cada um deles escrito da esquerda para direita. Como já disse acima, isso facilita a compreensão do gráfico porque primeiro batemos o olho no nome da categoria e depois enxergamos o valor correspondente.

O gráfico de barras horizontais empilhadas é indicado para comparar os valores absolutos ou a proporção de uma subcategoria entre as categorias. Quando estamos tratando de valores absolutos conseguimos comparar de forma fácil apenas a subcategoria à esquerda. No caso das proporções, conseguimos fazer a comparação da primeira e última subcategoria do gráfico (aquela que está mais a esquerda e outra que está mais a direita).

Ao lado, um exemplo. É possível verificar que a proporção de pessoas que discordam totalmente do item A da pesquisa é menor do que as pessoas que discordam totalmente do item E. Por outro lado, mais pessoas concordam totalmente com o item A em comparação com o item E.

E. Gráfico de Cascata

O gráfico de cascata é um tipo de gráfico de barras que deve ser usado quando se quer focalizar informações que poderiam estar empilhadas ou mostrar um ponto de partida, aumentos, reduções e um ponto final.

Vamos ao exemplo ao lado: no início de 2014, o número de funcionários de uma empresa era igual a 100. Durante o ano houveram 30 contratações e 8 entradas, mas também 12 saídas e 10 demissões. Com as adições e reduções, o número de funcionários da empresa no final de 2014 foi de 116 pessoas.

F. Área

Os gráficos de área devem ser evitados na maioria dos casos porque nossos olhos são incapazes de entender os valores quantitativos no espaço bidimensional. No entanto, Cole aponta uma exceção: seu uso faz sentido quando os números que se quer mostrar são de magnitudes diferentes.

Ao lado temos um gráfico que mostra a decomposição de um processo seletivo. De 100 ligações realizadas no início do processo, 25 foram para entrevista e 9 propostas oferecidas. Apesar dos últimos números estarem mais próximos com relação ao primeiro, entre eles existe uma diferença perceptível aos olhos.

Too long… didn’t read!

Texto simples deve ser usado quando há apenas um ou dois números para se destacar.

Uso de tabelas é indicado quando o público-alvo é misto e quando existem várias informações específicas para serem repassadas. Mapa de calor é um recurso que ajuda a encontrar os dados na tabela mais facilmente.

Gráficos de dispersão são usados para verificar a existência e o tipo de relação entre algumas variáveis.

Gráficos de linhas são usados para avaliar a evolução de variáveis ao longo do tempo.

Gráfico de inclinação é um tipo de gráfico de linhas que compara uma variável em dois momentos no tempo.

Gráfico de barras é usado para comparações entre categorias e deve ter base da barra no valor 0 e legenda do eixo y à esquerda (este último opcional).

O gráfico de barras horizontais é usado para comparar subcategorias dentro de categorias. Sua versão empilhada é usada principalmente para demonstrar a proporção de cada uma dessas subcategorias.

Gráfico de cascata deve ser utilizado quando se quer focalizar informações que poderiam estar empilhadas ou mostrar um ponto de partida, aumentos, reduções e um ponto final.

Os gráficos de área devem ser evitados na maioria dos casos, exceto quando os números que se quer mostrar são de magnitudes diferentes.

Referências:

KNAFLIC, Cole Nussbaumer. A escolha de um visual eficaz. In: KNAFLIC, Cole Nussbaumer. Storytelling com dados: um guia sobre visualização de dados para profissionais de negócios. Rio de Janeiro: Alta Books, 2018. p. 31–63.

--

--