Data Storytelling (Parte 2)

A não desolação do analista 🐲

Emerson Aguiar
Porto
11 min readDec 1, 2020

--

Figura 1: Anel de Sauron

Chegar até aqui corresponde à chegada de nosso amigo hobbit e seu grupo à Erebor. Nesse momento, uma alegria tomava conta do grupo, pois a primeira etapa do desafio tinha sido superada. No entanto, eles sabiam que o verdadeiro desafio estava prestes a ser enfrentado. Smaug, um dragão perigoso estava à sua espera.

Bilbo sabia do desafio e, durante a jornada, coletou algumas relíquias que o ajudoram a combater Smoug: uma armadura, uma adaga e um anel. Tal como Bilbo, você já deve ter coletado algumas relíquias (suas análises). Agora é hora de se apropriar delas, pois seu público não é tolo e sabe que uma história não é nada sem uma análise de dados robusta.

Vídeo 1: Bilbo e Smoug

Gráficos

Após construir a ideia principal do seu trabalho podemos pensar em colocar gráficos na comunicação. Aqui é importante entender que os gráficos são estruturas que apoiam no processo de comunicação e serão utilizados, se e somente se, eles facilitarem a construção da história.

Por exemplo, apesar de usar frequentemente boxplots nas minhas análises, sei que para entender bem um boxplot um indivíduo precisa entender os conceitos de média, mediana, quartis, distância interquartil e outliers. Normalmente minha audiência não tem experiência em estatística e eu precisaria usar muito contexto para explicar toda essa informação, o que tornaria minha comunicação entediante, falha e ineficaz.

Os gráficos servem como uma espécie de “ritualque corrobora a narrativa. Tal como os detalhes sobre as peculiaridades físicas de um personagem ou local garantem vividez, naturalidade e afeição dos leitores com a narrativa. Além disso, os gráficos podem ser vistos como uma “arma mágica”, pois concedem poder ao narrador.

Acredito em Deus, todos os outros devem apresentar dados e fatos (Edward Deming).

Por outro lado, quando usados de forma indiscriminada, os gráficos podem desgastar a narrativa, assim como o anel fez com Bilbo e, posteriormente, com Frodo. Portanto, você deve entender que os gráficos não são para você, mas para o seu público e por isso devem ser usados com sabedoria 🧙‍♂️.

A seguir, mostrarei os gráficos mais comuns e que podem ser usados para explicar quase todo tipo de análise.

Texto simples

Quando você tem não mais que dois números para compartilhar, um texto simples pode ser um bom jeito de se comunicar. Este valor pode ser representado na forma de proporção (figura 1a), percentagem (figura 1b) ou frequência absoluta (figura 1c).

Figura 2: frequência de colisões veiculares durante manobras de estacionamento no portfólio de uma seguradora [link]

No geral, as pessoas apresentam dificuldades em entender probabilidades e percentagens, pois identificam como abstratas e não aplicáveis [1]. Quando o público tem pouca bagagem em exatas, frequências absolutas são melhor compreendidas por serem mais naturais[2].

Quando usamos textos simples podemos incorrer em duas armadilhas: negligência do denominador e confusão do denominador. A negligência do denominador se refere a desatenção em relação ao tamanho da população. Por exemplo, dizer que o Corinthians perdeu 20% dos últimos pênaltis pode parecer muito se imaginarmos 100 cobranças, ou pouco se o referencial for 10 cobranças. Diante disso, apresente sempre o referencial.

Confusão do denominador surge quando se comparam riscos com diferentes denominadores. Algumas pessoas podem focar no numerador e não identificar, por exemplo, que o risco de morrer por acidente de trânsito de 8 em 1.000 é menor que o risco de desenvolver doença cardíaca de 2 em 100 [3]. Para contornar esse problema, a informação deve ser sempre apresentada com os mesmos denominadores.

Tabelas e Mapas de Calor

Tabelas são úteis quando se quer comunicar múltiplas informações numa única visão ou comparar unidades de medida diferentes para uma mesma observação. Porém, tabelas requerem muito esforço mental, pois as pessoas não sabem onde focar e olham basicamente tudo ou quase nada.

Na figura 3 temos representada uma tabela com informações sobre alguns indicadores por região e para o Brasil de forma consolidada. Perceba que para fazer uma análise, você precisa se atentar a cada coluna, uma por vez, e comparar as linhas par a par.

Figura 3: Informações demográficas da população brasileira. Fonte: IBGE e UFCG

Para reduzir o esforço mental, nós podemos usar saturação de cores para dar pistas para onde nosso público deve olhar (mapas de calor). Isso acontece pois nosso cérebro é bom em fazer equiparação de intensidade [4]. Para as informações serem comparáveis é fundamental trazê-las para uma medida única, o que pode ser feito normalizando os dados. Logo, essa melhoria é aplicável apenas quando temos dados numéricos.

Na figura 4 observa-se o Ranking de Eficiência dos Estados da Folha (REE-F). O ranking agrupa 17 variáveis em 5 categorias de análise e mostra que Santa Catarina apresenta o melhor desempenho, acompanhado por São Paulo e pelo Paraná. Acre, Pará e Amapá têm o pior desempenho.

Figura 4: Mapa de calor

Com o mapa de calor (figura 4), conseguimos avaliar facilmente os motivos que fizeram Santa Catarina ser bem avaliada. Porém, em relação a São Paulo (2º no ranking) percebemos que ela é melhor em metade dos critérios (educação, saúde e segurança). Além disso, nos critérios que é superior a Santa Catarina (infraestrutura, finanças e renda per capita), São Paulo apresenta diferença mais significativa. Isso mostra que os critérios não têm pesos equivalentes.

Gráficos de dispersão

O gráfico de dispersão é usado para verificar se existe relação entre duas variáveis contínuas. Isso não prova que uma variável afeta outra variável, relação de causa e efeito, mas determina se existe e qual a intensidade da relação entre elas (correlação).

No entanto, é necessário ter cuidado com dois potenciais problemas que surgem com a utilização de gráficos de dispersão. O primeiro se refere ao tipo de relação. Relações lineares são simples de explicar, porém nem sempre são encontradas. A depender do público, um relação exponencial, quadrática ou logarítmica pode não ser facilmente identificada.

Na figura 5, por exemplo, o custo por milha percorrida diminui conforme nos aproximamos da média de milhas percorridas no mês (2200 milhas) e, após ultrapassarmos esse valor, começamos a ter um aumento do custo de milhas.

Figura 5: gráfico de dispersão — Variação do custo por milha percorrida de uma frota de ônibus [link]

O segundo problema de utilização do gráfico de dispersão é a interpretação desconsiderando nexo causal. Ou seja, apesar de ter uma relação graficamente perceptível, no mundo real ela não se mostra verdadeira.

Correlação não indica causalidade (um professor de estatística).

No site Spurious Correlation é possível encontrar diversas correlações fortes, porém sem nenhum nexo causal. Por exemplo, apesar de um gráfico mostrar uma relação clara entre consumo per capita de queijo muçarela e novos doutores em engenharia civil, não é de se esperar que uma coisa implique na outra.

Gráficos de linha e gráficos de inclinação

Gráficos de inclinação (figura 6) podem ser úteis quando precisamos avaliar 2 períodos ou dois pontos, ou seja, deixar evidente uma variação. Observe que na figura abaixo existe uma tendência de crescimento no consumo de Diesel B e Etanol Hidratado, enquanto há uma tendência de decrescimento no consumo de Gasolina C.

Figura 6: gráfico de inclinação — Consumo de combustível no Brasil: comparação entre 2016 e 2019

O número de períodos é a grande diferença entre gráficos de inclinação e gráficos de linha (Figura 7), esses são usados principalmente para mostrar séries temporais. Na análise de séries temporais tentamos identificar efeitos de sazonalidade (influência de um determinado fator externo, que ocorre sempre no mesmo período) e tendência (aumento ou redução de longo prazo associados aos dados). Para tanto, temos que considerar um período razoável para que esses efeitos sejam perceptíveis e numa granulometria adequada.

Nos dados de consumo de combustíveis no gráfico abaixo observamos que existiu uma tendência de crescimento no consumo de Gasolina comum até 2015, enquanto para o Etanol apresentou estabilidade. Não conseguimos identificar sazonalidade pois, provavelmente, ela ocorre em períodos mais curtos. Diante disso, para avaliar a sazonalidade precisaríamos ajustar a granulometria dos dados de anos para trimestres ou meses.

Figura 7: gráfico de linhas — Dados da Agência Nacional de Petróleo (ANP) compilados pela Bioagência, entre as safras 2009/10 e 2013/14 o consumo de gasolina comum e etanol hidratado

Vale notar que a linha que liga os pontos das variáveis servem para conotar conexão, ou seja, o ponto x tem relação com o ponto x+1. Diante disso, esse tipo de gráfico é indicado para variáveis contínuas e categóricas ordinais.

Gráficos de barra e gráfico de pilhas

Gráficos de barras são usados para mostrar as diferenças entre categorias. Esses gráficos são amplamente conhecidos, mas é frequente privilegiar o numerador na comunicação gráfica. Isto conduz a uma amplificação da percepção de risco e causar consequências na tomada de decisão e comportamento, já que a maioria das pessoas não presta atenção à escala da figura.

Na figura 8, por exemplo, a percepção de risco no gráfico A é mais persuasiva, porque permite inferir que existe redução da mortalidade com a aplicação do rastreio. Porém, o gráfico B, que mostra o impacto do rastreio a nível populacional (0 a 100%), não permite inferir diferença entra a aplicação e não aplicação do rastreio.

Figura 8: gráfico de barras — Diferença entre a percepção em relação à redução de mortalidade com a aplicação do rastreio devido ao ajuste da escala.

Os gráficos de pilhas, por sua vez, mostram essas diferenças dando uma noção de subcomponentes numa proporção fixa. Esses gráficos traduzem a relação da parte com o todo, facilitando tanto a avaliação intra-critério (dentro da categoria) quanto inter-critério (entre as partes das categorias).

Na figura 9 observa-se a comparação do percentual de cada categoria em cada item de um questionário. A avaliação dentro de cada categoria é simplificada, porém quando se deseja avaliar o desempenho entre categorias ou entre itens o esforço é aumentado.

Figura 9: gráfico de barras com várias categorias

Ajustando a formatação da figura 10 para um gráfico de pilhas é possível ter uma avaliação de todas as relações mais facilmente. Nesse gráfico também podemos usar cores para relacionar categorias, tal como foi feito usando escalas próximas de cinza para “Discordo totalmente” e “Discordo”, e de azul escuro para “Concordo” e “Concordo totalmente”.

Figura 10: gráfico de pilhas — Neste uma avaliação rápida permite a obtenção de mais informações.

Como você quer que sua audiência interaja com a sua comunicação visual?

Uma boa narrativa conduz e envolve o público. Para tanto, algumas pistas são dadas para que o público possa criar hipóteses, desenvolver teorias e validar as conclusões. Mas devemos fazer isso sem criar esforço cognitivo desnecessário, afinal de contas uma análise de dados bem feita é uma facilitação para o processo de decisão.

Foco na atenção

Em processos de comunicação usamos atributos pré-atentivos (negrito, itálico, sublinhado, cores) para criar conforto cognitivo, o que permite uma comunicação simples e dinâmica.

Figura 11: gráfico sem nenhum elemento pré-atentivo

Em gráficos, combinamos cores e textos para direcionar a leitura do público. Percebam que a conexão entre o subtítulo e as barras em azul do gráfico da figura 12 direcionam a informação que o autor pretende passar, diferentemente do que acontece na figura 11.

Figura 12: gráfico com elemento pré-atentivo

Perceba que mesmo com diferenças pequenas, como a mudança de tom de cor, é possível induzir a atenção (figura 13).

Figura 13: elemento pré-atentivo utilizado de forma discreta

Elementos pré-atentivos devem ser usados para direcionar a atenção e facilitar a interpretação. Ao usar cores apenas por diversão, por exemplo, você pode causar esgotamento cognitivo. Ao contrário do conforto cognitivo, o esgotamento cognitivo cria uma barreira no processo, pois muita atenção é necessária para a interpretação.

Figura 14: Mau uso de cores (Data Storytelling)

Perceba que na figura 14, as cores não apresentam relação e nosso cérebro não consegue fazer correlação de aumento e queda entre as células. Para fazer esse efeito use níveis de uma mesma cor, assim o seu cérebro usará essa informação como equiparação de intensidade adequadamente.

Tudo que é demais, sobra

Minha mãe sempre falava isso quando exagerávamos em algo. O que é exagero? Nesse caso, é mais fácil de explicar com um exemplo (figura 15):

Figura 15: simplificação de um gráfico (Fonte: Storytelling com Dados)

Cada elemento numa página adiciona esforço cognitivo. Como você pode notar, após 6 modificações temos a mesma informação e um gráfico mais simples de entender (figura 16).

Figura 16: antes e depois do processo de simplificação gráfica (Fonte: Storytelling com Dados)

Exageros também podem ser vistos ao adicionar efeitos 3D, sombra, gradientes e texturas. Nenhum desses elementos agrega informação, então por que usar?

Um outro modo de evitar exageros é dividir para conquistar. Muitos cientistas ou analistas de dados acham que colocar toda a informação em um único gráfico ajuda na explicação. Assim como no caso do boxplot, isso não é verdade e pelo mesmo motivo: é preciso muito contexto!

Um exemplo clássico são os gráficos com um eixo y secundário (figura 17). Os indivíduos habituados leem rapidamente o gráfico, porém quem não tem familiaridade precisa de tempo (esforço cognitivo) para interpretar o conteúdo.

Figura 17: gráfico com eixo y secundário

Além de usar um eixo secundário, tente colocar os rótulos diretamente (figura 18, alternativa 1) ou criar gráficos separados verticalmente (figura 18, alternativa 2).

Figura 18: Opções ao eixo y secundário

Outros gráficos difíceis de interpretar são os gráficos de pizza e roscas. Isso acontece, porque esses tipos de gráficos não conseguem dar a noção espacial que conseguimos com o gráfico de barras, por exemplo.

Na figura 19 é difícil falar qual região tem maior percentual de população em área urbana. Mesmo que intuitivamente saibamos que é o Sudeste é difícil afirmar que ele é maior que o Centro-Oeste ou que o Sul. Neste caso, precisaríamos dos rótulos para tirar qualquer conclusão, daí uma tabela seria suficiente. Perceba também que as cores não apresentam nenhuma contribuição para a visualização e podem ser descartadas.

Figura 19: gráfico de pizza

Ao usar um gráfico do tipo rosca (figura 20) o resultado ainda é pior. As comparações entre arcos não são naturais e a necessidade de comparar os rótulos aumenta.

Figura 20: gráfico de rosca

Quando mudamos o tipo de gráfico para barras (figura 21), conseguimos ordenar facilmente as regiões pela métrica utilizada e mesmo sem os rótulos poderíamos interpretar os resultados.

Figura 21: gráfico de barras

Algumas pessoas podem achar que o uso dos gráficos de pizza e de rosca nas das figuras 19 e 20 são indevidos, pois esses gráficos deveriam ser utilizados para dados normalizados (soma das partes é 100%). Porém, isso já acontece. A construção desses gráficos passa pela normalização dos dados para construir as fatias (compare as figuras 19 e 21).

Figura 21: gráfico de pizza com dados normalizados

Dicas finais

Normalmente a entrega de um conteúdo está atrelada a um marco do projeto e é comum as pessoas quererem mostrar que todo recurso aplicado no projeto e em si valeram a pena. Porém, uma comunicação não serve para mostrar todo o esforço que você fez em análises. Selecione as análises que são imprescindíveis para o entendimento e tomada de decisão, pois nesse caso menos é mais.

Algumas pessoas podem criar propositalmente certos vieses na narrativa para que ela se torne mais convincente. Isso é um grande erro, pois o trabalho de um analista ou cientista de dados é expandir o conhecimento sobre algo e não convencer alguém com marketing.

Figura 22: o apego de um analista com suas preciosas análises

De forma geral, as pessoas que recebem análises de dados tem entendimento profundo do negócio e, muitas vezes, em estatística. Uma implicação simples, mas não desejável, é o seu público questionar o seu material ou sua postura profissional. Uma implicação mais drástica pode colocar sua carreira em risco, por exemplo, se uma decisão importante for tomada de forma equivocada por causa de uma análise de dados mal intencionada.

Crie a estrutura de informação adequada para o seu público entender a complexidade da informação. Esse tipo de postura vai mostrar como suas análises são valiosas na criação de ideais e na facilitação da tomada de decisão.

Agora é sua vez! Não negligencie o último ato do seu projeto. Lembre-se de um certo anão que após afugentar um dragão e conquistar seu palácio, precisou apostar tudo numa batalha com 5 exércitos.

Figura 23: A batalha dos 5 exércitos

Referências

Gigerenzer G. Reckoning with risk: learning to livewith uncertainty. London: Penguin Press; 2003. ISBN 9780140297867

Hoffrage U, Lindsey S, Hertwig R, Gigerenzer G. Medicine: communicating statistical information. Science. 2000;290(5500):2261–2

Kahneman D. Rápido e devagar: duas formas de pensar. Editora Objetiva; 1ª Edição; 2012.

Knaflic C. N. Storytelling com dados: um Guia Sobre Visualização de Dados Para Profissionais de Negócio. Editora Alta Books; 2ª Edição; 2019.

--

--

Emerson Aguiar
Porto

Engenheiro de Produção, Mestre em Pesquisa Operacional e Cientista de Dados na Porto Seguro