Um gráfico vale mais que mil palavras!

Marcela Alves Sanseverino
Datapsico
Published in
6 min readSep 4, 2020

Nada melhor que um gráfico, para quem gosta de ciências de dados! A primeira coisa que eu faço ao abrir um artigo é procurar se tem gráficos. Os gráficos nos apresentam não só os resultados e as variáveis, mas também podem conter detalhes que o autor não transparece ou não tem espaço no texto. Eu sou suspeita para falar, pois sou simplesmente apaixonada por gráficos desde a época da escola.

É importante termos em mente sempre que os gráficos possuem uma função. Cada tipo de gráfico tem um propósito. Além de conhecermos nossas variáveis e estarmos ciente do que queremos apresentar, precisamos conhecer alguns aspectos importantes da visualização de dados. Por isso, hoje, a convite dos guris do PsicoData, Gabriel Rodrigues e Dalton Costa, resolvi falar um pouco dos seguintes pontos:

  1. Para que servem os gráficos?
  2. Quais são os gráficos que eu posso utilizar?
  3. Boas práticas

Para que servem os gráficos?

Os gráficos são representações de uma ou mais variáveis. Um gráfico de distribuição mostra como uma determinada variável se comporta na nossa amostra ou população estudada. Eu particularmente, utilizo muito os gráficos de distribuição para conhecer melhor a amostra. Isso é importante para começarmos a fazer os primeiros diagnósticos de quais testes usaremos ou se teremos que optar por testes paramétricos. Vamos imaginar que você durante a pandemia resolveu estudar sintomas de bem-estar. Ao abrir o R e ler o banco você roda uma função de análise descritiva em que você obtém média, mediana, desvio padrão, mínimo e máximo. O que esses valores estão te dizendo? Essas medidas fazem um resumo de aspectos importantes para imaginarmos a distribuição dos dados, porém para conclusões mais acertadas precisamos plotar um gráfico. O que me leva ao meu próximo ponto.

Quais são os gráficos que eu posso utilizar?

Vamos utilizar a título de exemplo o Bem-Estar Geral, mensurado com a Escala de Saúde Mental Positiva. Nela, o menor valor de Bem-Estar possível é 14 e o maior é 84. Utilizamos essa escala em um estudo que estamos realizando (Projeto Fique Bem). Com os dados coletados até agora na população adulta, a média do score de Bem-Estar é 56,8(±13,57) e a mediana é 59, sendo o valor mínimo 20 e o máximo 83. Veja que nossa amostra compreende quase todos os valores possíveis da escala, e que os valores da média e da mediana estão bastante próximos. Me parece que os dados se assemelham a uma curva normal. Porém para saber de fato se o dado se assemelha a uma curva normal, precisamos de um gráfico.

Quando estamos falando de variáveis quantitativas os gráficos de distribuição que podem ser utilizados são: Histograma, Densidade e Boxplot.

Vamos começar com o Histograma:

ggplot(psicodata, aes(WellBeing))+
geom_histogram(binwidth = 1)+
theme_light()+
ylab(“Freq. Absoluta”)

Vendo o histograma, fica claro que a nossa variável de bem-estar não é normal. Parece haver dois picos um próximo ao score 40 e o outro por volta do score 65, sendo este último bem definido.

O gráfico de densidade muito se assemelha ao histograma. Porém, no eixo y traz o dado de densidade, que nada mais é do que a frequência relativa do dados. Repare como os gráficos são similares.

ggplot(psicodata, aes(BemEstar))+
geom_density(bw = 1)+
theme_light()+
ylab(“Densidade”)

É quase como se eu pegasse o contorno do histograma. Interessante, não? Nesse gráfico, conseguimos de forma mais adequada identificar os picos que existem na distribuição dos dados. Note que o pico próximo ao score 40 não é tão sobressalente como hipotetizado no histograma.

E o boxplot? Bom, esse é um gráfico mais simples. Muito utilizado quando se compara distribuições, por exemplo: será que esse comportamento do bem-estar se mantém quando divido meu banco de acordo com o sexo? Vamos ver!

ggplot(psicodata, aes(sexo, BemEstar))+
geom_boxplot()+
theme_light()

Veja que ainda que sejam muito parecidas, no sexo masculino a variação dos valores é menor e a mediana está mais próxima dos valores maiores, enquanto no sexo feminino, ainda que a interpretação seja muito parecida, a mediana é menor nas mulheres.

Mas e se estivéssemos falando de variáveis categóricas? Nesses casos o gráfico mais adequado para se utilizar é o gráfico de barras. É um gráfico simples de interpretar, pois a informação está na altura da barra. Vamos imaginar que eu quero pegar os meus dados de bem-estar e transformar em uma variável categórica. Agora que eu sei como essa variável se comporta, me interessa saber quantas pessoas estão com um bem-estar baixo, por exemplo. Para isso, utilizamos a tabela normativa informada no estudo brasileiro anterior e vamos dividir os grupos da seguinte forma:

  1. Bem-estar baixo: scores entre 14 e 54
  2. Bem-estar moderado: scores entre 55 e 65
  3. Bem-estar alto: scores entre 66 e 84
ggplot(psicodata, aes(grupo_be,))+
geom_bar()+
theme_light()+
xlab(“Grupos”)+
ylab(“Freq. Absoluta”)+
scale_x_discrete(labels = c(“Baixo”, “Moderado”, “Alto”))

O gráfico mostra claramente que o grupo de Baixo Bem-Estar é o grupo com o maior número de pessoas e o de Alto Bem-Estar é o menor. O que é bem preocupante! E será que essas proporções se mantem quando dividimos nosso banco entre os sexos?

Sexo “masculino” em rosa e sexo “feminino” em azul.
ggplot(psicodata, aes(grupo_be, fill = sexo))+
geom_bar(position = “dodge”)+
theme_light()+
xlab(“Grupos”)+
ylab(“Freq. Absoluta”)+
scale_x_discrete(labels = c(“Baixo”, “Moderado”, “Alto”))

Veja que interessante. Para o sexo feminino a proporção encontrada anteriormente parece se manter. Porém, para o sexo masculino parece haver um equilíbrio maior de pessoas em cada um dos grupos, ainda que o grupo de Baixo Bem-Estar ainda tenha mais pessoas do sexo masculino. Outro aspecto que fica claro é que o número de indivíduos do sexo feminino é bem maior.

Boas práticas

Antes de finalizar eu gostaria de deixar alguns apontamos sobre boas práticas na visualização de dados.

  1. Antes de começar a plotar gráficos, reflita sobre a natureza de suas variáveis. Dessa forma, você será mais assertivo(a) ao escolher o gráfico para apresentar suas variáveis e fará um gráfico mais informativo.
  2. Quando fores utilizar um gráfico para apresentar proporções ou frequência relativa de uma variável categórica, lembre-se que gráficos que se baseiam em ângulos e áreas (como gráfico de pizza) não são tão intuitivos quanto gráficos como o de barras que se baseia em uma medida linear.
  3. Cuidado para não enganar o leitor! É importante manter os eixos iniciando em 0 (zero), caso contrário você pode ressaltar pequenas diferenças.

Mantendo esses três aspectos em mente você não só fará gráficos informativos, mas também se tornará um leitor mais crítico de gráficos.

--

--

Marcela Alves Sanseverino
Datapsico

Sou educadora física e graduanda em psicologia, iniciando estudos em ciências de dados! Atualmente, pesquisadora do @projetofiquebem!