Onde vivem os histogramas

Você já deve ter visto gráficos de barras por aí. O histograma apesar de lembrar um gráfico de barras, tem algumas diferenças fundamentais e vamos vê-las a seguir.

Jessica Temporal
pizzadedados
3 min readJun 5, 2019

--

Informação

É comum encontrar nossos dados em formatos tabulares como planilhas e similares no entanto, para notar tendências e padrões, formas visuais podem ser mais amigáveis ao investigar melhor os seus dados, encontrar tendências e padrões. É aí que gráficos como o histograma entram.

O histograma é uma das maneiras favoritas de representar graficamente frequências como aquelas que vimos no outro post, apesar de se assemelhar com um gráfico de barras, histograma não é um gráfico de barras.

Para explicar essas diferenças vamos levar em consideração o seguinte cenário: 50 pessoas responderam um questionário sobre ouvir o podcast Pizza de Dados. Nesse questionário apenas duas perguntas foram feitas, eram elas:

  1. De qual estado você ouve o pizza?
  2. Qual a sua idade?

Com as repostas do formulário temos uma tabela que começa assim:

6 primeiras linhas da tabela de respostas

Você pode encontrar a tabela completa aqui. E geramos os dois gráficos a seguir:

  1. Histograma
Frequência de idade entre os ouvintes

2. Gráfico de barras

Quantidade de ouvintes por estado

Ambos trazem informações diferentes sobre os nossos dados. Vamos comparar os dois.

Eixo Y

Normalmente, no eixo vertical (eixo Y) de um gráfico de barras nós encontramos a nossa variável dependente (variável de resultado), ou seja, o gráfico de barras relaciona duas variáveis, aqui a relação é estabelecida entre os ouvintes e os estados de onde eles são.

no histograma, temos apenas uma variável, nesse caso é exatamente a frequência das idades então, ao invés de um relacionamento, no histograma temos um comportamento, nesse caso o comportamento de como a idade se apresenta no nosso contexto.

Eixo X

Enquanto nos gráficos de barra o eixo horizontal (eixo X) normalmente representa dados categóricos (qualitativos), o histograma traz nesse eixo dados numéricos (quantitativos).

No nosso histograma vemos valores de idades no eixo enquanto o gráfico de barra traz as categorias que dividem os ouvintes, no caso os estados.

Além disso, note que ao invés de ter cada uma das idades apresentadas no eixo X do histograma, o que nós encontramos são intervalos onde as idades dos nossos ouvintes se encaixam.

Largura da coluna

No caso do gráfico de barras, a largura da coluna não importa, ela não traz nenhuma informação importante. Já no histograma a largura da coluna é fundamental para interpretação dos dados, ela corresponde ao intervalo que nós estamos contando a frequência das idades, esse intervalo é comumente chamado de bin size.

No nosso histograma ali em cima, os intervalos são de 10 em 10 começando em 20, o valor mínimo do conjunto de idades apresentadas na nossa tabela, e acabando em 60, o valor máximo para a mesma tabela.

Conclusão

A representação gráfica ideal para representar os seus dados e te ajudar a interpretar os dados, vai depender da pergunta que nós queremos fazer. Por exemplo, se a pergunta fosse:

Qual estado tem mais ouvintes do Pizza e qual estado o Pizza deveria investir em divulgação?

O Gráfico de barras seria mais indicado para responder essa pergunta. Mas se a pergunta fosse:

Qual faixa etária que mais se interessa no Pizza e qual pode apresentar um potencial de crescimento?

O histograma seria mais indicado.

Por isso, entender o seu domínio (seu conjunto de dados) e a pergunta que você está querendo responder, é fundamental para a escolha da representação gráfica.

Num próximo post eu vou mostrar “Como fazer histogramas com Python, R ou no Excel”.

Eu criei os gráficos aqui presentes usando o Planilhas do Google.

--

--

Jessica Temporal
pizzadedados

DevRel 🥑 • Author • 🎙Podcaster @pizzadedados • Creator of GitStudyCards.com • GitHub ⭐️ • cross-stitcher & knitter • 🇧🇷 & 🇨🇦 • she/her