Onde vivem os histogramas
Você já deve ter visto gráficos de barras por aí. O histograma apesar de lembrar um gráfico de barras, tem algumas diferenças fundamentais e vamos vê-las a seguir.
Informação
É comum encontrar nossos dados em formatos tabulares como planilhas e similares no entanto, para notar tendências e padrões, formas visuais podem ser mais amigáveis ao investigar melhor os seus dados, encontrar tendências e padrões. É aí que gráficos como o histograma entram.
O histograma é uma das maneiras favoritas de representar graficamente frequências como aquelas que vimos no outro post, apesar de se assemelhar com um gráfico de barras, histograma não é um gráfico de barras.
Para explicar essas diferenças vamos levar em consideração o seguinte cenário: 50 pessoas responderam um questionário sobre ouvir o podcast Pizza de Dados. Nesse questionário apenas duas perguntas foram feitas, eram elas:
- De qual estado você ouve o pizza?
- Qual a sua idade?
Com as repostas do formulário temos uma tabela que começa assim:
Você pode encontrar a tabela completa aqui. E geramos os dois gráficos a seguir:
- Histograma
2. Gráfico de barras
Ambos trazem informações diferentes sobre os nossos dados. Vamos comparar os dois.
Eixo Y
Normalmente, no eixo vertical (eixo Y) de um gráfico de barras nós encontramos a nossa variável dependente (variável de resultado), ou seja, o gráfico de barras relaciona duas variáveis, aqui a relação é estabelecida entre os ouvintes e os estados de onde eles são.
Já no histograma, temos apenas uma variável, nesse caso é exatamente a frequência das idades então, ao invés de um relacionamento, no histograma temos um comportamento, nesse caso o comportamento de como a idade se apresenta no nosso contexto.
Eixo X
Enquanto nos gráficos de barra o eixo horizontal (eixo X) normalmente representa dados categóricos (qualitativos), o histograma traz nesse eixo dados numéricos (quantitativos).
No nosso histograma vemos valores de idades no eixo enquanto o gráfico de barra traz as categorias que dividem os ouvintes, no caso os estados.
Além disso, note que ao invés de ter cada uma das idades apresentadas no eixo X do histograma, o que nós encontramos são intervalos onde as idades dos nossos ouvintes se encaixam.
Largura da coluna
No caso do gráfico de barras, a largura da coluna não importa, ela não traz nenhuma informação importante. Já no histograma a largura da coluna é fundamental para interpretação dos dados, ela corresponde ao intervalo que nós estamos contando a frequência das idades, esse intervalo é comumente chamado de bin size.
No nosso histograma ali em cima, os intervalos são de 10 em 10 começando em 20, o valor mínimo do conjunto de idades apresentadas na nossa tabela, e acabando em 60, o valor máximo para a mesma tabela.
Conclusão
A representação gráfica ideal para representar os seus dados e te ajudar a interpretar os dados, vai depender da pergunta que nós queremos fazer. Por exemplo, se a pergunta fosse:
Qual estado tem mais ouvintes do Pizza e qual estado o Pizza deveria investir em divulgação?
O Gráfico de barras seria mais indicado para responder essa pergunta. Mas se a pergunta fosse:
Qual faixa etária que mais se interessa no Pizza e qual pode apresentar um potencial de crescimento?
O histograma seria mais indicado.
Por isso, entender o seu domínio (seu conjunto de dados) e a pergunta que você está querendo responder, é fundamental para a escolha da representação gráfica.
Num próximo post eu vou mostrar “Como fazer histogramas com Python, R ou no Excel”.
Eu criei os gráficos aqui presentes usando o Planilhas do Google.