Frequência

A arte de contar observações

Para esse post vamos considerar uma situação hipotética: Num determinado formulário, 50 pessoas responderam de qual estado elas escutam o Pizza. Na tabela abaixo a gente encontra todas as respostas do questionário:

Ao olhar para a tabela conseguimos contar a quantidade de vezes que cada estado aparece e concluir que São Paulo foi o estado que apareceu mais vezes nas respostas. No entanto, retirar maiores conclusões a partir dessa contagem, pode ser um pouco difícil e se tornar impraticável se o nosso conjunto de dados crescer. Por isso precisamos de melhores formas de expressar essas informações.

Essa contagem de quantas vezes um determinado valor apareceu num conjunto de dados (dataset) é conhecida como frequência absoluta ou apenas frequência.

Quando nós queremos saber como esses números relacionam entre si e qual parte do todo um número representa, podemos calcular, a partir da frequência absoluta, um outro tipo de frequência conhecida como frequência relativa ou proporção. Para encontrar a proporção de um determinado valor usamos a seguinte fórmula:

Vamos então calcular a proporção para o estado de São Paulo no nosso conjunto de dados:

Em estatística proporção é denotada p, enquanto a frequência (absoluta) por f e n é a letra utilizada para representar a quantidade de observações no nosso conjunto de dados. Reescrevendo então a fórmula para o cálculo da proporção em “matematiquês”, temos:

Se colocarmos a frequência de cada valor numa tabela como a seguir, teremos o que carinhosamente chamamos de tabela de frequências.

Nessa tabela, também podemos colocar colunas correspondentes às proporções e as porcentagens de cada estado em relação ao todo. Tanto a proporção quanto a porcentagem dizem a mesma coisa, mas em escalas diferentes: a proporção sempre varia de 0 a 1 e seu somatório sempre será igual a 1, enquanto a porcentagem sempre varia de 0 a 100 com somatório igual a 100.

Ficar fazendo essas contagens na mão pode ser tedioso e se tornar inviável quando nosso dataset é muito grande por isso, vamos ver como fazer esses cálculos com ajuda de ferramentas, mas isso fica para um próximo post: “Montando sua tabela de frequências com Python, R ou Excel”.


Para montar as tabelas e fórmulas aqui desse post, eu usei uma ferramenta de edição de LaTeX online do Code Cogs.