Frequência

A arte de contar observações

Jessica Temporal
Dec 12, 2018 · 3 min read

Para esse post vamos considerar uma situação hipotética: Num determinado formulário, 50 pessoas responderam de qual estado elas escutam o Pizza. Na tabela abaixo a gente encontra todas as respostas do questionário:

Ao olhar para a tabela conseguimos contar a quantidade de vezes que cada estado aparece e concluir que São Paulo foi o estado que apareceu mais vezes nas respostas. No entanto, retirar maiores conclusões a partir dessa contagem, pode ser um pouco difícil e se tornar impraticável se o nosso conjunto de dados crescer. Por isso precisamos de melhores formas de expressar essas informações.

Essa contagem de quantas vezes um determinado valor apareceu num conjunto de dados (dataset) é conhecida como frequência absoluta ou apenas frequência.

Quando nós queremos saber como esses números relacionam entre si e qual parte do todo um número representa, podemos calcular, a partir da frequência absoluta, um outro tipo de frequência conhecida como frequência relativa ou proporção. Para encontrar a proporção de um determinado valor usamos a seguinte fórmula:

Vamos então calcular a proporção para o estado de São Paulo no nosso conjunto de dados:

Image for post
Image for post

Em estatística proporção é denotada p, enquanto a frequência (absoluta) por f e n é a letra utilizada para representar a quantidade de observações no nosso conjunto de dados. Reescrevendo então a fórmula para o cálculo da proporção em “matematiquês”, temos:

Image for post
Image for post

Se colocarmos a frequência de cada valor numa tabela como a seguir, teremos o que carinhosamente chamamos de tabela de frequências.

Image for post
Image for post

Nessa tabela, também podemos colocar colunas correspondentes às proporções e as porcentagens de cada estado em relação ao todo. Tanto a proporção quanto a porcentagem dizem a mesma coisa, mas em escalas diferentes: a proporção sempre varia de 0 a 1 e seu somatório sempre será igual a 1, enquanto a porcentagem sempre varia de 0 a 100 com somatório igual a 100.

Image for post
Image for post

Ficar fazendo essas contagens na mão pode ser tedioso e se tornar inviável quando nosso dataset é muito grande por isso, vamos ver como fazer esses cálculos com ajuda de ferramentas, mas isso fica para um próximo post: “Montando sua tabela de frequências com Python, R ou Excel”.


Para montar as tabelas e fórmulas aqui desse post, eu usei uma ferramenta de edição de LaTeX online do Code Cogs.

pizzadedados

O primeiro podcast brasileiro sobre ciência de dados

Thanks to Leticia Portella

Jessica Temporal

Written by

Data Scientist. Loves to write beautiful code and technical posts. Co-host @ Pizza de Dados pizzadedados.com Pronouns: she/her/hers

pizzadedados

O primeiro podcast brasileiro sobre ciência de dados

Jessica Temporal

Written by

Data Scientist. Loves to write beautiful code and technical posts. Co-host @ Pizza de Dados pizzadedados.com Pronouns: she/her/hers

pizzadedados

O primeiro podcast brasileiro sobre ciência de dados

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store