Estatística Descritiva[0]

Naiara Cerqueira
pyladiesbh
Published in
3 min readJun 18, 2020

Esse é o primeiro texto da série: Estatística Básica. Clique no link para ler o próximo texto.

O campo da estatística coleta, apresenta, analisa e utiliza os dados para tomar decisões, resolver problemas e planejar e otimizar produtos e processos. Seus métodos são utilizados para estudar a variabilidade, ou seja, porque sucessivas observações de um sistema ou fenômeno não produzem o mesmo resultado.

Para isso são coletadas amostras aleatórias e representativas da variabilidade dessa população. Coletada primariamente ou secundariamente, essa amostra pode ter dados censurados, faltantes e outliers, que devem ser tratados.

Cada dado dessa amostra pode ser de diferentes tipos:

Tipos de variáveis

O tipo de tratamento e de gráfico escolhido dependem do tipo dessa variável:

1. Variáveis Quantitativas: discretas ou contínuas

As variáveis discretas são resultantes de um processo de contagem e, logo, são representadas pelos números naturais. Alguns exemplos são: número de filhos, número de dias sem chuva, número de acessos a uma plataforma, etc.

As variáveis contínuas são resultantes de um processo de medição; logo, representadas pelos números reais. Como exemplos temos: altura, peso, salário, vazão de um rio, etc.

Esses valores amostrados podem ser ordenados e apresentados em tabelas de frequências.

  • Frequência simples (f): contagem dos elementos, frequência com que determinado elemento ocorre na amostra;
  • Frequência simples acumulada (fac): mostra quantos dados apresentam valores menores ou iguais ao elemento analisado;
  • Frequência relativa (fr): a porcentagem referente à frequência simples, estima a probabilidade de ocorrência do elemento;
  • Frequência relativa acumulada (frac): a porcentagem de valores que são menores ou iguais ao elemento analisado.

Se existe uma quantidade grande de dados, eles devem ser agrupados por intervalos de classes de igual largura; assim, a tabela de frequência apresentará o número de dados existentes no intervalo da classe. É possível estimar o número de classes pela raiz quadrada do número de observações (n).

As variáveis quantitativas podem ser representadas por gráficos como:

  • histogramas: mostram a distribuição das frequências;
  • gráficos de box e whisker (box plot): mostram a assimetria da distribuição, quartis, presença de outliers e variabilidade dos dados;
  • gráficos de dispersão: mostram a relação entre duas variáveis;
  • séries temporais: mostram a alteração de uma variável no tempo.
O limite inferior é calculado por Q1–1,5(IQR) e o superior por Q3+1,5(IQR). Todo valor acima do superior e abaixo do inferior é considerado ourlier. IQR, ou AIQ, é a Amplitude Interquartil, AIQ=Q3-Q1.

2. Variáveis Qualitativas: ordinais ou nominais

As variáveis qualitativas ordinais expressam a uma relação de posicionamento e ordem. Alguns exemplos são: escolaridade, estágio de doença, classe social, etc.

As variáveis qualitativas nominais são as que não expressam nenhuma ordem. Como exemplos temos: sexo, profissão, religião, etc.

Mesmo quando as variáveis qualitativas são transformadas em números elas continuam representando categorias, logo, elas continuam sendo categóricas!

São melhor apresentadas por:

  • gráficos de barra verticais ou horizontais: representam sequências simples de valores e a frêquencia absoluta ou relativa destes;
  • gráficos de torta/pizza: fazem divisão por setores e proporções.

Agora que você já sabe quais as melhores formas de apresentar seus dados, clique aqui (em andamento) para aprender como fazer gráficos no python!

Eu quero me tornar cientista de dados, logo, se tiver algo errado, alguma observação, crítica ou elogio: me avise!

--

--