Um pouco sobre Estatística Descritiva

Luigi Pontello
luigipontello
Published in
5 min readMar 5, 2021

Quando trabalhamos com análises, normalmente estamos lidando com um mundo enorme de informações, valores e significados. No mundo atual, onde basicamente tudo são dados, torna-se uma prática comum extrair certas informações do big data.

Em vários cenários, é interessante, ou ideal, apresentar todo aquele conjunto de dados em apenas um número, por exemplo.

É neste momento que utilizamos a Medida de Centralidade, que nada mais é que um valor central ou valor típico para uma distribuição de probabilidade.

A mais comum, e que provavelmente você já utilizou em algum momento da sua vida, é a Média Simples, porém, existem outras medidas, que também são utilizadas bastante no mundo da estatística, que irei demonstrar logo a seguir.

Média Aritmética Simples

Provavelmente a mais comum e mais utilizada, a média aritmética simples consiste em um cálculo sem maiores dificuldades, bastando somar todos os elementos e dividi-los pelo número absoluto. Porém, muito cuidado com a média, pois dependendo do conjunto de dados, principalmente em casos de pequenos volumes, pode ocorrer de valores “exagerados” alterarem a média de forma errônea.

Vamos a um exemplo:

Suponhamos que minhas notas na faculdade sejam: 9, 10, 8,5, 8, 9. Temos aqui 5 notas, então para calcular a média, devo somar todas e dividir pela quantidade total, que neste exemplo é 5, desta forma 9+10+8,5+8+9, que é igual a 45,5, dividido por 5. Assim temos que a média das minhas notas é 9,1.

Média Aritmética Ponderada

Basicamente o mesmo cálculo da Média Simples, porém neste caso, existe o fator peso.

É algo bem comum, principalmente em provas e vestibulares existir aquele peso nas notas, que altera o valor final, é neste momento que a Média Ponderada esta atuando.

Um exemplo simples: pense em uma prova multidisciplinar, onde temos Português, Matemática, Química e Redação.

Neste cenário, temos as notas, e os pesos atribuídos a cada uma delas, como resolvemos esta questão?

Primeiro, multiplicamos a nota pelo peso e após isso somamos todas, neste caso: 9*1 + 7*1 + 6*3 + 10*2, neste caso, 54.

Logo após, somamos os pesos, e dividimos a soma anterior das notas pelo total dos pesos, 1+1+3+2, que dá 7, e assim temos 54 / 7.

Nossa média ponderada é 7,7.

Mediana

Também conhecida como Segundo Quartil, a mediana é principalmente utilizada quando o resultado que se busca é uma divisão da amostra em dois grupos. Outro cenário muito comum de ser utilizada a Mediana são momentos em que a amostra possui dados muito extremos e discrepantes dos demais, tanto para mais, quanto para menos.

O cálculo da mediana é algo bem simples, basta colocarmos os dados em ordem crescente ou decrescente, e localizarmos o valor do meio. Em um cenário de dados ímpar, o número que esta bem ao meio é a nossa Mediana, quando existir números pares, tira-se a média simples dos dois números do meio, e este resultado é a Mediana.

Exemplo:

Pense no conjunto de dados (1, 3, 9, 3, 1, 5, 7, 8, 8, 5, 3, 4, 5, 7, 6, 5, 6, 3, 5).

Se agruparmos em ordem crescente temos 1,1, 3, 3, 3, 3, 4, 5, 5, 5, 5, 5, 6, 6, 7, 7, 8, 8, 9.

E assim, o 5 é a nossa mediana.

Moda

A moda é a mais “simples” digamos assim, das demais. Basicamente a moda é o valor que mais aparece na sua base. Por ser uma medida que fornece pouca informação de fato, ela é menos utilizada das demais.

Vamos pegar os mesmos números que usamos na explicação da Mediana, e buscar a Moda.

Os números são: 1,1, 3, 3, 3, 3, 4, 5, 5, 5, 5, 5, 6, 6, 7, 7, 8, 8, 9.

O valor que mais aparece é o número 5, neste caso, nossa moda é o 5.

Variância

De forma simples, podemos dizer que a variância de uma variável qualquer seria uma forma de indicar a dispersão estatística dos dados. A grosso modo seria dizer se o valor em específico do conjunto de dados está ou não muito distante da média.

Sendo assim, quanto maior a variância, mais distante o número está da média, da mesma forma que, quanto menor a variância, mais próximo o número está da média.

O cálculo da variância é bem simples. Imaginemos o conjunto de dados: 10, 9, 9, 10, 12, 10.

No caso, o elemento, subtraído da média, elevado ao quadrado, e no final, dividido pela quantidade de elementos que temos.

Sendo assim, primeiramente faremos o cálculo da média, que dá o total de 10.

Logo após:

S² = [(10–10)² + (9–10)² + (9–10)² + (10–10)² + (12–10)² + (10–10)²] / 6

S² = [(0)² + (-1)² + (-1)² + (0)² + (2)² + (0)²] / 6

S² = [0 + 1 + 1 + 0 + 4 + 0] / 6

S² = 1

Sendo assim, nossa variância é igual a 1.

Desvio Padrão

O Desvio Padrão, nada mais é, que uma medida para sabermos o quanto nosso conjunto de dados segue uma linha, ou seja, o quanto ele é padrão. É basicamente entender que, de todos os nossos dados de um dataset por exemplo, o quão eles variam de um para outro.

Fazer o cálculo do desvio padrão é algo super simples, apenas o resultado positivo da raiz quadrada da variância. Ou seja, é só tirar a raiz quadrada da variância, que explicamos a pouco. Neste caso, nosso desvio padrão seria de 1.

Conclusão

Com um pouco de atenção percebemos que realizar todos estes cálculos é um processo super simples, e de muito valor.

Fica sempre o alerta para entender o problema do negócio e o que se busca resolver, para que não utilizemos a estatística descritiva de forma falha.

Linkedin

Github

--

--