Medidas de tendência central: moda, média e mediana

Existem várias formas de caracterizar um conjunto de dados. As formas mais simples estatisticamente falando, são as medidas de tendência central: moda, média e mediana.

Published in

pizzadedados

4 min readJul 24, 2019

É possível que você já tenha escutado esses nomes por aí, mas vamos definir e aprender a calcular cada uma delas, tá bom?

Para ficar mais fácil de assimilar, durante todo esse post, nós vamos usar o seguinte conjunto de dados:

Moda

A moda, é o valor em que a frequência dos seus dados é maior. Então para encontrar a moda desse conjunto poderíamos fazer uma tabela de frequência e ver qual é o número mais frequente:

Dessa forma, sabemos que a moda desse conjunto seria o cinco, porque o cinco é o número mais frequente.

Média

A média, é o resultado da soma de todos os valores dividido pela quantidade de entradas do nosso conjunto de dados, ou seja, se somarmos todos os nossos valores e dividirmos pela quantidade teremos a média.

Mediana

Já mediana, é o valor que divide o nosso conjunto de dados em duas metades. Para encontrar nossa mediana precisamos primeiro ordenar nossos dados:

Como nosso dataset tem uma quantidade ímpar de números, a mediana será o valor 7. Caso nosso dataset tivesse uma quantidade par de entradas, a mediana seria a média dos dois valores mais ao centro:

Conjunto de dados com quantidade par

Então, é importante lembrar de conferir a quantidade de entradas para calcular a mediana.

Interpretações

Como a moda é definida por frequência, nem todos os valores dos nossos dados vão afetá-la, por exemplo, se a gente pegar amostras da nossa população/nossos dados, a moda ser arbitrária, ou seja, ela pode variar muito de uma amostra pra outra. Além disso, quando a gente leva em consideração o histograma de uma amostra, a moda irá variar dependendo do seu bin size.

Por outro lado, a gente tem a média, que é muito afetada por cada valor presente no nosso conjunto de dados, então, se nós tivermos outliers no nosso conjunto de dados, a média vai ser “puxada” para o valor do outlier. Por exemplo, se no nosso dataset original nós colocássemos uma entrada com valor igual a 100, esse novo valor iria fazer a média aumentar bruscamente, no entanto a mediana não sofreria tamanha alteração:

Então se a gente tem um valor que é muito influenciado pelo nosso conjunto de dados (média) e um outro valor que é pouco influenciado (moda), eles não são muito bons certo? E aí que a mediana entra, como ela define o meio do nosso dataset, ela é uma medida robusta em relação os nossos dados, ou seja, outliers não vão influenciar a mediana.

A robustez, é uma característica importante da mediana já que quando a gente tem um conjunto de dados que tem muitos outliers a mediana, por desconsiderar valores que “fora do normal”, se torna uma medida mais interessante do que a média.

Por mais que seja divertido pegar a calculadora e fazer essas continhas na mão, pode se tornar inviável quando nosso dataset é muito grande então, vamos ver como encontrar as medidas de tendência central com ajuda de ferramentas no próximo post: “Calculando as medidas de tendência central com Python, R ou Excel”.

Para montar as tabelas e fórmulas aqui desse post, eu usei uma ferramenta de edição de LaTeX online do Code Cogs.