Medidas de tendência central: moda, média e mediana
Existem várias formas de caracterizar um conjunto de dados. As formas mais simples estatisticamente falando, são as medidas de tendência central: moda, média e mediana.
É possível que você já tenha escutado esses nomes por aí, mas vamos definir e aprender a calcular cada uma delas, tá bom?
Para ficar mais fácil de assimilar, durante todo esse post, nós vamos usar o seguinte conjunto de dados:
Moda
A moda, é o valor em que a frequência dos seus dados é maior. Então para encontrar a moda desse conjunto poderíamos fazer uma tabela de frequência e ver qual é o número mais frequente:
Dessa forma, sabemos que a moda desse conjunto seria o cinco, porque o cinco é o número mais frequente.
Média
A média, é o resultado da soma de todos os valores dividido pela quantidade de entradas do nosso conjunto de dados, ou seja, se somarmos todos os nossos valores e dividirmos pela quantidade teremos a média.
Mediana
Já mediana, é o valor que divide o nosso conjunto de dados em duas metades. Para encontrar nossa mediana precisamos primeiro ordenar nossos dados:
Como nosso dataset tem uma quantidade ímpar de números, a mediana será o valor 7. Caso nosso dataset tivesse uma quantidade par de entradas, a mediana seria a média dos dois valores mais ao centro:
Então, é importante lembrar de conferir a quantidade de entradas para calcular a mediana.
Interpretações
Como a moda é definida por frequência, nem todos os valores dos nossos dados vão afetá-la, por exemplo, se a gente pegar amostras da nossa população/nossos dados, a moda ser arbitrária, ou seja, ela pode variar muito de uma amostra pra outra. Além disso, quando a gente leva em consideração o histograma de uma amostra, a moda irá variar dependendo do seu bin size.
Por outro lado, a gente tem a média, que é muito afetada por cada valor presente no nosso conjunto de dados, então, se nós tivermos outliers no nosso conjunto de dados, a média vai ser “puxada” para o valor do outlier. Por exemplo, se no nosso dataset original nós colocássemos uma entrada com valor igual a 100, esse novo valor iria fazer a média aumentar bruscamente, no entanto a mediana não sofreria tamanha alteração:
Então se a gente tem um valor que é muito influenciado pelo nosso conjunto de dados (média) e um outro valor que é pouco influenciado (moda), eles não são muito bons certo? E aí que a mediana entra, como ela define o meio do nosso dataset, ela é uma medida robusta em relação os nossos dados, ou seja, outliers não vão influenciar a mediana.
A robustez, é uma característica importante da mediana já que quando a gente tem um conjunto de dados que tem muitos outliers a mediana, por desconsiderar valores que “fora do normal”, se torna uma medida mais interessante do que a média.
Por mais que seja divertido pegar a calculadora e fazer essas continhas na mão, pode se tornar inviável quando nosso dataset é muito grande então, vamos ver como encontrar as medidas de tendência central com ajuda de ferramentas no próximo post: “Calculando as medidas de tendência central com Python, R ou Excel”.
Para montar as tabelas e fórmulas aqui desse post, eu usei uma ferramenta de edição de LaTeX online do Code Cogs.