Medidas de tendência central
Quando estamos analisando um conjunto de dados é bastante comum a utilização de medidas de tendência central, dentre elas: a média, a moda e a mediana. Neste artigo, iremos definir cada um desses conceitos e demonstrar como calcular estas medidas.
Muitas vezes, quando estamos analisando um conjunto de dados, desejamos expressar aquele conjunto através de um ou de alguns valores que sejam representativos de todo o conjunto de dados. É bastante comum fazer isto através da utilização de alguma das medidas de tendência central: média, moda ou mediana (Morettin, 2010).
No livro Estatística Básica - A Arte De Trabalhar Com Dados, o autor, João Pinheiro define uma medida de tendência central como:
“um ‘valor típico’ em torno do qual se situam os valores daquela variável”.
Antes de conceituarmos as medidas mencionadas anteriormente, definiremos o conjunto de dados que empregaremos em nossos exemplos.
Média
A média aritmética corresponde a soma de todas as observações dividida pela quantidade de observações. O cálculo para este conjunto de dados ocorre da seguinte forma:
Moda
A moda corresponde ao valor mais frequente em um conjunto de dados. A seguinte tabela mostra a frequência de cada número e através dela podemos identificar com facilidade o número que mais aparece no nosso conjunto.
De acordo com esta tabela, percebemos que o número 5 é o mais frequente, portanto este valor representa a moda.
Uma outra maneira de visualizar isto é utilizar a representação gráfica, conforme podemos ver na figura a seguir:
O histograma é um gráfico de barras que apresenta a distribuição de frequências separadas por classes. Notamos que a classe modal corresponde a 4,20–5,80 e que o valor da nossa moda (5) pertence a essa classe.
Para determinar o número de classes deste histograma foi utilizada a regra de Sturges. Maiores detalhes podem ser encontrados neste link:
Mediana
Para obtermos a mediana, antes de tudo devemos colocar o nosso conjunto de dados em ordem crescente, isto levaria à seguinte sequência:
A mediana representa o valor que ocupa a posição central na sequência acima, neste caso este valor é 5. Devido ao fato de que a quantidade de entradas em nosso conjunto é ímpar (9 entradas) então a mediana é obtida diretamente.
Caso o nosso conjunto de dados tivesse quantidade par de entradas a obtenção da mediana ocorreria de forma diferente. Para exemplificar isto, iremos acrescentar uma entrada ao nosso conjunto de dados da seguinte forma:
Dessa vez, notamos que dois números ocupam a posição central. Quando isto ocorre significa que a mediana corresponde à média aritmética entre os dois valores centrais, ou seja:
Efeito da presença de “outlier” na média, moda e mediana
Antes de prosseguirmos com a análise deste efeito, faz-se necessário definir o que é um “outlier”. Pode-se traduzir “ao pé da letra” como ponto fora da curva. Contextualizando a dados, podemos dizer que “outlier” é um valor discrepante em relação aos demais do conjunto de dados. Se o leitor desejar aprofundar a leitura sobre “outlier” sugiro fortemente o seguinte artigo:
Agora, continuaremos com a análise.
Supondo que seja acrescentada a entrada do valor 50, o nosso conjunto de dados já ordenado em ordem crescente se tornaria este:
Notamos que o valor adicionado é bastante discrepante dos demais visando avaliar a influência do mesmo nas medidas iremos recalculá-las. Primeiro calcularemos a nova média:
Se compararmos ao antigo valor da média (aproximadamente 4,56) notamos que ao adicionarmos apenas 1 “outlier” a média quase dobrou de valor, passando de 4,56 para 9,1. Concluímos, dessa forma, que a média é uma medida de tendência central bastante influenciada pela presença de “outlier”.
Com o objetivo de determinar a nova moda, construiremos uma nova tabela contendo a frequência de cada número no conjunto de dados.
Através dessa tabela percebemos que o valor da nossa moda continua sendo 5 e, portanto, a presença do “outlier” não alterou em nada esta medida.
Seguindo a análise, obteremos dessa vez a nova mediana. Deve-se mencionar que por se tratar de um número par de entradas no conjunto de dados, conforme vimos anteriormente, sabemos que dois números ocupam a posição central na sequência ordenada de forma crescente. A figura abaixo demonstra isto:
Sendo assim, a mediana é dada pela média aritmética dos dois números que ocupam a posição central. O cálculo está a seguir:
Neste exemplo que abordamos percebemos que o valor da nova mediana é 5 sendo o mesmo valor da mediana obtida através do conjunto de dados sem a presença de “outlier”. Isso não quer dizer que a mediana não possa sofrer influencia em decorrência da presença de algum “outlier” no conjunto de dados, apenas nos mostra que para este exemplo mesmo diante de um “outlier” a mediana não sofreu alteração.
Diante da nossa análise podemos concluir que dentre essas 3 medidas avaliadas: média, moda e mediana; a média é a medida mais influenciável pela presença de “outliers”.
Cálculos da média, moda e mediana utilizando python
Nesta seção, demonstraremos como calcular essas três medidas de tendência central, utilizando o python. Vale mencionar que o conjunto de dados adotado é o mesmo informado no início do artigo.
1º Passo: Importar biblioteca
2º Passo: Definir o conjunto de dados
3º Passo: Calcular a média, a moda e a mediana
Média:
Moda:
Mediana:
Link do notebook contendo o algoritmo desenvolvido:
Referências:
MORETTIN, P. Estatística Básica. 6ª edição. São Paulo: Saraiva, 2010.
PINHEIRO, J. Estatística Básica: A arte de trabalhar com dados. Rio de Janeiro: Elsevier, 2009.
YAMAMOTO, Jorge. Como calcular o número de classes de um histograma pela regra de Sturges. GEOKRIKAGEM, 2021. Disponível em: <https://geokrigagem.com.br/numero_classes_histograma_regra_sturges/#:~:text=A%20Regra%20de%20Sturges%20%C3%A9,conforme%20a%20Regra%20de%20Sturges.>Acesso em: 17 de jun. de 2022.