Medidas de tendência central

Quando estamos analisando um conjunto de dados é bastante comum a utilização de medidas de tendência central, dentre elas: a média, a moda e a mediana. Neste artigo, iremos definir cada um desses conceitos e demonstrar como calcular estas medidas.

Gustavo Lenin
6 min readJul 21, 2022
Photo by Lukas Blazek on Unsplash

Muitas vezes, quando estamos analisando um conjunto de dados, desejamos expressar aquele conjunto através de um ou de alguns valores que sejam representativos de todo o conjunto de dados. É bastante comum fazer isto através da utilização de alguma das medidas de tendência central: média, moda ou mediana (Morettin, 2010).

No livro Estatística Básica - A Arte De Trabalhar Com Dados, o autor, João Pinheiro define uma medida de tendência central como:

“um ‘valor típico’ em torno do qual se situam os valores daquela variável”.

Antes de conceituarmos as medidas mencionadas anteriormente, definiremos o conjunto de dados que empregaremos em nossos exemplos.

Conjunto de dados

Média

A média aritmética corresponde a soma de todas as observações dividida pela quantidade de observações. O cálculo para este conjunto de dados ocorre da seguinte forma:

Moda

A moda corresponde ao valor mais frequente em um conjunto de dados. A seguinte tabela mostra a frequência de cada número e através dela podemos identificar com facilidade o número que mais aparece no nosso conjunto.

De acordo com esta tabela, percebemos que o número 5 é o mais frequente, portanto este valor representa a moda.

Uma outra maneira de visualizar isto é utilizar a representação gráfica, conforme podemos ver na figura a seguir:

Histograma feito no Excel

O histograma é um gráfico de barras que apresenta a distribuição de frequências separadas por classes. Notamos que a classe modal corresponde a 4,20–5,80 e que o valor da nossa moda (5) pertence a essa classe.

Para determinar o número de classes deste histograma foi utilizada a regra de Sturges. Maiores detalhes podem ser encontrados neste link:

https://geokrigagem.com.br/numero_classes_histograma_regra_sturges/#:~:text=A%20Regra%20de%20Sturges%20%C3%A9,conforme%20a%20Regra%20de%20Sturges

Mediana

Para obtermos a mediana, antes de tudo devemos colocar o nosso conjunto de dados em ordem crescente, isto levaria à seguinte sequência:

Conjunto de dados ordenado de forma crescente e mediana destacada em amarelo

A mediana representa o valor que ocupa a posição central na sequência acima, neste caso este valor é 5. Devido ao fato de que a quantidade de entradas em nosso conjunto é ímpar (9 entradas) então a mediana é obtida diretamente.

Caso o nosso conjunto de dados tivesse quantidade par de entradas a obtenção da mediana ocorreria de forma diferente. Para exemplificar isto, iremos acrescentar uma entrada ao nosso conjunto de dados da seguinte forma:

Dois números em amarelo ocupando a posição central

Dessa vez, notamos que dois números ocupam a posição central. Quando isto ocorre significa que a mediana corresponde à média aritmética entre os dois valores centrais, ou seja:

Efeito da presença de “outlier” na média, moda e mediana

Antes de prosseguirmos com a análise deste efeito, faz-se necessário definir o que é um “outlier”. Pode-se traduzir “ao pé da letra” como ponto fora da curva. Contextualizando a dados, podemos dizer que “outlier” é um valor discrepante em relação aos demais do conjunto de dados. Se o leitor desejar aprofundar a leitura sobre “outlier” sugiro fortemente o seguinte artigo:

Agora, continuaremos com a análise.

Supondo que seja acrescentada a entrada do valor 50, o nosso conjunto de dados já ordenado em ordem crescente se tornaria este:

Conjunto de dados com a presença do “outlier”

Notamos que o valor adicionado é bastante discrepante dos demais visando avaliar a influência do mesmo nas medidas iremos recalculá-las. Primeiro calcularemos a nova média:

Cálculo da média para o conjunto de dados com a presença do “outlier”

Se compararmos ao antigo valor da média (aproximadamente 4,56) notamos que ao adicionarmos apenas 1 “outlier” a média quase dobrou de valor, passando de 4,56 para 9,1. Concluímos, dessa forma, que a média é uma medida de tendência central bastante influenciada pela presença de “outlier”.

Com o objetivo de determinar a nova moda, construiremos uma nova tabela contendo a frequência de cada número no conjunto de dados.

Através dessa tabela percebemos que o valor da nossa moda continua sendo 5 e, portanto, a presença do “outlier” não alterou em nada esta medida.

Seguindo a análise, obteremos dessa vez a nova mediana. Deve-se mencionar que por se tratar de um número par de entradas no conjunto de dados, conforme vimos anteriormente, sabemos que dois números ocupam a posição central na sequência ordenada de forma crescente. A figura abaixo demonstra isto:

Dois números em amarelo ocupando a posição central

Sendo assim, a mediana é dada pela média aritmética dos dois números que ocupam a posição central. O cálculo está a seguir:

Cálculo da mediana para o conjunto de dados com a presença do “outlier”

Neste exemplo que abordamos percebemos que o valor da nova mediana é 5 sendo o mesmo valor da mediana obtida através do conjunto de dados sem a presença de “outlier”. Isso não quer dizer que a mediana não possa sofrer influencia em decorrência da presença de algum “outlier” no conjunto de dados, apenas nos mostra que para este exemplo mesmo diante de um “outlier” a mediana não sofreu alteração.

Diante da nossa análise podemos concluir que dentre essas 3 medidas avaliadas: média, moda e mediana; a média é a medida mais influenciável pela presença de “outliers”.

Cálculos da média, moda e mediana utilizando python

Nesta seção, demonstraremos como calcular essas três medidas de tendência central, utilizando o python. Vale mencionar que o conjunto de dados adotado é o mesmo informado no início do artigo.

1º Passo: Importar biblioteca

2º Passo: Definir o conjunto de dados

3º Passo: Calcular a média, a moda e a mediana

Média:

Moda:

Mediana:

Link do notebook contendo o algoritmo desenvolvido:

Referências:

MORETTIN, P. Estatística Básica. 6ª edição. São Paulo: Saraiva, 2010.
PINHEIRO, J. Estatística Básica: A arte de trabalhar com dados. Rio de Janeiro: Elsevier, 2009.
YAMAMOTO, Jorge. Como calcular o número de classes de um histograma pela regra de Sturges. GEOKRIKAGEM, 2021. Disponível em: <https://geokrigagem.com.br/numero_classes_histograma_regra_sturges/#:~:text=A%20Regra%20de%20Sturges%20%C3%A9,conforme%20a%20Regra%20de%20Sturges.>Acesso em: 17 de jun. de 2022.

--

--