Medidas de Dispersão

Neste artigo, iremos abordar algumas medidas de dispersão, apresentando seus conceitos e cálculos, bem como demonstrando a aplicação destes cálculos utilizando a linguagem de programação Python

Gustavo Lenin
6 min readAug 1, 2022
Photo by Ellen Qin on Unsplash

As medidas de dispersão têm um grande papel em uma análise de um conjunto de dados isso porque elas nos dão informações a respeito da variabilidade daquele conjunto. Dessa forma, consoante ao que diz Morettin (2010):

“O resumo de um conjunto de dados por uma única medida representativa de posição central esconde toda a informação sobre a variabilidade do conjunto de observações”.

Notamos que embora as medidas de tendência central também sejam relevantes em uma análise de dados, elas não conseguem nos fornecer todas as informações que precisamos. Se o leitor tiver interesse na leitura sobre medidas de tendência central sugiro o artigo a seguir:

Para exemplificação da falta de representatividade que as medidas de tendência central possuem a respeito do grau de variabilidade de um conjunto de dados, iremos considerar os 4 conjuntos a seguir:

  • Conjunto 1: 7, 3, 2, 7, 1
  • Conjunto 2: 4, 4, 4, 4, 4
  • Conjunto 3: 8, 8, 1, 1, 2
  • Conjunto 4: 6, 4, 4, 2, 4

Amplitude

Uma das formas de se observar a dispersão dos dados é verificar a amplitude de cada um destes conjuntos, ou seja, a diferença entre o maior e o menor valor, onde um maior valor de amplitude sugere uma maior dispersão, dessa forma, obteremos:

  • Amplitude 1 → 7 - 1 = 6
  • Amplitude 2 → 4 - 4 = 0
  • Amplitude 3 → 8 - 1 = 7
  • Amplitude 4 → 6 - 2 = 4

Entretanto, a amplitude fornece apenas uma informação a respeito da distância entre os extremos, não informa nada a respeito das distribuições do conjunto, desse modo conjuntos com a mesma amplitude podem apresentar distribuições bastante diferentes.

Gráficos de Dispersão

Nesse momento, plotaremos um gráfico de dispersão para cada um dos conjuntos de dados com o auxílio do Excel:

Gráficos de dispersão para cada um dos 4 conjuntos de dados

Todos os conjuntos de dados apresentados anteriormente possuem média igual a 4, entretanto pelos gráficos podemos ver que a distribuição dos dados é bem diferente para cada um dos conjuntos. Portanto, fica mais do que clara a necessidade da utilização das medidas de dispersão uma vez que isso irá nos possibilitar ter informações a respeito do grau de variabilidade de um conjunto de dados, nos permitindo inclusive realizar comparações entre esses diferentes conjuntos.

Variância e Desvio Padrão

Um dos critérios bastante utilizados para embasamento destas comparações é medir a dispersão dos dados em torno de sua média. Tendo como base este critério, surgem duas medidas: a variância e o desvio padrão.

Portanto, se calcularmos a variância e o desvio padrão para cada um dos conjuntos de dados, obteremos os seguintes resultados:

Um maior valor de desvio padrão significa uma maior dispersão na distribuição dos dados, portanto, concluímos que o segundo conjunto apresenta menor grau de dispersão dos dados, facilmente notável pela observação do gráfico exposto anteriormente.

Obs: Vale lembrar que quando se trata de amostra, as equações para cálculo da variância e do desvio padrão sofrem uma pequena alteração conforme nota-se a seguir:

Embora o desvio padrão seja bastante importante para a análise de um conjunto de dados, assim como a média, ele não é plenamente suficiente para representação do conjunto uma vez que não fornece informações a respeito da simetria ou assimetria da distribuição dos dados bem como é muito influenciável pela presença de outliers.

P-quantil

Uma medida que pode ser definida para contornar essa situação é o p-quantil, a qual é representada por: q(p), onde p representa uma proporção entre 0 e 1. Para ficar mais claro o entendimento, vejamos o exemplo a seguir:

q(0,10) = 5

A interpretação deste caso é que o 10%-quantil (p = 10%) indica que 10% das observações contidas no conjunto de dados são menores ou iguais ao valor 5. Alguns dos quantis são bastante conhecidos, dentre eles: 1º Quartil (Q1), 2º Quartil (Q2) e 3º Quartil (Q3).

O Q2 equivale à mediana do conjunto de dados ao passo que o Q1 e Q3 representam, nesta ordem, o 25º percentil e o 75º percentil. Dessa forma, 25% das observações são inferiores ao valor do Q1, de maneira análoga, 75% das observações são inferiores ao valor do Q3.

Para exemplificar o cálculo de cada um destes quantis será utilizado o conjunto de dados 1. O primeiro passo é ordenar o conjunto em ordem crescente, como pode ser visto a seguir:

  • Conjunto de dados 1 ordenado = 1, 2, 3, 7, 7.

Em seguida, obteremos a mediana, ou seja, o Q2 = 3. Tendo determinado a mediana utilizaremos a mesma para separar o conjunto em duas partes, sendo elas: parte 1 → 1, 2; parte 2 → 7, 7. Para obter o 1º e 3º Quartil basta obter a mediana da parte 1 e da parte 2 respectivamente. Portanto, Q1 = 1,5 e Q3 = 7.

O intervalo interquartil (IQR) é definida por: IQR= Q3 - Q1.

Sabendo destes conceitos, podemos finalmente realizar a construção de um gráfico bastante utilizado para visualização da distribuição de uma determinada variável quantitativa, o boxplot.

Boxplot

Boxplot ou diagrama de caixa é um gráfico que resume diversas informações a respeito da distribuição dos dados bem como permite a visualização de “outliers”. Para construção deste gráfico utilizamos algumas medidas como: máximo, mínimo, Q1, Q2 e Q3, conforme pode ser visto a seguir:

Fonte: https://operdata.com.br/blog/como-interpretar-um-boxplot/

Se observarmos o boxplot apresentado acima percebemos que a mediana não ocupa a posição central da região retangular, neste caso, ela ocupa uma posição um pouco abaixo do centro. Dessa forma, concluímos que a distribuição de dados é assimétrica positiva. Caso a mediana se localizasse na parte superior (acima do centro) significaria que a distribuição seria assimétrica negativa. Por último, se a mediana fosse localizada exatamente no centro resultaria em uma distribuição simétrica.

Seguindo o critério de John Tukey, pode-se calcular os máximos e mínimos presentes na figura anterior da seguinte forma:

  • Os valores que estão acima do limite superior ou abaixo do limite inferior são considerados “outliers”.

Implementação em Python

O notebook contendo a implementação em Python dos cálculos mencionados neste artigo está disponível a seguir:

Referências

MORETTIN, P. Estatística Básica. 6ª edição. São Paulo: Saraiva, 2010.
PINHEIRO, J. Estatística Básica: A arte de trabalhar com dados. Rio de Janeiro: Elsevier, 2009.
OLIVEIRA, B. Boxplot: Como interpretar? OPERDATA, 2019. Disponível em: <https://operdata.com.br/blog/como-interpretar-um-boxplot/> Acesso em: 28 de jul. de 2022.

--

--