Como usar o diagrama Boxplot para descrever uma amostra de dados

Claudio Siervi
4 min readAug 14, 2019

--

Um diagrama de caixa, ou boxplot, ou box and whisker plot, ou aquele quadradinho com um risco no meio e dois rabinhos, é um método gráfico utilizado para visualizar a dispersão em amostras de dados.

A maior vantagem do diagrama de caixa é a possibilidade do pesquisador poder comparar diferentes amostras de dados em um mesmo gráfico ao invés das indigestas tabelas. Pois não é novidade para ninguém que os gráficos (não precisam ser muito elaborados) facilitam muito a interpretação dos dados e, por consequência, a tomada de decisão.

Estatísticas usadas no boxplot

Para construir um boxplot utilizamos apenas medidas de posição — que são estatísticas calculadas com base na frequência de ocorrência dos dados (ordenados).

As medidas de posição empregadas no boxplot são fáceis de calcular e por isso são bastante populares, tanto que são conhecidas como resumo dos cinco números:

  • Mínimo —menor valor na amostra, dentro do critério de seleção de outliers;
  • Q1(primeiro quartil) — separa os 25% valores inferiores dos 75% superiores;
  • Q2 (segundo quartil) — separa os 50% valores inferiores dos 50% superiores (mediana);
  • Q3 (terceiro quartil) — separa os 75% valores inferiores dos 25% superiores;
  • Máximo — maior valor na amostra dentro do critério de seleção de outliers.

De forma geral, temos que o resumo dos cinco números é:

Interpretando o diagrama

Por definição, temos que a mediana de uma amostra é o centro da distribuição de dados.

Mas o que isto que dizer? Quer dizer que após ordenarmos nossa série de dados a mediana é o valor do meio (centro). E se nosso conjunto de dados tem uma quantidade par de elementos e por isso temos dois valores no meio? Nestes caso, a mediana é a média simples dos dois valores centrais.

Disto, podemos dizer que uma amostra tem distribuição simétrica quando há um mesmo número de observações em ambos os lados da mediana. Se uma amostra não tem distribuição simétrica, observa-se então uma inclinação para algum dos lados do boxplot, como é o caso da figura a abaixo.

Interpretação do boxplot. Adaptado de (COLEMAN, 2015) [4].

Uma amostra com distribuição assimétrica positiva apresenta a parte mais longa da caixa à esquerda, enquanto que uma distribuição assimétrica negativa apresenta a parte mais longa da caixa à direita.

Ainda em relação aos quantis, temos que a variabilidade da amostra é dada pela amplitude do intervalo interquartílico (IQR) — IQR Score, definido como a diferença entre o terceiro e o primeiro quartíl:

Cálculo de Valores Atípicos (Outliers)

Os outliers, ou em português: valores atípicos ou valores aberrantes. São valores de uma amostra que são acusados por algum critério de corte como sendo valores fora do padrão observado no conjunto de dados analisado. Ou seja, estes são valores muito diferentes dos demais e por isto demandam atenção.

A técnica de seleção de outliers mais comum encontrada nos frameworks por aí é o critério de John Tukey. De forma resumida, este considera como outliers as observações (x) da amostra que estão fora do intervalo:

Para se ter uma ideia do isso significa. Se supormos que nossa amostra tem distribuição normal e aplicarmos o critério de Tukey temos que o multiplicador no valor de 1,5 abrange aproximadamente 99% dos valores da amostra — que é aproximação da “regra 3σ” de Chebyshev.

Frameworks estatísticos

No R temos critério de Tukey implementado tanto na função boxplot nativa quanto na função boxplot do pacote ggplot2. No Python este critério está implementado no pacote Pandas — na função pandas.DataFrame.boxplot.

Nestes pacotes é possível alterar o valor padrão do critério de Tukey (1,5) para definir outros patamares de corte para a seleção de outliers.

Atenção aqui! Muita atenção!

É preciso ter em mente que nem sempre um outlier decorre de erros de medição ou falhas de dados. Muitas vezes, os outliers são cisnes negros que nos trazem importantes informações sobre o experimento ou processo analisado.

Recapitulando

  • A mediana é o centro da distribuição;
  • A amplitude representa a dispersão da amostra;
  • O “retangulo” do bloxplot contém 50% das observações da amostra;
  • A mediana, ou "risco no meio retângulo", nos dá informações sobre a assimetria da distribuição.

Para saber mais… Algumas referências:

  • SHIMAKURA, S. CE701 — Bioestatística Avançada I, 2005. Disponível: <http://www.leg.ufpr.br/~silvia/CE701/node3.html>. Acesso em: 21 junho 2019.
  • MAYER, F. P. Medidas Resumo, 2016. Disponível:<http://leg.ufpr.br/~fernandomayer/aulas/ce001n-2016-01/03_Medidas_resumo/03_Medidas_resumo.pdf>. Acesso em: 11 setembro 2019.
  • LITTLE, J. B. Modeling and Data Analysis: An Introduction with Environmental Applications. Providence, Rhode Island: American Mathematical Society, 2019, pg. 205.
  • COLEMAN, B. D. Box Plot with Minitab. Site da Lean Sigma Corporation, 2015. Disponível: <https://www.leansigmacorporation.com/box-plot-with-minitab/>. Acesso em: 12 junho 2019.

--

--