Paradoxo de Simpson: uma abordagem em R

Por Douglas Cardoso

FEA.dev
FEA.dev
5 min readNov 4, 2021

--

Quando estamos fazendo uma análise de dados, quase sempre temos que tomar cuidado para não cair em algumas pegadinhas contidas nas amostras que podem nos fazer achar e inferir algo que, na verdade, é outra coisa. Por conta disso, os queridos os estatísticos sempre nos oferecem algum famoso teste estatístico para sabermos, com algum nível de certeza, certo aspecto dos nossos dados. Por exemplo, para sabermos se os dados são normalizados ou não, temos quatro principais testes: D’Agostino-Pearson, Anderson-Darling, Shapiro-Wilk e Kolmogorov-Smirnov. Há diversas opções de testes para diferentes elementos estatísticos e, essencialmente, eles servem para que não cometamos algum erro que, de outra forma, poderíamos ter evitado. Neste artigo, irei apresentar uma dessas “pegadinhas estatísticas”, com uma pitada de programação em R e alguns gráficos bonitinhos. Vamos lá!

Para começar, irei apresentar a primeira base de dados que utilizaremos.

Palmerpenguins

A base de dados palmerpenguins é um pacote no R que contém dois datasets com dados reais, coletados em documentos oficiais, de três pinguins em três ilhas no Arquipélago de Palmer, na Antártica. Esses datasets contém dados sobre tamanho de bico, tamanho da asa e peso corporal dos pinguins, o que nos oferece boas amostras para fazermos gráficos e análises estatísticas, servindo como uma substituta de outra famosa base de dados, a iris.

Aqui, demonstro as cinco primeiras linhas de nosso dataset. Temos 8 colunas e dados numéricos e textuais.

Output:

Indo direto ao ponto, temos a seguinte tarefa: fazer um gráfico com a reta de regressão linear simples entre a profundidade do bico e o tamanho do bico de todos os pinguins na amostra. Muito difícil? Vamos ver!

Utilizaremos as colunas bill_depth_mm e bill_length_mm, a primeira no eixo x e a segunda no eixo y. Para fazermos isso no R, utilizaremos o operador pipe %>% , a biblioteca magrittr e a bibilioteca ggplot2 (necessária para fazer gráficos). A princípio, irei apenas plotar os dados em um gráfico de dispersão (aquele de pontinhos!).

Output:

Visualmente você, leitor, chutaria que os dados estão caminhando para qual direção? Cima? Baixo? Reto? Fica difícil né? É por isso que temos mecanismos para entender essas relações sem precisar forçar nossa visão a tal ponto. Nesse caso, utilizaremos da regressão linear, método que permite traçar uma linha reta no nosso gráfico capturando essa tendência.

Output:

E aí? Acertou a direção? A interpretação que damos a esse gráfico é a seguinte: a relação entre a profundidade do bico e o tamanho do bico é decrescente, isto é, quando maior bill_depth_mm menor é o valor de bill_length_mm, visto que a reta de regressão linear entre os dois tem inclinação para baixo (apesar da magnitude dessa inclinação ser pequena). É basicamente isso que o gráfico mostra. De forma mais precisa, estatisticamente falando, poderíamos dizer que, pela análise visual, essas duas variáveis possuem correlação negativa entre si.

Antes de partirmos para a pegadinha que nos aguarda, irei deixar nosso gráfico mais estiloso:

Output:

O Paradoxo de Simpson

Agora que sabemos a relação entre a largura e comprimento do bico entre todos os pinguins, seria interessante vermos essa mesma relação mas separado por espécie. Vamos ao R.

Output:

Opa? O que aconteceu com a inclinação da reta? Inverteu! Recapitulando: quando plotamos a reta de regressão linear nos dados sem discriminação, ela se inclina para baixo. Mas, quando discriminamos por espécie, ela se inclina para cima.

Perceba que essa pegadinha é, por falta de uma palavra melhor, sagaz: com o primeiro gráfico poderíamos facilmente concluir que o tamanho e a profundida do bico possuem correlação negativa — e não teríamos porque desconfiar dessa afirmação, mas, quando adicionamos um “pequeno detalhe”, a conclusão não é apenas outra, como também exatamente a inversa da conclusão original!

Isso é o Paradoxo de Simpson:

Se refere à existência de dados com associações estatística que se mantém para a população total, porém se invertem para toda subpopulação.

O paradoxo foi descrito pelo matemático e estatístico Edward Simpson em um artigo em 1951, apesar de efeito similares serem descritos anteriormente por outros estatísticos.

Há diversos exemplos envolvendo este paradoxo, e suas aplicações envolvem desde abstrações simples, como a que fizemos com o dataset dos pinguins, à amostras sobre saúde. Mas, diante dessas conclusões, o que fazer para evitar ou resolver o paradoxo?

Pensar causalmente na decisão entre ou segregar os dados em grupos ou agregá-los

Pensar causalmente é refletir em como os dados foram gerados e quais fatores influenciam seus resultados, incluindo os fatores que não constam em nossos dados. Perceba que não existe uma fórmula única para se decidir o que fazer. Uma das mais famosas aplicações do Paradoxo de Simpson é relacionado à saúde, o que carrega um peso de responsabilidade a mais por parte do analista, já que muitas vezes a decisão terá repercussão sobre a própria vida de seres humanos.

O que podemos aprender de pontos chaves nesse artigo é:

  • Os dados que temos não são o fim da história, é preciso considerar o processo de geração desses dados
  • Podemos ser facilmente enganados e para isso precisamos valorizar e utilizar os testes estatísticos quando for conveniente
  • Think causally

Abaixo deixo duas recomendações sobre o tema:

--

--

FEA.dev
FEA.dev
Editor for

Somos uma entidade estudantil da FEA-USP. Temos como objetivo unir o mundo dos negócios com o universo da programação, criando conteúdo e conectando estudantes.