Entendendo correlação de coração

Entendendo o que é correlação de Pearson, r, r², o que é covariância e o que é variância compartilhada

Published in

Datapsico

11 min readDec 4, 2020

No teatro, decorar é trazer ao “core” — é entender de coração. Esse post tem o objetivo de fazer você entender, de verdade, o que é uma correlação de Pearson — o que eu tô chamando aqui, simplesmente, de correlação. Uma das partes mais importantes no início do processo de exploração de dados é entender como cada variável se relaciona entre si. Essa “relação entre variáveis” é o que estamos chamando aqui de correlação. As perguntas que se podem fazer para chegar à necessidade de se realizar uma correlação são as seguintes:

Essas duas variáveis que estou vendo estão associadas?
Essas variáveis são fortemente ou fracamente associadas?
Se elas estão associadas, estão associadas de qual forma? Positiva ou negativamente?

O que é correlação?

A correlação é uma medida que informa o quanto uma variável está relacionada a outra variável. Isto é, o quanto a variação em uma variável acompanha a variação em outra variável.

O número da correlação geralmente vai de -1 a 1.

Um exemplo de correlação ocorre entre as variáveis depressão e ansiedade. Não é incomum uma pessoa com sintomas de ansiedade estar também apresentando sintomas de depressão, e vice-versa.

Ou seja, essas duas variáveis estão correlacionadas. A variação em uma delas vai ser acompanhada pela variação na outra variável. Vamos continuar nesse exemplo indo por partes.

Os sintomas de depressão podem incluir tristeza, falta de ânimo e dificuldade de reter interesse. Já os sintomas de ansiedade estão relacionados a agitação, a uma pessoa sentir que está prestes a entrar em pânico e a uma pessoa sentir-se assustada sem motivo (veja o artigo de Patias, Machado, Bandeira, & Dell’Aglio).

Quando a depressão de uma pessoa aumenta, o seu nível de ansiedade tende a aumentar junto. Quando a depressão de uma pessoa diminui, seu nível de ansiedade tende a diminuir junto.

Da mesma forma, quando a ansiedade de uma pessoa aumenta, o seu nível de depressão tende a aumentar junto. Quando a ansiedade de uma pessoa diminui, seu nível de depressão tende a diminuir junto.

A variação da depressão acompanha a variação da ansiedade, assim como a variação da ansiedade acompanha a variação da depressão. Ou seja, essas variáveis andam juntas. Melhor ainda, a correlação entre elas é positiva (entre 0 e 1). Isso porque quando uma aumenta, a outra tende a aumentar; quando uma diminui, a outra tende a diminuir. Caso o aumento de uma seja acompanhado pela diminuição na outra, estaríamos na presença de uma correlação negativa.

De toda a forma, em termos estatísticos, pode-se dizer que depressão e ansiedade possuem variância compartilhada. Essa variância compartilhada entre as duas variáveis é chamada de covariância.

Aí vai uma figura mostrando uma correlação linear indo de 1 até -1.

https://algobeans.com/2016/01/31/regression-correlation-tutorial/

Entender a covariância e de onde ela surge é a chave para entender o que é correlação. Antes de passarmos aos cálculos, aos exemplos!

100% juntinhas

Digamos que estamos medindo depressão e também ansiedade, em duas escalas separadas, cada uma dessas indo de 1 a 10. Uma pessoa, em um primeiro momento, marca 7 em depressão e 7 em ansiedade. Um mês depois, ela marca 5 no escore de depressão e 5 no escore de ansiedade. Passados mais três meses, as mesmas escalas são aplicadas, e a pessoa marca 6 em depressão e 6 em ansiedade.

Esse é o cenário:

Depressão: 7, Ansiedade: 7
Depressão: 5 (-2), Ansiedade: 5 (-2)
Depressão: 6 (+1), Ansiedade: 6 (+1)

O que isso nos diz sobre essas duas variáveis? Isso nos diz que as duas variáveis possuem uma variância compartilhada de 100% — uma alteração em uma variável é acompanhada por uma mudança de igual magnitude na outra variável.

Outro cenário que compartilharia uma variância de 100% seria o seguinte:

Depressão: 7, Ansiedade: 5
Depressão: 5 (-2), Ansiedade: 3 (-4)
Depressão: 6 (+1), Ansiedade: 4 (+2)

Essa covariância segue sendo de 100%! Isso acontece porque, embora ansiedade possua o dobro de mudanças apresentado por depressão, essa mudança possui sempre a mesma magnitude em relação às mudanças da depressão.

Agora, imagine que depressão está sendo medida de 0 a 100, e ansiedade continua sendo medida de 0 a 10. Dê uma olhada nesse cenário:

Depressão: 70, Ansiedade: 5
Depressão: 50 (-20), Ansiedade: 3 (-2)
Depressão: 60 (+10), Ansiedade: 4 (+1)

De 0 a 100%, o quanto de variância você espera que essas variáveis compartilhem?

A resposta correta continua sendo 100%! Isso porque as mudanças em depressão foram acompanhadas por mudanças de igual magnitude na variável ansiedade.

A correlação de todos os cenários acima é de 1. Uma correlação positiva perfeita.

Correlação negativa

Do mesmo jeito que a covariância pode ser positiva, ela pode ser negativa. Aqui está um exemplo de uma covariância negativa perfeita (-1).

Uma pessoa, em um primeiro momento, marca 7 em depressão e 7 em ansiedade. Um mês depois, ela marca 5 no escore de depressão e 9 no escore de ansiedade. Passados mais três meses, as mesmas escalas são aplicadas, e a pessoa marca 6 em depressão e 8 em ansiedade.

Esse é o cenário:

Depressão: 7, Ansiedade: 7
Depressão: 5 (-2), Ansiedade: 9 (+2)
Depressão: 6 (+1), Ansiedade: 8 (-1)

O que isso nos diz sobre essas duas variáveis? A resposta é a mesma de antes: isso nos diz que as duas variáveis possuem uma variância compartilhada de 100% — uma alteração em uma variável é acompanhada por uma mudança de igual magnitude na outra variável.

Ou seja, a magnitude permanece a mesma (100%), porém a direção das variações em uma variável é diferente da direção das variações na outra variável.

Essas variáveis possuem correlação negativa perfeita: -1.

Esse é o básico das correlações! Se quiser entender um pouco mais sobre o cálculo em si, continua lendo aí :)

Como se calcula a tal covariância?

A base para o cálculo da correlação é a covariância das duas variáveis. Enquanto isso, a base para o cálculo da covariância é a variância em si. E, se você lembrar desse post onde tratamos de medidas comuns em estatística, a base para o cálculo da variância é a média.

Assim, da média de cada variável estimaremos a variância para então descobrir a covariância. Da covariância, calcularemos a correlação.

Um exemplo com mais casos

Agora, vamos imaginar um exemplo mais complicado, no qual as alterações não possuam magnitude igual. Também, ao invés de termos apenas uma pessoa respondendo, vamos imaginar que cada linha representa a resposta de um participante diferente.

Esse é o novo cenário, agora com mais participantes e com uma tabela para ajudar:

Como saber o quanto essas variáveis estão andando juntas? Não podemos aqui ficar contando o quanto cada uma variou, assim como estávamos fazendo antes. Ora, do mesmo jeito, caso tivéssemos 20000 casos, não teríamos como acompanhar a mudança individual em cada um deles.

Antes de tudo, vamos visualizar como essas variáveis estão se relacionando a partir de um gráfico de dispersão:

Parece que um aumento em uma está acompanhado do aumento na outra. Essa linha ascendente é um bom sinal de covariância/correlação positiva. Perceba que quanto mais o Eixo X aumenta (depressão), maior tende a ser os valores encontrados no Eixo Y (ansiedade), e vice-versa.

Mesmo entendendo que a correlação é positiva, qual a força dessa associação? Entre -1 e 1, onde se encaixa o valor da associação acima?

Lembra que falamos da variância? Vamos iniciar entendendo o quanto cada variável varia consigo mesma.

Você pode estar se perguntando: “Ué, Gabriel, como assim varia consigo mesma? Em torno de que ela varia?”

Em torno da medida mais comum e mais falada por aí: a média. Vamos visualizar agora o quanto essas duas variáveis estão se comportando em torno de suas próprias médias:

O valor entre parênteses é a diferença entre o valor encontrado e a média da variável. Esse valor pode ser representado por (X — μ). Ele está presente lá na fórmula da variância.

Lembra da fórmula da variância? Ela tem tudo a ver com a covariância.

Note que ali no numerador, a primeira parte é (X — μ)². Esse é o erro ao quadrado em relação à média de uma variável. Enquanto na fórmula da variância esse erro é somado e multiplicado entre si, na covariância, é o erro relativo às duas variáveis que vai entrar na fórmula. Isso já está na tabela acima! O número entre parênteses é a diferença entre o valor e o erro.

Colocando de maneira mais simples, na variância temos (X — μ)(X — μ), já na covariância temos (X — μ)(Y — μ).

Essa é a fórmula de covariância:

Perceba que a única mudança é no numerador! Pois bem, vamos agora ver a primeira parte da covariância lá na nossa tabela. Para isso, vamos multiplicar os números entre parênteses de depressão e de ansiedade.

Note que já adicionamos ali no final o valor da soma de todos esses erros, que é 51! Agora, a covariância é simplesmente 51 / (n-1).

Já que temos 10 participantes, nosso denominador é 10–1 = 9.

Assim, a covariância entre depressão e ansiedade é
51 / 9 = 5.667

É fácil assim para achar a covariância! Olhando para o sinal da covariância, vemos que o valor 5.667 é positivo. Assim, essas duas variáveis estão positivamente relacionadas, assim como já tínhamos pensado.

Calculando a correlação

Temos um problema: apenas pelo número da covariância não temos como dizer a força dessa associação. Hipoteticamente, se depressão fosse medida de 0 a 100, o valor da covariância aumentaria somente porque depressão passou de 0 a 10 para de 0 a 100. Ou seja, a covariância não é uma boa medida para informar a força de associação.

A partir disso, a correlação surge para padronizar essa medida de covariância. Lembra que a correlação vai de -1 a 1?

Ela faz isso de forma relativamente simples: dividindo a covariância pela multiplicação do desvio-padrão de x e y.

O σ representa o desvio-padrão. Enquanto já temos o valor da covariância entre x e y (5.667), o desvio-padrão de depressão é 3.091; o desvio-padrão de ansiedade é 2.299.

Indo pela fórmula: 5.667 / (2.299 * 3.091) = 0.79

A correlação entre depressão e ansiedade é de 0.79!

Essa fórmula de correlação que vimos aqui se chama correlação de Pearson, também chamada de coeficiente de correlação de Pearson, r de Pearson (com aquele itálico ali no “r”), coeficiente de correlação produto-momento e correlação linear. É a fórmula mais comumente usada de correlação.

Uma coisa legal da correlação de Pearson é o r².

Quando fazemos o quadrado da correlação (o quadrado de r), o resultado disso é a porcentagem de variância compartilhada entre duas variáveis!

No exemplo dado, como r = 0.79, depressão e ansiedade possuiriam 62.41% de sua variância compartilhada.

Isso porque r² = 0.79 * 0.79 = 62.41

Isso significa que 62.41% da variação em depressão e ansiedade andam juntas! Olha que legal :)

Ah, todo esse cálculo anterior pode ser feito dessa forma no R:

# Criando variáveis
depressao <- c(7, 1, 2, 8, 10, 8, 5, 2, 3, 4)
ansiedade <- c(7, 3, 4, 9, 7, 6, 6, 4, 1, 5)

# Calculando erro em torno da média
erro_depressao <- depressao - mean(depressao)
erro_ansiedade <- ansiedade - mean(ansiedade)

# Calculando covariância
covar_numerador <- sum(erro_depressao * erro_ansiedade)
covar_denomidador <- length(depressao) - 1 # podia também ser length(ansiedade)

covariancia <- covar_numerador/covar_denomidador
covariancia
[1] 5.666667

# Calculando correlação
correlacao <- covariancia / (sd(depressao) * sd(ansiedade))
correlacao
[1] 0.7971086

cor(depressao, ansiedade) # Calculando direto com R
[1] 0.7971086

correlacao == cor(depressao, ansiedade)
[1] TRUE

Comentários finais

Aqui trabalhamos apenas com um tipo de correlação, a de Pearson. Como vimos aqui, toda a fórmula de correlação de Pearson depende da variação em torno da média.

Essa é uma limitação importante da fórmula de Pearson. Isso porque, para considerar a média na fórmula da correlação, se parte do pressuposto de que a média é um bom modelo de tendência central para as variáveis (se não sabe o que é isso, clica aqui). Por causa disso, a correlação de Pearson é um teste paramétrico. Ou seja, essa correlação entende que as variáveis são contínuas e que seguem a distribuição normal.

Assim, existem outros tipos de correlação, como por exemplo a correlação de Spearman: um tipo de correlação que calcula bem a associação de variáveis contínuas que não seguem a distribuição normal.

Outra coisa importante: não só variáveis contínuas podem ser calculadas. É possível calcular a correlação entre variáveis contínuas e categóricas (como sim/não), contínuas e ordinais (como escalas Likert e tipo-Likert), ordinais e ordinais, categóricas e categóricas, etc.

Discutiremos mais por aqui sobre esses tipos de correlação no futuro.

Correlação NÃO é causalidade

Um comentário final importantíssimo: correlação NÃO é causalidade. Imagine que você possua um banco com as variáveis ansiedade e idade.

Ao realizar a análise de correlação, o resultado sugere uma correlação de -0.3 entre idade e ansiedade. Isso significa que a ansiedade tende a diminuir durante o aumento da idade. Essa é a única interpretação possível para isso.

Você não pode interpretar que quanto mais velha uma pessoa é menor será a sua ansiedade. Ou que a ansiedade de uma pessoa tende a diminuir conforme ela envelhece.

Isso porque a correlação trata de duas variáveis que estão sendo mensuradas ao mesmo tempo. Para traçar causa e efeito, o ideal é a realização de um estudo longitudinal. Ainda no exemplo ansiedade e idade, seria necessário para esse estudo, em um primeiro momento, a mensuração da ansiedade de algumas pessoas. Algum tempo depois (meses ou anos), a ansiedade seria mensurada de novo. Se a ansiedade diminuiu, isso é um sinal de que a idade possui efeito sobre idade. Mesmo assim, ainda seria necessário mais tempo nesse estudo, mais momentos de coleta de dados, para se dizer com mais coerência que idade influi sobre ansiedade.

Contato

Espero que tenha gostado! Qualquer dúvida, observação ou comentário são muito bem-vindos! Fique à vontade para se manifestar e vamos aprender juntos 😄

Para falar comigo, é só entrar em qualquer um desses links.