Correlação e Coeficiente de Pearson

mede o grau de correlação entre duas variáveis

3 min readJan 15, 2024

Como analisar o comportamento de duas variáveis simultaneamente?

O salário de um colaborador tende a aumentrar dado os seus anos de carreira? A taxa de fraude aumenta ou diminui por nível de escolaridade do cliente? Essas são algumas perguntas que podemos responder utilizando o Coeficiente de Correlação de Person.

Na análise de duas variáveis, temos 3 possibilidades:

Duas variáveis qualitativas

2. Duas variáveis quantitativas

3. Uma variável qualitativa e a outra quantititiva

Por exemplo: foi feito uma pesquisa com os colaboradores de uma empresa, analisando o salário e o tempo de carreira. Veja que são duas variáveis quantitativas. Para melhor visualização, há o gráfico de dispersão:

Perceba que há uma relação entre as duas variáveis, quanto mais tempo de carreira, o salário tende a aumentar. Isso é definido como correlação positiva forte.

Como medir?

Onde:

X e Y são as variáveis a serem analisadas
n é o número total de observações
Xi e Yi são os valores individuais das duas variáveis nas observações i.
x̅ e ȳ são as médias das variáveis X e Y, respectivamente.

Correlação positiva

Quanto X aumenta, Y também aumenta.

Correlação inexistente

Não há relação entre as variáveis X e Y.

Correlação negativa

Quanto X aumenta, Y diminui.

Exemplo

Poderíamos calcular o Coeficiente de Pearson na mão, mas seria muito trabalhoso por conta do número de observações. Portanto, segue o código em python para calcular o Coeficiente de Pearson e ainda visualizar graficamente:

#bibliotecas necessárias
import pandas as pd
import seaborn as sns

#import e filtro do dataset
df_corr_pos = pd.read_csv("https://raw.githubusercontent.com/gustavo-candidoo/data-science/main/regressao%20linear/base_funcionarios_v3%20.csv")
df_corr_pos = df_corr_pos[['Salario', 'Tempo_de_Carreira']]


#gráfico de correlação
sns.heatmap(df_corr_pos.corr(),
            cmap='RdBu_r',
            vmin=-1, vmax=1,\
            annot=True)

E o resultado é um mapa de calor da correlação entre as duas variáveis:

Coeficientes e Interpretação

A tabela abaixo mostra os possíveis coeficientes e sua interpretabilidade.

Tabela de interpretação dos coeficientes

O Coeficiente de Correlação de Pearson varia entre -1 e 1 e indica:

Correlação positiva forte: coeficiente próximo a 1
Correlação inexistente: coeficiente próximo a 0
Correlação negativa forte: coeficiente próximo a -1

Portanto, no nosso exemplo de salário e tempo de carreira, obtívemos um Coeficiente de Pearson de 0.71, que segundo a tabela, é um coeficiente positivamente forte.

Conclui-se que o salário tende a aumentar, na grande maioria das vezes, na medida que o tempo de carreira também aumenta.

O que aprendemos nesse artigo?

O que é correlação
Correlação não é causalidade
Coeficiente de Correlação de Pearson
Como calcular em python
Interpretabilidade dos coeficientes

Links e referências

Para aprender mais sobre Data Science, acompanhe meu LinkedIn.

Esse artigo foi produzido com auxílio do curso de estatística da Preditiva AI.