Correlação e Coeficiente de Pearson

mede o grau de correlação entre duas variáveis

Gustavo Candido
3 min readJan 15, 2024
Photo by Jonathan Ridley on Unsplash

Como analisar o comportamento de duas variáveis simultaneamente?

O salário de um colaborador tende a aumentrar dado os seus anos de carreira? A taxa de fraude aumenta ou diminui por nível de escolaridade do cliente? Essas são algumas perguntas que podemos responder utilizando o Coeficiente de Correlação de Person.

Na análise de duas variáveis, temos 3 possibilidades:

  1. Duas variáveis qualitativas

2. Duas variáveis quantitativas

3. Uma variável qualitativa e a outra quantititiva

Por exemplo: foi feito uma pesquisa com os colaboradores de uma empresa, analisando o salário e o tempo de carreira. Veja que são duas variáveis quantitativas. Para melhor visualização, há o gráfico de dispersão:

Perceba que há uma relação entre as duas variáveis, quanto mais tempo de carreira, o salário tende a aumentar. Isso é definido como correlação positiva forte.

Como medir?

Coeficiente de Correlação de Pearson

Onde:

  • X e Y são as variáveis a serem analisadas
  • n é o número total de observações
  • Xi​ e Yi​ são os valores individuais das duas variáveis nas observações i.
  • x̅ e ȳ são as médias das variáveis X e Y, respectivamente.
Coeficiente e seus gráficos

Correlação positiva

Quanto X aumenta, Y também aumenta.

Fonte: SimplyPsychology

Correlação inexistente

Não há relação entre as variáveis X e Y.

Fonte: SimplyPsychology

Correlação negativa

Quanto X aumenta, Y diminui.

Fonte: SimplyPsychology

Exemplo

Poderíamos calcular o Coeficiente de Pearson na mão, mas seria muito trabalhoso por conta do número de observações. Portanto, segue o código em python para calcular o Coeficiente de Pearson e ainda visualizar graficamente:

#bibliotecas necessárias
import pandas as pd
import seaborn as sns

#import e filtro do dataset
df_corr_pos = pd.read_csv("https://raw.githubusercontent.com/gustavo-candidoo/data-science/main/regressao%20linear/base_funcionarios_v3%20.csv")
df_corr_pos = df_corr_pos[['Salario', 'Tempo_de_Carreira']]


#gráfico de correlação
sns.heatmap(df_corr_pos.corr(),
cmap='RdBu_r',
vmin=-1, vmax=1,\
annot=True)

E o resultado é um mapa de calor da correlação entre as duas variáveis:

Heat Map

Coeficientes e Interpretação

A tabela abaixo mostra os possíveis coeficientes e sua interpretabilidade.

Tabela de interpretação dos coeficientes

O Coeficiente de Correlação de Pearson varia entre -1 e 1 e indica:

  • Correlação positiva forte: coeficiente próximo a 1
  • Correlação inexistente: coeficiente próximo a 0
  • Correlação negativa forte: coeficiente próximo a -1

Portanto, no nosso exemplo de salário e tempo de carreira, obtívemos um Coeficiente de Pearson de 0.71, que segundo a tabela, é um coeficiente positivamente forte.

Conclui-se que o salário tende a aumentar, na grande maioria das vezes, na medida que o tempo de carreira também aumenta.

O que aprendemos nesse artigo?

  • O que é correlação
  • Correlação não é causalidade
  • Coeficiente de Correlação de Pearson
  • Como calcular em python
  • Interpretabilidade dos coeficientes

Links e referências

Para aprender mais sobre Data Science, acompanhe meu LinkedIn.

Esse artigo foi produzido com auxílio do curso de estatística da Preditiva AI.

--

--

Gustavo Candido

Estudante de Sistemas de Informação na ESPM - SP. Alguém interessado em ciência de dados, computação e matemática.