Correlação e Coeficiente de Pearson
mede o grau de correlação entre duas variáveis
Como analisar o comportamento de duas variáveis simultaneamente?
O salário de um colaborador tende a aumentrar dado os seus anos de carreira? A taxa de fraude aumenta ou diminui por nível de escolaridade do cliente? Essas são algumas perguntas que podemos responder utilizando o Coeficiente de Correlação de Person.
Na análise de duas variáveis, temos 3 possibilidades:
- Duas variáveis qualitativas
2. Duas variáveis quantitativas
3. Uma variável qualitativa e a outra quantititiva
Por exemplo: foi feito uma pesquisa com os colaboradores de uma empresa, analisando o salário e o tempo de carreira. Veja que são duas variáveis quantitativas. Para melhor visualização, há o gráfico de dispersão:
Perceba que há uma relação entre as duas variáveis, quanto mais tempo de carreira, o salário tende a aumentar. Isso é definido como correlação positiva forte.
Como medir?
Onde:
- X e Y são as variáveis a serem analisadas
- n é o número total de observações
- Xi e Yi são os valores individuais das duas variáveis nas observações i.
- x̅ e ȳ são as médias das variáveis X e Y, respectivamente.
Correlação positiva
Quanto X aumenta, Y também aumenta.
Correlação inexistente
Não há relação entre as variáveis X e Y.
Correlação negativa
Quanto X aumenta, Y diminui.
Exemplo
Poderíamos calcular o Coeficiente de Pearson na mão, mas seria muito trabalhoso por conta do número de observações. Portanto, segue o código em python para calcular o Coeficiente de Pearson e ainda visualizar graficamente:
#bibliotecas necessárias
import pandas as pd
import seaborn as sns
#import e filtro do dataset
df_corr_pos = pd.read_csv("https://raw.githubusercontent.com/gustavo-candidoo/data-science/main/regressao%20linear/base_funcionarios_v3%20.csv")
df_corr_pos = df_corr_pos[['Salario', 'Tempo_de_Carreira']]
#gráfico de correlação
sns.heatmap(df_corr_pos.corr(),
cmap='RdBu_r',
vmin=-1, vmax=1,\
annot=True)
E o resultado é um mapa de calor da correlação entre as duas variáveis:
Coeficientes e Interpretação
A tabela abaixo mostra os possíveis coeficientes e sua interpretabilidade.
O Coeficiente de Correlação de Pearson varia entre -1 e 1 e indica:
- Correlação positiva forte: coeficiente próximo a 1
- Correlação inexistente: coeficiente próximo a 0
- Correlação negativa forte: coeficiente próximo a -1
Portanto, no nosso exemplo de salário e tempo de carreira, obtívemos um Coeficiente de Pearson de 0.71, que segundo a tabela, é um coeficiente positivamente forte.
Conclui-se que o salário tende a aumentar, na grande maioria das vezes, na medida que o tempo de carreira também aumenta.
O que aprendemos nesse artigo?
- O que é correlação
- Correlação não é causalidade
- Coeficiente de Correlação de Pearson
- Como calcular em python
- Interpretabilidade dos coeficientes
Links e referências
Para aprender mais sobre Data Science, acompanhe meu LinkedIn.
Esse artigo foi produzido com auxílio do curso de estatística da Preditiva AI.