Correlation on statistics
Direkomendasikan untuk membaca artikel terkait pemahaman skala pengukuran karena pada pembahasan kali ini penulis akan menggunakan beberapa istilah yang ada di skala pengukuran statistika. LINK 1 dan juga LINK 2
Sebelum membahas pada materi yang akan dibahas alangkah lebih baiknya menentukan tujuan objektif yang akan dicapai setelah membaca tulisan ini.
- Mengetahui pengertian dari korelasi
- Dapat melakukan pendeteksian korelasi melalui diagram atau grafik
- Mengetahui jenis-jenis koefisien korelasi
Setelah mengetahui tujuan objektif dari membaca tulisan ini maka langsung saja dimulai.
PENGERTIAN KORELASI
Korelasi adalah keterikatan antara dua variabel secara statistik. Perlu diingat bahwa korelasi tidak dapat digunakan untuk melihat sebab-akibat (hanya melihat ada tidaknya hubungan, tidak sampai pada siapa yang mempengaruhi dan siapa yang dipengaruhi).
Contoh simple yang ada dikehidupan nyata:
Korelasi: Semenjak kepemimpinan Presiden Jokowi bahan pokok naik.
Causation: Kenaikan bahan pokok disebabkan oleh inflasi yang terjadi.
Terdapat artikel yang menarik untuk dibaca agar dapat menambah pemahaman lebih terkait korelasi dan causation. Link
Diartikel tersebut menjelaskan pernyataan Ronald A. Fisher yang dijuluki sebagai Ayah dari modern statistik membantah bahwa riset yang dilakukan oleh the British Medical Research Council mengenai hanya dengan “rokok” dapat menyebabkan cancer. menurut Ronald A. Fisher penyakit cancer idealnya tidak semata-mata disebabkan oleh rokok saja melainkan terdapat banyak faktor yang dapat memungkinkan terjadinya hal itu dan juga karena tidak ada hasil studi atau penjelasan ilmiah yang menyatakan bahwa rokok dapat menyebabkan cancer. Untuk dapat memahami lebih jauh dapat langsung baca melalui link yang telah disediakan diatas.
PENDETEKSIAN KORELASI MENGGUNAKAN GRAFIK
Scatter plot merupakan diagram atau grafik yang digunakan untuk mengetahui pola hubungan antar variabel. perlu diingat kembali bahwa teknik seperti ini tidak dapat digunakan untuk mengambil sebuah kesimpulan sebab-akibat dari kedua variabel tersebut.
Digunakan untuk memperkuat bukti visual dari adanya hubungan sebab-akibat antar dua variabel dari sebuah teori atau penelitian terdahulu.
Kuat dan lemahnya korelasi ditentukan oleh koefisien korelasi (r)
Membuat scatter plot menggunakan python:
Sebelum itu download dataset yang akan digunakan disini
Langkah pertama adalah import libarary dan dataset yang akan digunakan:
import pandas as pd
import seaborn as sns
data = pd.read_csv("/content/Iris.csv")
Selanjutnya membuat grafik scatter plot untuk melihat korelasi antara variabel SepalLengthCm dan PetalWidthCm menggunakan kode berikut:
sns.scatterplot(x='SepalLengthCm', y='PetalWidthCm', data=data);
Terlihat bahwa kedua variabel tersebut memiliki korelasi positif. Untuk mengetahui tingkatan koefisien korelasi yang dapat terjadi adalah sebagai berikut:
KOEFISIEN KORELASI
Koefiesien korelasi (r) adalah ukuran kuantitatif dari tingkat korelasi untuk beberapa jenis korelasi, menyatakan hubungan secara statistik antara dua variabel.
Nilai dari koefisien korelasi ini berada dalam rentang interval -1 sampai +1. -1 menunjukkan bahwa tidak terdapat sama sekali hubungan yang terjadi antara kedua variabel tersebut sedangkan untuk +1 menunjukkan bahwa sangat memiliki hubungan yang terjadi antara kedua variabel tersebut.
Pearson
Mengukur kekuatan dan arah hubungan linier antara dua variabel. Digunakan untuk variabel INTERVAL dan RASIO. dinotasikan sebagai “rxy” atau “pxy”. Formula dari jenis Pearson correlation coefficient sebagai berikut:
Penjelasan dari formula diatas:
- PX,Y adalah pearson dari variabel X dan Y.
- cov(X, Y) adalah covariance dari variabel X dan Y.
- σX dan σY adalah standard deviation dari variabel X dan Y.
Kelebihan:
- Mudah untuk dipahami dan diinterpretasikan.
- Dapat menunjukkan kekuatan hubungan antara dua variabel.
Kekurangan:
- Hanya bagus jika datanya linear, apabila datanya non-linear hasil tidak akan akurat
- Korelasi tidak cocok untuk kategorikal data seperti gender dan hair colour
Berikut adalah kemungkinan value yang dapat terjadi:
Menghitung korelasi koefisien menggunakan pearson:
from scipy.stats import pearsonr
corr, _ = pearsonr(data['SepalLengthCm'], data['PetalWidthCm'])
print('Korelasi menggunakan Pearsons: %.3f' % corr)
Dari nilai yang dihasilkan dapat diketahui bahwa kedua variabel tersebut memiliki Strong Correlation.
Rank Spearman
Koefisien Rank Spearman digunakan untuk variabel X dan Y yang berbentuk peringkat atau ranking dengan data dari variabel berskala ordinal. Rank Spearman memiliki range koefisien diantara -1 sampai 1. Yang dimana jika korelasi koefisien mencapai -1 berarti memiliki hubungan yang tidak searah sempurna atau perfect negative antara peringkat sedangkan jika korelasi koefisien mencapai 1 berarti memiliki hubungan yang searah sempurna atau perfect positive antara peringkat dan jika korelasi koefisien mencapai 0 berarti tidak memiliki hubungan antara peringkat.
Penjelasan dari formula diatas:
- d per i adalah selisih dari x rank dan y rank untuk setiap pasang data.
- ∑ adalah sum.
- n adalah sample size.
Kelebihan:
- Tidak memerlukan data yang terdistribusi normal.
- Memungkinkan untuk penyelidikan lebih lanjut.
Kekurangan:
- Formula yang cukup rumit.
- memerlukan dua set data variabel.
Menghitung korelasi koefisien menggunakan Rank Spearman:
from scipy.stats import spearmanr
corr1 = spearmanr(data['SepalLengthCm'], data['PetalWidthCm'])[0]
print('Korelasi menggunakan Rank Spearman: %.3f' % corr1)
Dari nilai yang dihasilkan dapat diketahui bahwa kedua variabel tersebut memiliki hubungan searah yang sangat kuat atau positive.
KENDALL TAU
Sama halnya seperti koefisien korelasi Rank Spearman, Korelasi Kendall Tau juga mengukur hubungan antar variabel berdasarkan rankingnya. Korelasi Kendall Tau dapat lebih baik dibandingkan dengan korelasi Rank Spearman saat sampel analisis berukuran kecil dan ada banyak data dengan nilai yang sama. Jenis koefisien korelasi ini memiliki range yaitu -1 sampai 1 yang berarti -1 adalah tidak sama sekali berhubungan dan 1 sangat memiliki hubungan.
Formula dari Kendall Tau sebagai berikut:
Penjelasan dari formula diatas:
τ = koefisien korelasi.
S = jumlah dari konkordansi dan diskordansi.
C = banyak pasangan konkordansi.
D = banyak pasangan diskordansi.
N = banyak pasangan peringkat.
Kelebihan dan kekurangan mirip dengan jenis koefisien korelasi Rank Spearman karena keduanya menggunakan konsep yang sama yaitu dilakukan peringkat terlebih dahulu sebelum dihitung.
Menghitung korelasi koefisien menggunakan Kendall Tau:
from scipy.stats import kendalltau
corr2, _ = kendalltau(data['SepalLengthCm'], data['PetalWidthCm'])
print('Korelasi menggunakan Kendall Tau: %.3f' % corr2)
Dari nilai yang dihasilkan dapat diketahui bahwa kedua variabel tersebut memiliki hubungan searah yang lemah.
Semoga bermanfaat untuk yang baca dan yang menulis.
Source code: https://github.com/MuhFaridanSutariya/jenis-koefisien-korelasi-stats
Reference: