Correlation on statistics

Muhammad Faridan Sutariya
6 min readDec 17, 2022

--

Direkomendasikan untuk membaca artikel terkait pemahaman skala pengukuran karena pada pembahasan kali ini penulis akan menggunakan beberapa istilah yang ada di skala pengukuran statistika. LINK 1 dan juga LINK 2

Gambar 1. Illustrasi korelasi

Sebelum membahas pada materi yang akan dibahas alangkah lebih baiknya menentukan tujuan objektif yang akan dicapai setelah membaca tulisan ini.

  • Mengetahui pengertian dari korelasi
  • Dapat melakukan pendeteksian korelasi melalui diagram atau grafik
  • Mengetahui jenis-jenis koefisien korelasi

Setelah mengetahui tujuan objektif dari membaca tulisan ini maka langsung saja dimulai.

PENGERTIAN KORELASI

Korelasi adalah keterikatan antara dua variabel secara statistik. Perlu diingat bahwa korelasi tidak dapat digunakan untuk melihat sebab-akibat (hanya melihat ada tidaknya hubungan, tidak sampai pada siapa yang mempengaruhi dan siapa yang dipengaruhi).

Gambar 2. Korelasi vs Causation

Contoh simple yang ada dikehidupan nyata:

Korelasi: Semenjak kepemimpinan Presiden Jokowi bahan pokok naik.

Causation: Kenaikan bahan pokok disebabkan oleh inflasi yang terjadi.

Terdapat artikel yang menarik untuk dibaca agar dapat menambah pemahaman lebih terkait korelasi dan causation. Link

Diartikel tersebut menjelaskan pernyataan Ronald A. Fisher yang dijuluki sebagai Ayah dari modern statistik membantah bahwa riset yang dilakukan oleh the British Medical Research Council mengenai hanya dengan “rokok” dapat menyebabkan cancer. menurut Ronald A. Fisher penyakit cancer idealnya tidak semata-mata disebabkan oleh rokok saja melainkan terdapat banyak faktor yang dapat memungkinkan terjadinya hal itu dan juga karena tidak ada hasil studi atau penjelasan ilmiah yang menyatakan bahwa rokok dapat menyebabkan cancer. Untuk dapat memahami lebih jauh dapat langsung baca melalui link yang telah disediakan diatas.

PENDETEKSIAN KORELASI MENGGUNAKAN GRAFIK

Scatter plot merupakan diagram atau grafik yang digunakan untuk mengetahui pola hubungan antar variabel. perlu diingat kembali bahwa teknik seperti ini tidak dapat digunakan untuk mengambil sebuah kesimpulan sebab-akibat dari kedua variabel tersebut.

Digunakan untuk memperkuat bukti visual dari adanya hubungan sebab-akibat antar dua variabel dari sebuah teori atau penelitian terdahulu.

Kuat dan lemahnya korelasi ditentukan oleh koefisien korelasi (r)

Membuat scatter plot menggunakan python:

Sebelum itu download dataset yang akan digunakan disini

Langkah pertama adalah import libarary dan dataset yang akan digunakan:

import pandas as pd
import seaborn as sns
data = pd.read_csv("/content/Iris.csv")

Selanjutnya membuat grafik scatter plot untuk melihat korelasi antara variabel SepalLengthCm dan PetalWidthCm menggunakan kode berikut:

sns.scatterplot(x='SepalLengthCm', y='PetalWidthCm', data=data);
Gambar 3. Korelasi antara dua variabel

Terlihat bahwa kedua variabel tersebut memiliki korelasi positif. Untuk mengetahui tingkatan koefisien korelasi yang dapat terjadi adalah sebagai berikut:

Gambar 4. tingkatan koefisien korelasi

KOEFISIEN KORELASI

Koefiesien korelasi (r) adalah ukuran kuantitatif dari tingkat korelasi untuk beberapa jenis korelasi, menyatakan hubungan secara statistik antara dua variabel.

Nilai dari koefisien korelasi ini berada dalam rentang interval -1 sampai +1. -1 menunjukkan bahwa tidak terdapat sama sekali hubungan yang terjadi antara kedua variabel tersebut sedangkan untuk +1 menunjukkan bahwa sangat memiliki hubungan yang terjadi antara kedua variabel tersebut.

Pearson

Mengukur kekuatan dan arah hubungan linier antara dua variabel. Digunakan untuk variabel INTERVAL dan RASIO. dinotasikan sebagai “rxy” atau “pxy”. Formula dari jenis Pearson correlation coefficient sebagai berikut:

Gambar 5. Formula pearson

Penjelasan dari formula diatas:

  • PX,Y adalah pearson dari variabel X dan Y.
  • cov(X, Y) adalah covariance dari variabel X dan Y.
  • σX dan σY adalah standard deviation dari variabel X dan Y.

Kelebihan:

  • Mudah untuk dipahami dan diinterpretasikan.
  • Dapat menunjukkan kekuatan hubungan antara dua variabel.

Kekurangan:

  • Hanya bagus jika datanya linear, apabila datanya non-linear hasil tidak akan akurat
  • Korelasi tidak cocok untuk kategorikal data seperti gender dan hair colour

Berikut adalah kemungkinan value yang dapat terjadi:

Gambar 6. Perfect positive dan negative korelasi
Gambar 7. String positive dan negative korelasi
Gambar 8. Weak positive dan negative korelasi
Gambar 9. Tidak ada korelasi

Menghitung korelasi koefisien menggunakan pearson:

from scipy.stats import pearsonr

corr, _ = pearsonr(data['SepalLengthCm'], data['PetalWidthCm'])
print('Korelasi menggunakan Pearsons: %.3f' % corr)
Gambar 10. Korelasi koefisien pearson

Dari nilai yang dihasilkan dapat diketahui bahwa kedua variabel tersebut memiliki Strong Correlation.

Rank Spearman

Koefisien Rank Spearman digunakan untuk variabel X dan Y yang berbentuk peringkat atau ranking dengan data dari variabel berskala ordinal. Rank Spearman memiliki range koefisien diantara -1 sampai 1. Yang dimana jika korelasi koefisien mencapai -1 berarti memiliki hubungan yang tidak searah sempurna atau perfect negative antara peringkat sedangkan jika korelasi koefisien mencapai 1 berarti memiliki hubungan yang searah sempurna atau perfect positive antara peringkat dan jika korelasi koefisien mencapai 0 berarti tidak memiliki hubungan antara peringkat.

Gambar 11. Formula Rank Spearman

Penjelasan dari formula diatas:

  • d per i adalah selisih dari x rank dan y rank untuk setiap pasang data.
  • ∑ adalah sum.
  • n adalah sample size.

Kelebihan:

  • Tidak memerlukan data yang terdistribusi normal.
  • Memungkinkan untuk penyelidikan lebih lanjut.

Kekurangan:

  • Formula yang cukup rumit.
  • memerlukan dua set data variabel.

Menghitung korelasi koefisien menggunakan Rank Spearman:

from scipy.stats import spearmanr 

corr1 = spearmanr(data['SepalLengthCm'], data['PetalWidthCm'])[0]
print('Korelasi menggunakan Rank Spearman: %.3f' % corr1)
Gambar 12. Korelasi koefisien Rank Spearman

Dari nilai yang dihasilkan dapat diketahui bahwa kedua variabel tersebut memiliki hubungan searah yang sangat kuat atau positive.

KENDALL TAU

Sama halnya seperti koefisien korelasi Rank Spearman, Korelasi Kendall Tau juga mengukur hubungan antar variabel berdasarkan rankingnya. Korelasi Kendall Tau dapat lebih baik dibandingkan dengan korelasi Rank Spearman saat sampel analisis berukuran kecil dan ada banyak data dengan nilai yang sama. Jenis koefisien korelasi ini memiliki range yaitu -1 sampai 1 yang berarti -1 adalah tidak sama sekali berhubungan dan 1 sangat memiliki hubungan.

Formula dari Kendall Tau sebagai berikut:

Gambar 13. Formula kendal tau

Penjelasan dari formula diatas:

τ = koefisien korelasi.

S = jumlah dari konkordansi dan diskordansi.

C = banyak pasangan konkordansi.

D = banyak pasangan diskordansi.

N = banyak pasangan peringkat.

Kelebihan dan kekurangan mirip dengan jenis koefisien korelasi Rank Spearman karena keduanya menggunakan konsep yang sama yaitu dilakukan peringkat terlebih dahulu sebelum dihitung.

Menghitung korelasi koefisien menggunakan Kendall Tau:

from scipy.stats import kendalltau

corr2, _ = kendalltau(data['SepalLengthCm'], data['PetalWidthCm'])
print('Korelasi menggunakan Kendall Tau: %.3f' % corr2)
Gambar 14. Korelasi koefisien Kendall Tau

Dari nilai yang dihasilkan dapat diketahui bahwa kedua variabel tersebut memiliki hubungan searah yang lemah.

Semoga bermanfaat untuk yang baca dan yang menulis.

Source code: https://github.com/MuhFaridanSutariya/jenis-koefisien-korelasi-stats

Reference:

--

--