Analisis Regresi Linier menggunakan RStudio

Amalia Rachmadana Ismail
5 min readJun 14, 2024

--

sumber

Hai Data Enthusiast!

Kali ini kita akan membahas apa itu regresi linier sederhana serta bagaimana penerapannya dengan menggunakan software RStudio.

Introduction

Analisis regresi adalah metode yang umum digunakan untuk memperoleh fungsi prediksi untuk memprediksi nilai-nilai variabel respon Y menggunakan variabel prediktor X1, X2, …Xk. Disebut analisis regresi linier karena grafik yang menunjukkan hubungan variabel respon Y dan variabel prediktor X membentuk garis lurus, selain itu yang dimaksud dengan linier adalah model ini linier dalam parameter. Dalam analisis regresi linier hanya ada satu variabel respon Y yang dipengaruhi oleh variabel-variabel prediktor X. Jika hanya terdapat satu variabel prediktor yang berpengaruh maka disebut analisis regresi linier sederhana, sedangkan jika variabel prediktor yang berpengaruh lebih dari satu, maka disebut analisis regresi linier berganda.

Persamaan regresi linier dari Y terhadap X dirumuskan sebagai berikut.

𝑦̂= β0 + β1X1 + … + βkXk

Keterangan:
𝑦̂ = variabel terikat
Xi = variabel bebas
β0 = intersep
β1 = koefisien

Problem Statement

Analisis regresi linier merupakan salah satu teknik dasar dalam statistika untuk melihat hubungan antara variabel dependen dan independen. Informasi yang diperoleh dari hasil regresi dapat diaplikasikan dalam konteks bisnis atau penelitian yang relevan. Bagaimana melakukan regresi linier menggunakan RStudio?

Dataset

Dataset yang digunakan adalah dataset mtcars dalam RStudio. Dataset ini menyediakan informasi mengenai spesifikasi teknis dan performa dari 32 model mobil. Dataset ini memiliki 11 kolom atau variabel yang menjelaskan berbagai aspek setiap mobil. Berikut adalah penjelasan dalam dataset mtcars.

mpg: efisiensi bahan kendaraan

cyl: jumlah silinder di dalam mesin kendaraan

disp: total volume dari semua silinder dalam mesin

hp: ukuran daya yang dihasilkan oleh mesin kendaraan

drat: rasio antara putaran poros penggerak belakang dan putaran roda

wt (weight on 1000 lbs): berat kendaraan

qsec: waktu untuk menempuh jarak 1/4 mil

vs: tipe konfigurasi mesin (0: mesin V, 1: mesin lurus)

am: tipe transmisi kendaraan (0: transmisi otomatis, 1: transmisi manual)

gear: jumlah gigi maju pada transmisi kendaraan

carb: jumlah karburator pada mesin kendaraan

Load Data & Package

library(datasets)

#Load Data
data <- mtcars

Analisis Regresi Linier

Karena variabel independen pada data lebih dari satu, maka analisis regresi yang dilakukan kali ini adalah Analisis Regresi Linier Berganda. Kita akan melihat apakah 2 variabel prediktor (hp, wt) pada data mempengaruhi variabel respons (mpg).

regresi <- lm(mpg ~ cyl +disp + hp + drat+wt + 
qsec + vs+am + gear + carb, data = data)
summary(regresi)
output analisis regresi

Untuk mengetahui apakah antar variabel memiliki pengaruh yang kuat terhadap variabel dependen, maka penyelesaiannya dilakukan secara bertahap sesuai dengan tahapan yang berlaku.

a. Identifikasi

  1. Variabel bebas / independent (x) adalah hp (x1), wt (x2).
  2. Variabel terikat / dependent (y) adalah mpg (y).

b. Estimasi

output estimasi variabel

Dari gambar di atas kita temukan persamaan regresinya yaitu:
𝑦̂= β0 + β1X1 + β2X2
𝑦̂ = 37.22727 + (-3.87783)X1 + (-0.03177)X2

  • mpg (37.22727): Ketika x1 dan x2 nilainya 0, maka nilai konstanta tersebut akan tetap 37.22727.
  • wt (-3.87783): Ketika variabel lainnya bertambah 1% atau 1 maka nilai mpg diprediksi mengalami penurunan nilai sebesar 3.87783. Hal ini juga menunjukkan bahwa berat kendaraat (wt) memiliki pengaruh negatif yang signifikan terhadap efisiensi bahan bakar (mpg).
  • hp (-0.03177): Ketika variabel lainnya bertambah 1% atau 1 maka nilai mpg diprediksi mengalami penurusan nilai sebesar 0.03177. ukuran daya(hp) juga memiliki pengaruh negatif terhadap efisiensi bahan bakar (mpg), namun pengaruhnya lebih kecil dibandingkan berat kendaraan (wt).

c. Validasi

output p-value uji F

Uji Overall / Uji F

  1. Hipotesis
    H0 : β0 = βi, i = 0,1,2 (model tidak layak digunakan)
    H1 : ada minimal salah satu βi ≠ 0 , dimana i = 0,1,2 (model layak digunakan)
  2. Tingkat Signifikansi
    α = 5% = 0.05
  3. Daerah Kritis
    Tolak H0 jika p-value ≤ α
    Gagal tolak H0 jika p-value ≥ α
  4. Statistik Uji
    p-value = 0.0000000000009109
  5. Keputusan
    Karena nilai p-value = 0.00000003793< α = 0.05, maka tolak H0
  6. Kesimpulan
    Dengan menggunakan tingkat kepercayaan 95%, data yang ada menolak hipotesis H0 yang artinya model regresi layak untuk digunakan

Uji Parsial/Uji T

output p-value uji T
  1. Hipotesis
    H0 : β0 = βi, i = 0,1,2 (koefisien regresi tidak signifikan dalam model)
    H1 : ada minimal salah satu βi ≠ 0 , dimana i = 0,1,2 (koefisien regresi signifikan dalam model)
  2. Tingkat Signifikansi
    α = 5% = 0.05
  3. Daerah Kritis
    Tolak H0 jika p-value ≤ α
    Gagal tolak H0 jika p-value ≥ α
  4. Statistik Uji
    p-value X1 (wt) = 0.000000112
    p-value X2 (hp) = 0.0.00145
  5. Keputusan
    Nilai p-value X1 (wt) = 0.000000112 < α = 0.05, maka tolak H0
    Nilai p-value X2 (hp) = 0.0.00145 < α = 0.05, maka tolak H0
  6. Kesimpulan
    Dengan menggunakan tingkat kepercayaan 95%, data yang ada menyatakan bahwa koefisien regresi X1 dan X2 signifikan terhadap model

Koefisien Determinasi (R2)

Koefisien determinasi mengukur proporsi keragaman Y (variabel dependen) yang mampu dijelaskan oleh X (variabel independen) dalam model. R2 menunjukkan kebaikan model, dimana semakin besar nilai R2 maka semakin baik modelnya.

output multiple r-squared

Dari output yang diperoleh nilai R2 atau R — Squared 0.8267 atau sama dengan 82,68%. Yang berarti bahwa variabel independen X berpengaruh sebesar 82,68% terhadap bariabel dependen Y. Sedangkan 17,32% sisanya dipengaruhi oleh variabel lain diluar model atau variabel yang tidak diteliti.

Secara keseluruhan, berat kendaraan (wt) maupun ukuran daya (hp) keduanya secara signifikan mempengaruhi efisiensi bahan bakar kendaraan (mpg), dengan pengaruh yang lebih besar berasal dari berat kendaraan. Model regresi juga memiliki kemampuan prediksi yang baik, dilihat dari nilai R-squared yang tinggi.

Demikian sedikit penjelasan mengenai Analisis Regresi Linier menggunakan RStudio. Dengan menggunakan teknik regresi linier, kita dapat memprediksi nilai variabel dependen berdasarkan variabel independen dengan melihat hubungan antar variabel. Semoga Bermanfaat!

Referensi

Utari, D. T. (2019). Modul Praktikum Analisis Regresi Terapan dengan R. Yogyakarta: Universitas Islam Indonesia.

--

--