Statistika Deskriptif menggunakan RStudio
Hai Data Enthusiast!
Kali ini kita akan membahas apa itu statistika deskriptif serta bagaimana penerapannya dengan menggunakan software RStudio.
Introduction
Statistika deskriptif adalah metode-metode yang berkaitan dengan pengumpulan dan penyajian suatu gugus data sehingga memberikan informasi yang berguna (Walpole,1995). Dengan menggunakan statistika deskriptif, berbagai kumpulan data dapat disajikan secara ringkas dan rapi. Informasi yang disajikan dapat berupa ukuran pemusatan data, penyebaran data, dan kecenderungan suatu gugus data serta dapat divisualisasikan dalam bentuk tabel atau grafik.
Problem Statement
Statistika deskriptif merupakan metode yang memungkinkan kita untuk memahami karakteristik dasar sebuah dataset. Dengan metode-metode statistika deskriptif yang tersedia di RStudio, kita berusaha menggali informasi penting dari sebuah data untuk menyajikan informasi yang relevan. Bagaimana melakukan eksplorasi dengan teknik statistika deskriptif untuk mengungkap pola dan karakteristik dari data?
Dataset
Dataset yang digunakan adalah dataset SaratogaHouses pada package mosaicData dalam RStudio. Dataset ini menyediakan informasi tentang harga rumah dan karakteristik lain dari rumah-rumah di Saratoga County, New York. Dataset ini memiliki 16 kolom atau variabel yang menjelaskan berbagai aspek dari setiap rumah serta terdiri dari 1728 baris. Berikut adalah penjelasan variabel dalam dataset SaratogaHouses.
price: Harga rumah dalam dolar
lotSize: Ukuran lahan rumah dalam hektar
age: Usia rumah dalam tahun
landValue: Nilai tanah dalam dolar
livingArea Luas area hunian dalam kaki persegi
pctCollege: Persentase penduduk di daerah tersebut yang memiliki gelar sarjana
bedrooms: Jumlah kamar tidur dalam rumah
fireplaces: Jumlah perapian dalam rumah
bathrooms: Jumlah kamar mandi dalam rumah
rooms: Jumlah ruangan dalam rumah, seperti kamar tidur, kamar mandi, dapur, dan ruang lainnya
heating: Jenis sistem pemanas yang digunakan dalam rumah, seperti electric, steam, atau hot air
fuel: Jenis bahan bakar yang digunakan untuk pemanasan rumah, seperti gas, oil, atau electric
sewer: Jenis sistem pembuangan limbah yang digunakan, seperti sistem septic atau public/commercial
waterfront: Variabel yang menunjukkan apakah rumah tersebut berada di tepi air atau tidak
newConstruction: Variabel yang menunjukkan apakah rumah tersebut adalah kontruksi baru atau bukan
centralAir: Variabel yang menunjukkan apakah rumah tersebut memiliki sistem pendinginan udara pusat atau tidakk
Load Data & Packages
install.packages("descriptr")
install.packages("summarytools")
install.packages("mosaicData")
install.packages("scales")
install.packages("psych")
install.packages("pastecs")
library(descriptr)
library(summarytools)
library(mosaicData)
library(psych)
library(pastecs)
#Load Data
SaratogaHouses
View(SaratogaHouses)
Statistik Deskriptif
Analisis statistik deskriptif pada variabel rooms dari dataset SaratogaHouses dengan menggunakan tiga pendekatan berbeda.
descr(SaratogaHouses$rooms, stats = "common")
summary(SaratogaHouses$rooms)
describe(SaratogaHouses$rooms)
stat.desc(SaratogaHouses$rooms)
- descr : untuk menampilkan statistik deskriptif umum dari variabel rooms mencakup nilai rata-rata (mean), median, dan deviasi standar.
- summary : untuk menampilkan ringkasan statistik deskriptif mencakup nilai minimum, kuartil, median, rata-rata (mean), dan nilai maksimum.
- describe : untuk menampilkan statistik deksriptif lebih detail mencakup rata-rata (mean), median, standar deviasi, kurtosis, skewness, dan lainnya.
- stat.desc : untuk menampilkan statistik deskriptif yang lebih lengkap mencakup standard error mean, standar deviasi, koefisien variansi, dan lainnya.
Satu Variabel Kategorik
Analisis deskriptif untuk satu variabel kategorik, dimana akan digunakan variabel heating untuk melihat distribusi tiga jenis sistem pemanas (hot air, hot water/steam, dan electric) dari dataset SaratogaHouses. Nilai dari frekuensi, persentase, dan persentase kumulatif dari variabel heating perlu dihitung untuk melakukan proses analisis.
#Load Variabel Heating
heating <- data.frame(SaratogaHouses$heating)
heating
#Menghitung frekuensi
freq <- table(heating)
#Menghitung persentase
percent <- (freq/nrow(SaratogaHouses))*100
#Menghitung persentase kumulatif
cum_percent <- cumsum(percent)
#Menggabungkan nilai frekuensi, persentase, dan persentase kumulatif
desc <- cbind("frequency" = freq,
"percent" = percent,
"cumulative percent" = cum_percent)
Dari total 1728 rumah, diperoleh sistem pemanas terbanyak yang digunakan pada rumah-rumah di Saratoga County yaitu jenis hot air dengan persentase sebesar 65% dari total rumah atau sebanyak 1121 rumah. Diikuti dengan sistem pemanas jenis electric sebanyak 305 rumah dan jenis hot water/steam sebanyak 302 rumah.
Nilai frekuensi dari distribusi jenis sistem pemanas yang digunakan divisualisasikan dalam bentuk diagram batang.
#BAR CHART
text(x = barplot(sort(freq,decreasing=TRUE),
main = "Heating Distribution", #judul plot
xlab = "Heating", #label sumbu x
ylab = "Count", #label sumbu y
ylim = c(0,1300), #rentang sumbu y
col = "pink"), #warna
y = freq,
labels = freq, #label anotasi
cex = 0.7, #ukuran teks
pos = 3, #posisi teks
col = "black") #warna teks
Nilai persentase kumulatif dari jenis sistem pemanas yang digunakan akan divisualisasikan dalam bentuk diagram lingkaran.
#PIE CHART
lbls <- paste(percent, "%", sep = "")
pie(percent,
labels=lbls, #label tiap potongan pie
main = "Pie Chart Count of Heating", #judul plot
col = c("lightpink","lightblue","lightgreen"), #warna
clockwise = TRUE) #arah rotasi searaj jarum jam/berlawanan(FALSE)
legend("bottom", #menambahkan posisi legenda (top, bottom, left, right)
c("Hot Air", "Hot Water/Steam", "Electric"), #label tiap potongan pie
fill = c("lightpink","lightblue","lightgreen"), #warna
horiz= TRUE) #legenda tersusun horizontal(TRUE)/vertikal(FALSE)
Dua Variabel Kategorik
Analisis deskriptif untuk dua variabel kategorik, dimana akan menggabungkan variabel heating dan fuel untuk melihat distribusi jenis sistem pemanas (hot air, hot water/steam, dan electric) berdasarkan jenis bahan bakar (gas, oil, dan electric) dari dataset SaratogaHouses. Tabel frekuensi diperlukan untuk melihat informasi tentang berapa banyak rumah yang menggunakan kombinasi tertentu dari jenis bahan bakar dan sistem pemanas. Selain itu, dapat memberikan gambaran yang jelas tentang hubungan antara jenis bahan bakar dan sistem pemanasan yang digunakan dalam rumah-rumah di Saratoga County.
#Load Variabel Heating
duavar <- data.frame(SaratogaHouses$fuel,
SaratogaHouses$heating)
#Tabel Frekuensi
table(duavar)
Dari total 1728 rumah, sebagian besar rumah di Saratoga County yang menggunakan gas sebagai bahan bakar juga menggunakan sistem pemanas hot air dengan jumlah sebanyak 961 rumah. Hanya sedikit rumah yang menggunakan oil sebagai bahan bakar serta sistem pemanas electric yaitu sebanyak 1 rumah.
Nilai tabel frekuensi dari distribusi jenis sistem pemanas berdasarkan jenis bahan bakar divisualisasikan dalam bentuk diagram batang.
#BAR CHART
freq_table <- table(duavar)
text(x = barplot(table(duavar),
main = "Clustered Bar Count of Heating by fuel", #judul plot
xlab = "Fuel", #label sumbu x
ylab = "Count", #label sumbu y
ylim = c(0,1100), #rentang sumbu y
col = c("lightblue", "lightyellow","lightpink"), #warna
beside = TRUE) - 0.15,
y = freq_table,
labels = freq_table, #label anotasi
cex = 0.7, #ukuran teks
pos = 3, #posisi teks
col = "black") #warna teks
#MENAMBAHKAN LEGEND
legend("topright", #menambahkan posisi legenda (top, bottom, left, right)
c("gas","electric","oil"), #label pada legenda
fill = c("lightblue", "lightyellow","lightpink")) #warna
Satu Variabel Kontinu
Analisis deskriptif untuk satu variabel kontinu, dimana akan digunakan variabel rooms untuk melihat gambaran yang baik tentang distribusi jumlah ruangan pada setiap rumah dari dataset SaratogaHouses.
#Load variabel rooms
rooms <- SaratogaHouses$rooms
#Konversi menjadi Data Frame
rooms <- data.frame(rooms)
#Membuat tabel frekuensi
tabelrooms <- table(rooms)
#Menghitung tabel frekuensi dengan kelompok
tabfreq <- ds_freq_table(rooms, rooms, bins=5)
Sebagian besar rumah memiliki 6 hingga 8 ruangan sebanyak 810 rumah atau 46,88% dari total rumah. Jumlah properti dengan 2 hingga 4 ruangan cukup rendah dibandingkan dengan kategori lainnya yaitu sebanyak 236 rumah atau 15,22% dari total rumah.
Nilai interval tabel frekuensi dari distribusi jumlah ruangan divisualisasikan dalam bentuk histogram.
hist(rooms$rooms,
main="Rooms Total (Binned)", #judul plot
xlab = "Rooms", #label sumbu x
col = "lightpink") #warna diagram
Nilai frekuensi dari distribusi jumlah ruangan dari rumah-rumah di Saratoga County divisualisasikan dalam bentuk diagram batang.
text(x = barplot(table(rooms),
main = "Rooms Total", #judul plot
xlab ="Rooms", #label sumbu x
col = "lightpink"), #warna diagram
y = freq, #label anotasi
labels = table(rooms), #label anotasi
cex = 0.7, #ukuran teks
pos = 1, #posisi teks
col = "black") #warna teks
Jumlah rumah dengan 7 ruangan memiliki frekuensi tertinggi sebanyak 305 rumah, diikuti oleh rumah dengan 8 ruangan sebanyak 258 rumah. Secara keseluruhan, rumah dengan 7 kamar adalah yang paling umum dalam dataset, sementara rumah dengan 2 kamar adalah yang paling jarang ditemukan.
Selanjutnya, membuat visualisasi boxplot untuk menampilkan distribusi data jumlah kamar dari variabel rooms.
#BOXPLOT
boxplot(rooms$rooms,
main = "Boxplot of Rooms", #judul plot
xlab = "Rooms", #label sumbu x
col = "lightpink") #warna
Berdasarkan boxplot di atas, diketahui bahwa variabel rooms memiliki nilai maksimum sebesar 12, nilai minimum sebesar 2, dan nilai median sebesar 7. Selain itu, tidak terdapat outlier dalam boxplot yang berarti data jumlah kamar cenderung terkonsentrasi di sekitar nilai-nilai pusat atau tidak ada nilai yang ekstrem.
Dua Variabel Kontinu
Analisis deskriptif untuk dua variabel kontinu, dimana akan menggabungkan variabel price dan livingArea untuk melihat bagaimana luas hunian mempengaruhi harga rumah dari dataset SaratogaHouses. Akan dibuat diagram titik atau scatterplot untuk memeriksa apakah ada hubungan yang kuat antara variabel price dan variabel livingArea.
plot(SaratogaHouses$price, SaratogaHouses$livingArea,
main = "Price by Living Area",
xlab = "livingArea",
ylab = "price")
Berdasarkan scatterplot di atas, titik-titik cenderung membentuk pola yang bergerak dari kiri bawah ke kanan atas yang menunjukkan hubungan positif antara variabel price dan variabel livingArea. Adapun nilai koefesien korelasi yaitu sebesar 0,7123902.
#KOEFISIEN KORELASI
cor(SaratogaHouses$price, SaratogaHouses$livingArea)
Nilai koefisien korelasi antara variabel price dan variabel livingArea sebesar 0,7123902 menunjukkan adanya hubungan positif yang kuat antara kedua variabel tersebut. Artinya semakin besar luas hunian (livingArea), maka harga rumah (price) cenderung lebih tinggi. Namun tidak menutupi bahwa terdapat faktor lain yang mungkin mempengaruhi harga rumah di Saratoga County.
Demikian sedikit penjelasan mengenai Statistika Deskriptif menggunakan RStudio. Dengan kemampuan visualisasi seperti boxplot, scatterplot, dan histogram, kita dapat dengan mudah memahami distribusi data, mengidentifikasi pola, dan menemukan hubungan antar variabel. Semoga bermanfaat!
Referensi
Utari, D. T. (2022). Modul Praktikum Komputasi Statistika. Yogyakarta: Universitas Islam Indonesia.