Statistika Deskriptif menggunakan RStudio

Amalia Rachmadana Ismail
8 min readApr 25, 2024

--

sumber

Hai Data Enthusiast!

Kali ini kita akan membahas apa itu statistika deskriptif serta bagaimana penerapannya dengan menggunakan software RStudio.

Introduction

Statistika deskriptif adalah metode-metode yang berkaitan dengan pengumpulan dan penyajian suatu gugus data sehingga memberikan informasi yang berguna (Walpole,1995). Dengan menggunakan statistika deskriptif, berbagai kumpulan data dapat disajikan secara ringkas dan rapi. Informasi yang disajikan dapat berupa ukuran pemusatan data, penyebaran data, dan kecenderungan suatu gugus data serta dapat divisualisasikan dalam bentuk tabel atau grafik.

Problem Statement

Statistika deskriptif merupakan metode yang memungkinkan kita untuk memahami karakteristik dasar sebuah dataset. Dengan metode-metode statistika deskriptif yang tersedia di RStudio, kita berusaha menggali informasi penting dari sebuah data untuk menyajikan informasi yang relevan. Bagaimana melakukan eksplorasi dengan teknik statistika deskriptif untuk mengungkap pola dan karakteristik dari data?

Dataset

Dataset yang digunakan adalah dataset SaratogaHouses pada package mosaicData dalam RStudio. Dataset ini menyediakan informasi tentang harga rumah dan karakteristik lain dari rumah-rumah di Saratoga County, New York. Dataset ini memiliki 16 kolom atau variabel yang menjelaskan berbagai aspek dari setiap rumah serta terdiri dari 1728 baris. Berikut adalah penjelasan variabel dalam dataset SaratogaHouses.

price: Harga rumah dalam dolar

lotSize: Ukuran lahan rumah dalam hektar

age: Usia rumah dalam tahun

landValue: Nilai tanah dalam dolar

livingArea Luas area hunian dalam kaki persegi

pctCollege: Persentase penduduk di daerah tersebut yang memiliki gelar sarjana

bedrooms: Jumlah kamar tidur dalam rumah

fireplaces: Jumlah perapian dalam rumah

bathrooms: Jumlah kamar mandi dalam rumah

rooms: Jumlah ruangan dalam rumah, seperti kamar tidur, kamar mandi, dapur, dan ruang lainnya

heating: Jenis sistem pemanas yang digunakan dalam rumah, seperti electric, steam, atau hot air

fuel: Jenis bahan bakar yang digunakan untuk pemanasan rumah, seperti gas, oil, atau electric

sewer: Jenis sistem pembuangan limbah yang digunakan, seperti sistem septic atau public/commercial

waterfront: Variabel yang menunjukkan apakah rumah tersebut berada di tepi air atau tidak

newConstruction: Variabel yang menunjukkan apakah rumah tersebut adalah kontruksi baru atau bukan

centralAir: Variabel yang menunjukkan apakah rumah tersebut memiliki sistem pendinginan udara pusat atau tidakk

Load Data & Packages

install.packages("descriptr")
install.packages("summarytools")
install.packages("mosaicData")
install.packages("scales")
install.packages("psych")
install.packages("pastecs")
library(descriptr)
library(summarytools)
library(mosaicData)
library(psych)
library(pastecs)

#Load Data
SaratogaHouses
View(SaratogaHouses)

Statistik Deskriptif

Analisis statistik deskriptif pada variabel rooms dari dataset SaratogaHouses dengan menggunakan tiga pendekatan berbeda.

descr(SaratogaHouses$rooms, stats = "common")
summary(SaratogaHouses$rooms)
describe(SaratogaHouses$rooms)
stat.desc(SaratogaHouses$rooms)
  • descr : untuk menampilkan statistik deskriptif umum dari variabel rooms mencakup nilai rata-rata (mean), median, dan deviasi standar.
statistik deskriptif dengan “descr”
  • summary : untuk menampilkan ringkasan statistik deskriptif mencakup nilai minimum, kuartil, median, rata-rata (mean), dan nilai maksimum.
statistik deskriptif dengan “summary”
  • describe : untuk menampilkan statistik deksriptif lebih detail mencakup rata-rata (mean), median, standar deviasi, kurtosis, skewness, dan lainnya.
statsitik deskriptif dengan “describe”
  • stat.desc : untuk menampilkan statistik deskriptif yang lebih lengkap mencakup standard error mean, standar deviasi, koefisien variansi, dan lainnya.
statistik deskriptif dengan “stat.desc”

Satu Variabel Kategorik

Analisis deskriptif untuk satu variabel kategorik, dimana akan digunakan variabel heating untuk melihat distribusi tiga jenis sistem pemanas (hot air, hot water/steam, dan electric) dari dataset SaratogaHouses. Nilai dari frekuensi, persentase, dan persentase kumulatif dari variabel heating perlu dihitung untuk melakukan proses analisis.

#Load Variabel Heating
heating <- data.frame(SaratogaHouses$heating)
heating
#Menghitung frekuensi
freq <- table(heating)
#Menghitung persentase
percent <- (freq/nrow(SaratogaHouses))*100
#Menghitung persentase kumulatif
cum_percent <- cumsum(percent)
#Menggabungkan nilai frekuensi, persentase, dan persentase kumulatif
desc <- cbind("frequency" = freq,
"percent" = percent,
"cumulative percent" = cum_percent)
tabel frekuensi variabel heating

Dari total 1728 rumah, diperoleh sistem pemanas terbanyak yang digunakan pada rumah-rumah di Saratoga County yaitu jenis hot air dengan persentase sebesar 65% dari total rumah atau sebanyak 1121 rumah. Diikuti dengan sistem pemanas jenis electric sebanyak 305 rumah dan jenis hot water/steam sebanyak 302 rumah.

Nilai frekuensi dari distribusi jenis sistem pemanas yang digunakan divisualisasikan dalam bentuk diagram batang.

#BAR CHART
text(x = barplot(sort(freq,decreasing=TRUE),
main = "Heating Distribution", #judul plot
xlab = "Heating", #label sumbu x
ylab = "Count", #label sumbu y
ylim = c(0,1300), #rentang sumbu y
col = "pink"), #warna
y = freq,
labels = freq, #label anotasi
cex = 0.7, #ukuran teks
pos = 3, #posisi teks
col = "black") #warna teks
diagram batang frekuensi variabel heating

Nilai persentase kumulatif dari jenis sistem pemanas yang digunakan akan divisualisasikan dalam bentuk diagram lingkaran.

#PIE CHART
lbls <- paste(percent, "%", sep = "")
pie(percent,
labels=lbls, #label tiap potongan pie
main = "Pie Chart Count of Heating", #judul plot
col = c("lightpink","lightblue","lightgreen"), #warna
clockwise = TRUE) #arah rotasi searaj jarum jam/berlawanan(FALSE)
legend("bottom", #menambahkan posisi legenda (top, bottom, left, right)
c("Hot Air", "Hot Water/Steam", "Electric"), #label tiap potongan pie
fill = c("lightpink","lightblue","lightgreen"), #warna
horiz= TRUE) #legenda tersusun horizontal(TRUE)/vertikal(FALSE)
diagram lingkaran persentase kumulatif variabel heating

Dua Variabel Kategorik

Analisis deskriptif untuk dua variabel kategorik, dimana akan menggabungkan variabel heating dan fuel untuk melihat distribusi jenis sistem pemanas (hot air, hot water/steam, dan electric) berdasarkan jenis bahan bakar (gas, oil, dan electric) dari dataset SaratogaHouses. Tabel frekuensi diperlukan untuk melihat informasi tentang berapa banyak rumah yang menggunakan kombinasi tertentu dari jenis bahan bakar dan sistem pemanas. Selain itu, dapat memberikan gambaran yang jelas tentang hubungan antara jenis bahan bakar dan sistem pemanasan yang digunakan dalam rumah-rumah di Saratoga County.

#Load Variabel Heating
duavar <- data.frame(SaratogaHouses$fuel,
SaratogaHouses$heating)
#Tabel Frekuensi
table(duavar)
tabel frekuensi variabel heating dan fuel

Dari total 1728 rumah, sebagian besar rumah di Saratoga County yang menggunakan gas sebagai bahan bakar juga menggunakan sistem pemanas hot air dengan jumlah sebanyak 961 rumah. Hanya sedikit rumah yang menggunakan oil sebagai bahan bakar serta sistem pemanas electric yaitu sebanyak 1 rumah.

Nilai tabel frekuensi dari distribusi jenis sistem pemanas berdasarkan jenis bahan bakar divisualisasikan dalam bentuk diagram batang.

#BAR CHART
freq_table <- table(duavar)
text(x = barplot(table(duavar),
main = "Clustered Bar Count of Heating by fuel", #judul plot
xlab = "Fuel", #label sumbu x
ylab = "Count", #label sumbu y
ylim = c(0,1100), #rentang sumbu y
col = c("lightblue", "lightyellow","lightpink"), #warna
beside = TRUE) - 0.15,
y = freq_table,
labels = freq_table, #label anotasi
cex = 0.7, #ukuran teks
pos = 3, #posisi teks
col = "black") #warna teks

#MENAMBAHKAN LEGEND
legend("topright", #menambahkan posisi legenda (top, bottom, left, right)
c("gas","electric","oil"), #label pada legenda
fill = c("lightblue", "lightyellow","lightpink")) #warna
diagram batang frekuensi variabel heating berdasarkan variabel fuel

Satu Variabel Kontinu

Analisis deskriptif untuk satu variabel kontinu, dimana akan digunakan variabel rooms untuk melihat gambaran yang baik tentang distribusi jumlah ruangan pada setiap rumah dari dataset SaratogaHouses.

#Load variabel rooms
rooms <- SaratogaHouses$rooms
#Konversi menjadi Data Frame
rooms <- data.frame(rooms)
#Membuat tabel frekuensi
tabelrooms <- table(rooms)
#Menghitung tabel frekuensi dengan kelompok
tabfreq <- ds_freq_table(rooms, rooms, bins=5)
tabel frekuensi variabel rooms dengan 5 kelompok (bins)

Sebagian besar rumah memiliki 6 hingga 8 ruangan sebanyak 810 rumah atau 46,88% dari total rumah. Jumlah properti dengan 2 hingga 4 ruangan cukup rendah dibandingkan dengan kategori lainnya yaitu sebanyak 236 rumah atau 15,22% dari total rumah.

Nilai interval tabel frekuensi dari distribusi jumlah ruangan divisualisasikan dalam bentuk histogram.

hist(rooms$rooms,
main="Rooms Total (Binned)", #judul plot
xlab = "Rooms", #label sumbu x
col = "lightpink") #warna diagram
histogram variabel rooms dengan 5 kelompok (bins)

Nilai frekuensi dari distribusi jumlah ruangan dari rumah-rumah di Saratoga County divisualisasikan dalam bentuk diagram batang.

text(x = barplot(table(rooms),
main = "Rooms Total", #judul plot
xlab ="Rooms", #label sumbu x
col = "lightpink"), #warna diagram
y = freq, #label anotasi
labels = table(rooms), #label anotasi
cex = 0.7, #ukuran teks
pos = 1, #posisi teks
col = "black") #warna teks
diagram batang frekuensi variabel rooms

Jumlah rumah dengan 7 ruangan memiliki frekuensi tertinggi sebanyak 305 rumah, diikuti oleh rumah dengan 8 ruangan sebanyak 258 rumah. Secara keseluruhan, rumah dengan 7 kamar adalah yang paling umum dalam dataset, sementara rumah dengan 2 kamar adalah yang paling jarang ditemukan.

Selanjutnya, membuat visualisasi boxplot untuk menampilkan distribusi data jumlah kamar dari variabel rooms.

#BOXPLOT
boxplot(rooms$rooms,
main = "Boxplot of Rooms", #judul plot
xlab = "Rooms", #label sumbu x
col = "lightpink") #warna
boxplot variabel rooms

Berdasarkan boxplot di atas, diketahui bahwa variabel rooms memiliki nilai maksimum sebesar 12, nilai minimum sebesar 2, dan nilai median sebesar 7. Selain itu, tidak terdapat outlier dalam boxplot yang berarti data jumlah kamar cenderung terkonsentrasi di sekitar nilai-nilai pusat atau tidak ada nilai yang ekstrem.

Dua Variabel Kontinu

Analisis deskriptif untuk dua variabel kontinu, dimana akan menggabungkan variabel price dan livingArea untuk melihat bagaimana luas hunian mempengaruhi harga rumah dari dataset SaratogaHouses. Akan dibuat diagram titik atau scatterplot untuk memeriksa apakah ada hubungan yang kuat antara variabel price dan variabel livingArea.

plot(SaratogaHouses$price, SaratogaHouses$livingArea,
main = "Price by Living Area",
xlab = "livingArea",
ylab = "price")
scatterplot variabel price dan variabel livingArea

Berdasarkan scatterplot di atas, titik-titik cenderung membentuk pola yang bergerak dari kiri bawah ke kanan atas yang menunjukkan hubungan positif antara variabel price dan variabel livingArea. Adapun nilai koefesien korelasi yaitu sebesar 0,7123902.

#KOEFISIEN KORELASI
cor(SaratogaHouses$price, SaratogaHouses$livingArea)
nilai kefisien korelasi antara variabel price dan variabel livingArea

Nilai koefisien korelasi antara variabel price dan variabel livingArea sebesar 0,7123902 menunjukkan adanya hubungan positif yang kuat antara kedua variabel tersebut. Artinya semakin besar luas hunian (livingArea), maka harga rumah (price) cenderung lebih tinggi. Namun tidak menutupi bahwa terdapat faktor lain yang mungkin mempengaruhi harga rumah di Saratoga County.

Demikian sedikit penjelasan mengenai Statistika Deskriptif menggunakan RStudio. Dengan kemampuan visualisasi seperti boxplot, scatterplot, dan histogram, kita dapat dengan mudah memahami distribusi data, mengidentifikasi pola, dan menemukan hubungan antar variabel. Semoga bermanfaat!

Referensi

Utari, D. T. (2022). Modul Praktikum Komputasi Statistika. Yogyakarta: Universitas Islam Indonesia.

--

--