Hierarchical Cluster Analysis

Yesan Tiara
4 min readJul 9, 2019

--

Menggunakan R

Assalamu’alaikum Warahmatullahi Wabarakaatuh,

Kali ini, kita akan membahas tentang analisis cluster hierarki menggunakan software RStudio. Apa sih analisis cluster hierarki itu ? Berikut penjelasannya.

Hierarchical Clustering

Analisis cluster merupakan suatu teknik analisis multivariat yang bertujuan untuk mengclusterkan data observasi ataupun variabel-variabel ke dalam cluster sedemikian rupa sehingga masing-masing cluster bersifat homogen sesuai dengan faktor yang digunakan untuk melakukan pengclusteran.

Metode hierarki (hierarchical method) yaitu metode yang memulai pengelompokkannya dengan dua atau lebih objek yang mempunyai kesamaan paling dekat, kemudian proses dilanjutkan ke obyek lain yang mempunyai kedekatan kedua. Biasanya pengelompokkan ini disajikan dalam bentuk dendogram, yang mirip dengan “struktur diagram pohon” (tree diagram). Dendogram adalah respentasi visual dari langkah-langkah analisis cluster yang menunjukkan bagaimana cluster terbentuk dan nilai koefisien jarak pada setiap langkah. Dalam hiraki terdapat beberapa macam:

a. Divisive (penyebaran). Dalam divisive ada 2 yaitu:

1. A Splintar Average Distance Method

2. Automatic Interaction Detection

b. Aglomerative (pemusatan). Ada 5 macam, diantaranya:

1. Single linkage (mengelompokan berdasarkan jarak terkecil antar objek)

2. Complete linkage (jarak terjauh)

3. Average linkage (rata-rata jarak seluruh individu dalam cluster dengan jarak seluruh individu cluster lain)

4. Ward method (total sum of square tiap dua cluster dalam masing-masing variabel)

5. Centroid method (jarak pusat dua cluster).

Berikut langkah-langkah penerapan cluster hierarki menggunakan software RStudio. Data yang digunakan adalah data Produksi Tanaman Sayuran di Provinsi Nanggro Aceh Darussalam Berdasarkan Kabupaten pada Tahun 2017 (Kuintal) sebagai berikut :

Input Data

Copy semua data, lalu gunakan syntax berikut untuk meng-input data ke Rstudio.

data<-read.delim("clipboard")
data

Metode Cluster

Selanjutnya melakukan cluster hirarki aglomerative. Berikut syntax dari kelima metode :

#Average linkage
metode_a1<-hclust(dist(scale(data)),method = "ave")
plot(metode_a1)
#Single linkage
metode_s1<-hclust(dist(scale(data)),method = "single")
plot(metode_s1)
#Ward method
metode_ward<-hclust(dist(scale(data)),method = "ward.D")
plot(metode_ward)
#Centroid method
metode_centroid<-hclust(dist(scale(data)),method = "centroid")
plot(metode_centroid)
#Complete linkage
metode_c1<-hclust(dist(scale(data)),method = "complete")
plot(metode_c1)

Kali ini, kita hanya akan membandingkan 2 metode saja, yaitu metode Complete linkage dan Ward method.

Complete linkage

Berikut adalah output cluster dendogram dengan metode complete linkage:

Berdasarkan dendogram tersebut, kita akan membagi kabupaten-kabupaten tersebut kedalam 3 kelompok, menggunakan syntax berikut :

rect.hclust(metode_c1, 3)

Sehingga diperoleh output :

Berdasarkan output di atas, dari 23 kabupaten yang ada di Provinsi Nanggro Aceh Darussalam terbagi menjadi tiga kelompok. Untuk melihat kabupaten mana saja yang termasuk ke dalam kelompok-kelompok tersebut, maka gunakan syntax sebagai berikut:

anggota<-cutree(metode_c1, 3)
anggota
tabel=data.frame(anggota)
tabel

Sehingga output-nya:

Berdasarkan hasil di atas, bisa dilihat bahwa kabupaten ke-1, 2, 3, 4, 5, 7, 8, 9, 11, 12, 13, 14, 15, 16, 18, 19, 20, 21, 22, dan 23 termasuk ke dalam kelompok 1. Kabupaten ke-6 dan 17 termasuk ke dalam kelompok 2. Sedangkan kabupaten ke-10 termasuk dalam kelompok 3.

Ward Method

Berikut adalah output cluster dendogram dengan metode ward:

Berdasarkan dendogram tersebut, akan membagi kabupaten-kabupaten tersebut kedalam 4 kelompok, menggunakan syntax berikut :

rect.hclust(metode_ward, 4)

Sehingga diperoleh output :

Berdasarkan output di atas, kita melakukan cluster menjadi 4 kelompok dari 23 kabupaten yang ada di Provinsi Nanggro Aceh Darussalam. Selanjutnya untuk melihat anggota dari cluster yang telah dibentuk menggunakan metode ward seperti berikut:

anggota<-cutree(metode_ward, 4)
anggota
tabel=data.frame(anggota)
tabel

Sehingga output anggota dari kelompok-kelompok tersebut:

Berdasarkan hasil di atas, bisa dilihat bahwa kabupaten ke-1, 2, 3, 4, 5, 7, 12, 14, 19, 20, 21, 22, dan 23 termasuk ke dalam kelompok 1. Kabupaten ke-6 dan 17 termasuk ke dalam kelompok 2. Kabupaten ke-8, 10, 11, 15, 16, dan 18 termasuk ke dalam kelompok 3. Sedangkan kabupaten ke-9 dan 13 termasuk dalam kelompok 4.

Semoga bermanfaat. Wassalamu’alaikum Warahmatullahi Wabarakaatuh.

Referensi

Usman, H., & Sobari, N. (2013). Aplikasi Teknik Multivariate Untuk Riset Pemasaran. Jakarta: PT Grafindo Persada.

--

--