Analisis Klaster Hierarki Menggunakan R

5 min readJul 8, 2019

hello people-peoplee

Analisis klaster hierarki apa yaaaaaa?

Hierarki adalah analisis yang pengklasteran datanya dilakukan dengan cara mengukur jarak kedekatan pada setiap objek yang kemudian membentuk sebuah dendogram. Jenis analisis klaster dengan metode hierarki ada beberapa macam metode. Metode hierarki memulai pengelompokkan dengan dua atau lebih objek yang mempunyai kesamaan paling dekat. Kemudian diteruskan pada obyek yang lain dan seterusnya hingga klaster akan membentuk semacam pohondimana terdapat tingkatan (hierarki) yang jelas antara objek, dari yang paling mirip hingga yang paling tidak mirip. Alat yang membantu untuk memperjelas proses hierarki ini disebut dendogram (Richard & kk, 2014).

Menurut (Handoyo, 2014) metode-metode yang bisa digunakan dalam metode hierarki adalah metode agglomeratif (agglomerative method) dan metode defisif (devisive method). Menurut (W.Hardle, 2007) metode agglomeratif dimulai dengan menganggap bahwa setiap objek adalah sebuah klaster. Kemudian dua objek dengan jarak terdekat digabungakan menjadi satu klaster. Selanjutnya obyek ketiga akan bergabung dengan klasteryang ada atau bersama objek lain dan membentuk klasterbaru dengan tetap memperhitungkan jarak kedekatan antar obyek. Proses akan berlanjut hingga akhirnya terbentuk satu klaster yang terdiri dari keseluruhan objek. Metode hierarki agglomeratif (agglomerative method) masih ada lima metode dalam pembentukan klaster yaitu:

1. Pautan rata-rata (Average Linkage) : menghitung jarak dua klaster yang disebut sebagai jarak rata-rata yang mana jarak tersebut dihitung pada masing-masing klaster.

2. Pautan tunggal (Single Linkage) : similaritas dari dua klaster didasarkan pada dua titik paling dekat dari dua klaster yang berbeda. hal ini terus dilakukan hingga semua objek membentuk satu klaster.

3. Pautan komplit (Complete Linkage) : jarak antara dua buah klaster dihitung dari jarak terjauh antara anggota klaster satu dengan klaster kedua.

4. Metode ward (Ward’s Method) : jarak antara dua klaster dalam metode ini berdasarkan total sum of square dua klaster pada masing-masing variable.

5. Metode Centroid (pusat) : jarak antara dua klaster dalam metode ini berdasarkan jarak centroid dua klaster yang bersangkutan.

Next gaes kita coba yuk analisis menggunakan data iklim 2017!!!!!!!!!!!!!!!!

Pertama kita cek dulu data diatas mengandung data missing atau tidak menggunakan syntax “summary”.

anggit<-read.delim("clipboard")
anggit
summary(anggit)

saya mengambil variabel suhu untuk diinterpretasikan. Menurut data yang ada suhu tertinggi bisa mencapai 3593 dengan suhu terendahnya 54 dan rata-rata suhu yang terjadi pada tahun 2017 ialah sebsar 1307 dan juga menginformasikan bahwa tidak terdapat data missing. selanjutnya yaitu melakukan uji multikolinearitas untuk mengetahui apakah antara data terdapat korelasi atau tidak.

#Uji Asumsi
library(car)
multikol=cor(anggit[,2:4])
multikol
View(multikol)

Berikut ini pengujian multikolinearitas:

Hipotesis(tidak terdapat korelasi antar semua pertanyaan)(paling sedikit ada satu korelasi)Tingkat signifikansi 0.05Daerah kritisTolak jika nilai koralasi > 0.7Keputusan dan kesimpulanBerdasarkan output tidak terdapat nilai korelasi yang > 0.7 artinya tidak terdapat korelasi antar suhu dengan angin, suhu dengan hujan mauoun angin dengan hujan.

Tahap berikutnya, saya akan menghitung jarak yang untuk mencari berapa selisih dari data 1 ke data yang lainnya. Berikut ini syntax beserta output :

#jarak
jarak = dist(anggit[,2:4])
jarak

Selanjutnya melakukan pengelompokkan provinsi berdasarkan data iklim tahun 2017 di Indonesia menggunakan klaster hirarki metode “Average Linkage”, “Complete Linkage”, “Single Linkage”, “Ward’s”, “Centroid”, . Berikut adalah syntax beserta output dari setiap metode:

#-------------------METODE AVERAGE----------------------#
hirarkiavg=hclust(dist(anggit[,2:4]),method = "ave")
hirarkiavg
windows()
plot(hirarkiavg,labels=anggit$Provinsi)#dendogram
rect.hclust(hirarkiavg,3) #plot mengelompokan data
anggotaavg=data.frame(id=anggit$Provinsi, cutree(hirarkiavg, k=3))
anggotaavgcophenetic(hirarkiavg) #jarak cophenetic average
#korelasi chophenetic
d1=dist(anggit[,2:4])
hc = hclust(d1,"ave")
d2 = cophenetic(hc)
corave = cor (d1,d2)
corave

#-------------------METODE COMPLATE----------------------#
hirarkicomp=hclust(dist(scale(anggit[,2:4])), method="complete")
hirarkicomp
windows()
plot(hirarkicomp,labels = anggit$Provinsi)
rect.hclust(hirarkicomp,3) #plot mengelompokkan data 
anggotacomp=data.frame(id=anggit$Provinsi, cutree(hirarkicomp, k=3))
anggotacomp
cophenetic(hirarkicomp) 
#korelasi chophenetic
d1=dist(anggit[,2:4])
hc = hclust(d1,"complete")
d2 = cophenetic(hc)
corcomp = cor (d1,d2)
corcomp

#-------------------METODE SINGLE----------------------#
hirarkising=hclust(dist(scale(anggit[,2:4])), method="single")
hirarkising
windows()
plot(hirarkising,labels = anggit$Provinsi)
rect.hclust(hirarkising,3) #plot mengelompokkan data 
anggotasing=data.frame(id=anggit$Provinsi, cutree(hirarkising, k=3))
anggotasing
cophenetic(hirarkising) 
#korelasi chophenetic
d1=dist(anggit[,2:4])
hc = hclust(d1,"single")
d2 = cophenetic(hc)
corsing = cor (d1,d2)
corsing

#-------------------METODE WARD----------------------#
hirarkiward=hclust(dist(scale(anggit[,2:4])), method="ward.D")
hirarkiward
windows()
plot(hirarkiward,labels = anggit$Provinsi)
rect.hclust(hirarkiward,3) #plot mengelompokkan data 
anggotaward=data.frame(id=anggit$Provinsi, cutree(hirarkiward, k=3))
anggotaward
cophenetic(hirarkiward)
#korelasi chophenetic
d1=dist(anggit[,2:4])
hc = hclust(d1,"ward.D")
d2 = cophenetic(hc)
corward = cor (d1,d2)
corward

#-------------------METODE CENTROID----------------------#
hirarkicent=hclust(dist(anggit[,2:4]), method="centroid")
hirarkicent
windows()
plot(hirarkicent,labels = anggit$Provinsi)
rect.hclust(hirarkicent,3) #plot mengelompokkan data 
anggotacent=data.frame(id=anggit$Provinsi, cutree(hirarkicent, k=3))
anggotacent
cophenetic(hirarkicent) 
#korelasi chophenetic
d1=dist(anggit[,2:4])
hc = hclust(d1,"centroid")
d2 = cophenetic(hc)
corcent = cor (d1,d2)
corcent

Untuk menentukan metode terbaik dari ke-5 metode yang telah dijelaskan dalam melakukan pengelompokan provinsi berdasarkan data iklim 2017 di Indonesia kita dapat melihat nilai korelasi cophenetic dari tiap metode, semakin mendekati 1 nilai korelasi copheneticnya maka semakin baik metode tersebut digunkan. Berikut ini output korelasi cophenetic dari tiap metode:

Berdasarkan output pada Gambar diatas diperoleh informasi bahwa nilai korelasi cophenetic klaster hierarki dengan metode Average yang paling tinggi yaitu sebesar 0.7687918, maka metode Average merupakan metode yang paling baik untuk mengelompokan provinsi di Indonesia berdasarkan data iklim 2017. Berikut ini pengelompokan provinsi di Indonesia sebanyak 3 klaster.

Berdasarkan output pada Gambar diatas diperoleh informasi bahwa Provinsi Sumtra Barat, NAD, Jawa Tengah, Kalimantan Selatan, Sulawesi Tengah, NTB, Sumatra Utara, Sulawesi Selatan, Sulawesi Utara, dan Maluku Utara berada pada kelompok Cluster no 2, Provinsi Yogyakarta berada pada kelompok klaster no 3, sedangkan provinsi lainnya berada pada klaster no 1. Setelah praktikan mengetahui pengelompokan provinsi, tahap selanjutnya yaitu melakukan provilisasi dengan cara memindahkan pengelompokan data tersebut kedalam Tabel kemudian data di urutkan dari kelompok 1 sampai kelompok 3.

Setelah praktikan menghitung nilai rata-rata suhu, angin dan hujan dari setiap kelompok tahap selanjutnya yaitu melihat nilai yang paling tinggi dari masing-masing variabel.

Berdasarkan informasi yang diperoleh bahwa kelompok 1 merupakan provinsi dengan rata-rata curah hujan yang tinggi, kelompok 2 merupakan provinsi dengan rata-rata suhu yang paling tinggi dan kelompok 3 merupakan provinsi dengan rata-rata kecepatan angin yang paling tinggi.

sekian penjelasan dari saya good peoplee babayyyyyyyy:)

Analisis Klaster Hierarki Menggunakan R

Written by ANGGIT NOVIETASARI