Metode Analisis Cluster [Part 1]

IQBAL FATHUR RAHMAN
3 min readJul 9, 2019

--

  1. Analisis Cluster

Analisis cluster adalah teknik multivariat yang mempunyai tujuan utama untuk mengelompokkan objek-objek/cases berdasarkan karakteristik yang dimilikinya. Analisis cluster mengklasifikasi objek sehingga setiap objek yang memiliki sifat yang mirip (paling dekat kesamaannya) akan mengelompok ke dalam satu cluster (kelompok) yang sama.

Secara logika, cluster yang baik adalah cluster yang mempunyai:

  1. Homogenitas (kesamaan) yang tinggi antar anggota dalam satu cluster (within-cluster).
  2. Heterogenitas (perbedaan) yang tinggi antar cluster yang satu dengan cluster yang lainnya (between-cluster).

2. Metode Analisis Cluster

Dalam analisis cluster terdapat 2 metode yang dapat digunakan yaitu hirarchical metode dan non-hirarchical metode. pada artikel kali ini saya akan membahas hirarchical metode terlebih dahulu.

Hirarchical Methode

Metode ini memulai pengelompokan dengan dengan dua atau lebih objek yang mempunyai kesamaan paling dekat. Kemudian proses diteruskan keobjek lain yang mempunyai kedekatan kedua. Demikian seterusnya sehingga cluster akan membentuk semacam “pohon”, di mana ada hirarki (tingkatan) yang jelas antar objek, dari yang paling mirip sampai paling tidak mirip. Secara logika semua objek pada akhirnya akan membentuk sebuah cluster. Hasil dari pengklasteran dengan menggunakan metode ini dapat disajikan dengan menggunakan dendogram.

Gambar 1. Dendogram

Dendogram adalah representasi visual dari langkah-langkah dalam analisis cluster yang menunjukkan bagaimana cluster terbentuk dan nilai koefisien jarak pada setiap langkah. Angka disebelah kanan adalah obyek penelitian, dimana obyek-obyek tersebut dihubungkan oleh garis dengan obyek yang lain sehingga pada akhirnya akan membentuk satu cluster.

Metode-metode yang bisa digunakan dalam metode hierarki adalah metode agglomeratif (agglomerative method) dan metode defisif (devisive method).

1) Metode Aglomeratif

Agglomeratif adalahbagian yang sangat penting pada saat kita coba interprestasi analisis cluster hirarki ini. Proses aglomerasi ini bersifat kompleks, khususnya perhitungan koefisien yang melibatkan sekian banyak obyek dan terus bertambah. Proses aglomerasi pada akhirnya akan menyatukan semua obyek menjadi satu cluster. Hanya saja dalam prosesnya dihasilkan beberapa cluster dengan masing-masing anggotanya, tergantung jumlah cluster yang dibentuk. Metode aglomeratif terdiri dari beberapa macam, yaitu:

a) Metode Single Lingkage

Untuk menentukan jarak antar cluster dengan menggunakan metode single linkage dapat dilakukan dengan melihat jarak antar dua cluster yang ada kemudian memilih jarak paling dekat atau aturan tetangga dekat (nearest neighbour rule).

b) Metode Complete Lingkage

Pada metode complete linkage, jarak antar cluster ditentukan oleh jarak terjauh (farthest-neighbour) antara dua obyek dalam cluster yang berbeda

c) Metode Centroid

Centroid adalah rata-rata semua obyek dalam cluster. Pada metode ini, jarak antar cluster adalah jarak antar centroid. Centroid baru dihitung ketika setiap kali obyek digabungkan, sehingga setiap kali anggotanya bertambah maka centroid nya akan berubah. Pada metode centroid, jarak antar cluster adalah jarak antar centroid. Centroid adalah rata-rata dari semua anggota dalam cluster tersebut. Pada saat obyek digabungkan maka centroid baru dihitung, sehingga setiap kali ada penambahan anggota, centroid akan berubah pula

d) Metode Average Linkage

Pada metode average linkage, jarak antara dua cluster dianggap sebagai jarak rata-rata antara semua anggota dalam satu cluster dengan semua anggota cluster lain.

e) Metode Ward

Metode varians bertujuan untuk memperoleh cluster yang memiliki varians internal cluster yang sekecil mungkin. Metode varians yang umum dipakai adalah metode Ward dimana rata-rata untuk setiap cluster dihitung. Lalu, dihitung jarak Euclidean antara setiap obyek dan nilai rata-rata itu, lalu jarak itu dihitung semua. Pada setiap tahap, dua cluster yang memiliki kenaikan ‘sum of squares dalam cluster’ yang terkecil digabungkan .

Ward merupakan suatu metode pembentukan cluster yang didasari oleh hilangnya informasi akibat penggabungan obyek menjadi cluster. Hal ini diukur dengan menggunakan jumlah total dari deviasi kuadrat pada mean cluster untuk setiap pengamatan. Error sum of squares (SSE) digunakan sebagai fungsi obyektif. Dua obyek akan digabungkan jika mempunyai fungsi obyektif terkecil diantara kemungkinan yang ada.

2) Metode Devisif

Proses dalam metode divisif berkebalikan dengan metode agglomerative. Metode ini dimulai dengan satu cluster besar yang mencakup semua obyek pengamatan. Selanjutnya, secara bertahap obyek yang mempunyai ketidakmiripan cukup besar akan dipisahkan kedalam cluster-cluster yang berbeda. Proses dilakukan sehingga terbentuk sejumlah cluster yang diinginkan, seperti, dua cluster, tiga cluster, dan seterusnya.

Sekian dulu pembahasan untuk metode hierarchical pada analisis cluster ini ya teman-teman, akan ada pembahasan-pembahasan tentang analisis cluster dengan metode lainnya dan penerapannya menggunakan software R, jadi tetep pantengin terus medium ini ya teman-teman.

Referensi :

  1. Modul Praktikum Statistika Multivariat Terapan2019 Yogyakarta Jurusan Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Islam Indonesia.

--

--