Mining Of Massive Dataset -Clustering

Azizmuslim
TLabCircle
Published in
3 min readOct 30, 2022

Ringkasan

  • Masalah dasar clustering cukup sederhana, dari banyak data yang ada kita dapat melihat pengelompokan data berdasarkan kemiripannya.
  • Secara intuitif jelas dengan melihat gambar dibawah ada 3 kelompok data, kemudian ada data outlier yang tidak masuk kedalam kelompok manapun.
Ilustrasi Clustering
Clustering

Jadi, clustering adalah bagaimana suatu mesin bisa mengelompokan data berdasarkan tingkat kemiripannya

Clustering

Clustering adalah sebuah proses untuk mengelompokan data ke dalam beberapa cluster sehingga data dalam satu cluster memiliki tingkat kemiripan yang maksimum dan data antar cluster memiliki kemiripan yang minimum.

Clustering merupakan proses partisi satu set objek data ke dalam himpunan bagian yang disebut dengan cluster. Objek yang di dalam cluster memiliki kemiripan karakteristik antar satu sama lainnya dan berbeda dengan cluster yang lain. Partisi tidak dilakukan secara manual melainkan dengan suatu algoritma clustering. Oleh karena itu, clustering sangat berguna dan bisa menemukan group atau kelompok yang tidak dikenal dalam data.

Pada contoh sebelumnya kita dapat membedakan kelompok dengan sangat mudah karena hanya ada 2 dimensi, tetapi bagaimana dengan penerapnnya pada high-dimentional space, sebuah dimensi dengan ribuan atau ratusan dimensi, dan kesamaan akan ditentukan menggunakan ukuran jarak seperti yang telah dibahas sebelumnya seperti.

Ilustrasi Clusering

Perbedaan Dengan Klasifikasi

Classification

  • Dataset yang digunakan memiliki label atau menampilkan class.
  • Termasuk kedalam proses pembelajaran supervised.
  • Terdapat informasi mengenai bagaimana data tersebut dikelompokan, kemudian dilakukan training pada sistem dengan data yang sudah diberikan label ( kedalam kelompok manakah data tersebut dikelompokan).
  • Sistem akan mengklasifikasikan data-data yang baru kedalam kelompok yang ada. Tidak akan pertambahan kelompok.

Clustering

  • Dataset yang digunakan tidak memiliki label.
  • Termasuk kedalam proses pembelajaran unsupervised.
  • Klastering dipakai ketika tidak diketahuianya bagaimana data harus dikelompokan. Jumlah kelompok diasumsikan sendiri tanpa ditentukan terlebih dahulu. Pengelompokan dilakukan sendiri berdasarkan kemiripan data. Keluaran dari data ini adalah data yang sudah dikelompokan.

Jenis Clustering

Hierarchical clustering

Data dikelompokan melalui suatu bagan yang berupa hirarki, dimana terdapat penggabungan dua grup yang terdekat disetiap iterasinya ataupun pembagian dari seluruh set data kedalam klaster

Langkah melakukan hirarchical clustering

  1. Identifikasi item dengan jarak terdekat.
  2. Gabungkan item itu kedalam satu cluster.
  3. Hitung jarak cluster.
  4. Ulangi dari awal sampai semua terhubung.

Contoh algoritma

  • Single Linkage
  • Complete linkage
  • average linkage
  • average group linkage
Hierarchical clustering

Point Assignment/Non-Hierarchical clustering

Data dikelompokan kedalam sejumlah cluster tanpa ada struktur hirarki antara satu dengan yang lainnya. Setiap cluster memiliki titik pusat cluster (centroid) dan secara umum metode ini memiliki fungsi tujuan yaitu untuk meminimumkan jarak (disimilarity) dari seluruh data ke pusat cluster masing-masing.

Data dikelompokan kedalam sejumlah cluster, setiap cluster memiliki titik pusat cluster (centroid). Secara umum bertujuan untuk meminimumkan jarak (dissimilirarity) dari seluruh data ke pusat cluster masing-masing.

Contoh algoritma

  • K-Means
  • Fuzzy K-Means
  • Mixture Modeling
Non-Hierarchical clustering

--

--