Pengantar Machine Learning
Dalam era teknologi yang semakin maju, perkembangan Artificial Intelligence (AI) dan Data Science semakin melonjak pesat. Saat ini, Artificial Intelligence banyak digunakan untuk membantu pekerjaan manusia dalam banyak bidang. Banyak kita jumpai AI yang digunakan dalam bidang hiburan, lalu lintas dan navigasi, bidang kesehatan, edukasi/pendidikan, bidang bisnis & retail, dan lain-lain.
Artificial Intelligence atau kecerdasan buatan adalah kecerdasan yang ditambahkan kepada suatu sistem yang bisa diatur dalam konteks ilmiah atau bisa disebut juga intelegensi artifisial (bahasa Inggris: Artificial Intelligence) atau hanya disingkat AI, didefinisikan sebagai kecerdasan entitas ilmiah.
Machine Learning merupakan bagian dari Artificial Intelligence (kecerdasan buatan) yang berhubungan dengan pengembangan teknik-teknik yang bisa diprogramkan dan belajar dari data masa lalu. Machine Learning merupakan alat analisis dalam Data Mining.
Algoritma Machine Learning dibagi menjadi 3 bagian besar berdasarkan input dan output yang diharapkan, yakni Supervised Learning yang meliputi klasifikasi dan regresi, Unsupervised Learning yang meliputi clustering, dan Semi-supervised Learning yang merupakan penggabungan Supervised Learning dan Unsupervised Learning.
Secara umum, alur dari Machine Learning dapat kita kelompokan menjadi 3, yaitu Preprocessing Data, Modelling, dan Evaluasi.
Preprocessing Data
Preprocessing (pra-pemrosesan) data merupakan tahap awal untuk mempersiapkan data sebelum melakukan modelling. Preprocessing data ini bertujuan untuk mendapatkan hasil yang lebih akurat. Dalam hal lain, preprocessing data dapat berguna untuk mengurangi waktu komputasi atau untuk melihat karakteristik data.
- Data Cleaning
- Mengidentifikasi atau Menghilangkan Data Outlier dan Inkonsitensi Data.
- Menghaluskan Noisy Data
- Menghaluskan Noisy Data
- Mengatasi Missing Value
Suatu data dapat dilakukan modelling jika data tersebut lengkap (tidak ada missing value). Pada data tabular, jika terdapat data yang tidak lengkap (incomplete) maka kita dapat menghapus data tersebut jika proporsi data yang tidak lengkap hanya sedikit dibandingkan seluruh data yang ada. Jika suatu data terdapat banyak data yang hilang (missing) dan tidak mungkin dihapus, maka kita harus mengisi missing value tersebut. Ada beberapa cara mengisi missing value dengan pendekatan statistik seperti, mengisi dengan nilai rata-rata, modus, ataupun mediannya.
2. Transformasi Data
- Centering
Centering merupakan teknik transformasi data dengan cara mengurangi setiap data dengan rata-rata dari setiap atribut yang ada.
- Standarisasi (normalisasi z-score)
Setelah melakukan Centering, setiap hasil dari Centering dibagi dengan standar deviasi dari atribut yang bersangkutan. Cara demikian disebut dengan Standarisasi.
- Scaling
Scaling adalah prosedur merubah data sehingga berada dalam skala tertentu. Biasanya menggunakan skala [0,1] atau [-1,1] tetapi bisa juga menggunakan skala tertentu lainnya.
Modelling
Sebelum melakukan modelling. Kita membagi data menjadi 2 bagian, yaitu data untuk melakukan modelling atau yang biasa disebut data train dan data untuk menguji model hasil training yang biasa disebut data test. Proporsi pembagian antara data train dan data test tidak ada ketentuan baku, tetapi biasanya digunakan proporsi 70% untuk data train dan 30% untuk data test.
Selanjutnya, data train ini yang akan kita gunakan untuk membuat model. Algoritma Machine Learning yang digunakan disesuaikan dengan tujuan dari modellingnya. Jika klasifikasi, salah satu contoh algoritma yang dapat digunakan yaitu Naive Bayes, jika regresi kita dapat menggunakan Decision Tree Regresor, jika clustering kita dapat gunakan K-means. Selain itu, masih banyak lagi algoritma Machine Learning lainnya.
Evaluasi
Untuk mengevaluasi kinerja suatu model tidak hanya ditentukan oleh akurasi saja. Banyak cara lain yang dapat digunakan untuk menilai performa dari suatu model, diantaranya:
- Klasifikasi (classification metrics): accuracy, precision, recall, F1-score, ROC, AUC, dan lainnya.
- Regresi (regression metrics) : MSE, MAE, dan lainnya.
- Klastering (clustering metrics): Silhouette Coefficient, Davies-Bouldin Index, Dunn Index, dan lainnya.
Referensi
- https://id.wikipedia.org/wiki/Pemelajaran_mesin
- Santosa, Budi dan Ardian Umam. 2018. Data Mining dan Big Data Abalytics. Yogyakarta: Penebar Media Pustaka.