Memisah Dataset Menjadi Training-Set dan Test-Set
Dalam membuat model Machine Learning, data harus dibagi menjadi Training-Set dan Test-Set.
Mengapa ini harus kita lakukan?
Well, machine learning adalah tentang machine yang sedang learning sesuatu. Maka dalam model machine learning tersebut harus ada goal (biasanya prediction) yang harus dicapai.
Nah, untuk mencapai goal tersebut, machine harus diberi tahu mana “set data” yang harus dicapai / dilampaui, dan mana “set data” yang bisa digunakan untuk mencapai / melampaui goal ini tadi.
“Set data” untuk dicapai inilah Test-Set, sedangkan “set data” untuk mencapainya disebut Training-Set.
Training-Set ini nantinya akan digunakan untuk membuat model machine learning, sedangkan Test-Set ini akan digunakan untuk menguji performa dan kebenaran (terhadap korelasi) dalam model yang bersangkutan.
Cukup dengan teorinya, mari kita membuatnya.
Daftar Isi
- Python / Spyder
- R / RStudio
Python / Spyder
Buka Anaconda Navigator, lalu buka Spyder
Lanjutkan project sebelumnya tentang Data Preprocessing 04
Tambahkan kode berikut:
Jika bingung dengan kegunaan argumen yang ada, tekan ⌘ + i untuk melihat dokumentasinya.
Eksekusi kode diatas
Buka variabel X_train, X_test, Y_train, dan Y_test untuk melihat dengan lebih jelas
R / RStudio
Buka RStudio
Lanjutkan project sebelumnya tentang Data Preprocessing 04
Pertama, kita butuh dan install library baru: caTools
Hasil eksekusi kode diatas adalah seperti ini
Cari dan reload window Packages, dan kita akan mendapati library caTools ini ada disana
Setelah library yang dibutuhkan terinstal, berikutnya adalah mengaktifkannya. Ada 2 cara yang bisa kita gunakan: Centang pada window Packages, atau dengan kode berikut:
Jangan lupa untuk men-disable (atau sekalian hapus) kode untuk install library karena sudah tidak dibutuhkan lagi.
Waktunya untuk memilah (splitting) dataset menjadi training set dan test set
Jika bingung dengan kegunaan argumen yang ada, tekan F1 untuk melihat dokumentasinya.
Eksekusi kode berikut, dan hasil berikut akan kita dapat
Periksa objek training_set dan test_set di atas untuk melihat hasil dari pembuatan training set dan test set menggunakan R ini