Memisah Dataset Menjadi Training-Set dan Test-Set

Data Preprocessing 05

R. Kukuh
3 min readFeb 9, 2018

Dalam membuat model Machine Learning, data harus dibagi menjadi Training-Set dan Test-Set.

Mengapa ini harus kita lakukan?

Well, machine learning adalah tentang machine yang sedang learning sesuatu. Maka dalam model machine learning tersebut harus ada goal (biasanya prediction) yang harus dicapai.

Nah, untuk mencapai goal tersebut, machine harus diberi tahu mana “set data” yang harus dicapai / dilampaui, dan mana “set data” yang bisa digunakan untuk mencapai / melampaui goal ini tadi.

“Set data” untuk dicapai inilah Test-Set, sedangkan “set data” untuk mencapainya disebut Training-Set.

Training-Set ini nantinya akan digunakan untuk membuat model machine learning, sedangkan Test-Set ini akan digunakan untuk menguji performa dan kebenaran (terhadap korelasi) dalam model yang bersangkutan.

Cukup dengan teorinya, mari kita membuatnya.

Daftar Isi

  1. Python / Spyder
  2. R / RStudio

Python / Spyder

Buka Anaconda Navigator, lalu buka Spyder

Lanjutkan project sebelumnya tentang Data Preprocessing 04

Tambahkan kode berikut:

Kode python untuk membuat training-set dan test-set

Jika bingung dengan kegunaan argumen yang ada, tekan ⌘ + i untuk melihat dokumentasinya.

Eksekusi kode diatas

Hasil eksekusi kode di window console
Hasil eksekusi kode di window variable explorer

Buka variabel X_train, X_test, Y_train, dan Y_test untuk melihat dengan lebih jelas

Isi dari variabel X_train, X_test, Y_train, dan Y_test

R / RStudio

Buka RStudio

Lanjutkan project sebelumnya tentang Data Preprocessing 04

Pertama, kita butuh dan install library baru: caTools

Kode R untuk install library

Hasil eksekusi kode diatas adalah seperti ini

Proses dan hasil instalasi library baru

Cari dan reload window Packages, dan kita akan mendapati library caTools ini ada disana

Library caTools terdaftar dalam window Packages

Setelah library yang dibutuhkan terinstal, berikutnya adalah mengaktifkannya. Ada 2 cara yang bisa kita gunakan: Centang pada window Packages, atau dengan kode berikut:

Load library yang diingikan (caTools)

Jangan lupa untuk men-disable (atau sekalian hapus) kode untuk install library karena sudah tidak dibutuhkan lagi.

Waktunya untuk memilah (splitting) dataset menjadi training set dan test set

Kode R untuk membuat training set dan test set

Jika bingung dengan kegunaan argumen yang ada, tekan F1 untuk melihat dokumentasinya.

Contoh dokumentasi dari suatu fungsi

Eksekusi kode berikut, dan hasil berikut akan kita dapat

Hasil eksekusi kode, dan isi dari variabel “split”
Eksekusi kode juga menciptakan data/object baru

Periksa objek training_set dan test_set di atas untuk melihat hasil dari pembuatan training set dan test set menggunakan R ini

Isi dari objek training_set
Isi dari objek test_set

--

--

R. Kukuh

Sr. Software Dev Learning Facilitator at Apple Developer Academy @UC