Data Preprocessing Template

Data Preprocessing 07

R. Kukuh
2 min readFeb 11, 2018

Halo semua, selamat datang dibagian terakhir dari seri tutorial Data Preprocessing.

Jika Anda mengikuti tutorial ini dari awal, berarti Anda telah melakukan berbagai macam teknik data preprocessing untuk kebutuhan Machine Learning modelling nantinya, seperti:

Namun dalam kebanyakan kasus, kita akan jarang menemui suatu dataset yang perlu diproses sebanyak langkah-langkah diatas. Seperti misalnya:

  1. Akan jarang kita temui dataset berkualitas yang punya “missing data” didalamnya, atau
  2. Tentang categorical data yang terkadang tidak perlu di-encode karena: (1) besarnya ukuran (file size) dataset sehingga dikhawatirkan proses encode akan berjalan sangat lama, (2) beragamnya isi categorical data yang ada, dan (3) ada cara lain yang lebih efektif dan efisien untuk memproses categorical data.
  3. Juga tentang feature scaling, dimana kebanyakan library dalam Python dan R tidak memerlukan proses feature scaling untuk membuat model Machine Learning.

Oke, seperti judul artikel ini. Mari kita membuat suatu template untuk urusan data preprocessing. Template ini akan berisi kode-kode yang telah kita tulis, dengan optimasi (pengurangan kode yang tidak perlu) seperlunya.

Daftar Isi

  1. Python / Spyder
  2. R / RStudio

Python / Spyder

Buka Anaconda Navigator, lalu buka Spyder

Lanjutkan project sebelumnya tentang Data Preprocessing 06

Ubah kode yang sudah ada secara keseluruhan menjadi seperti ini:

Template kode Python untuk melakukan data preprocessing

R / Studio

Buka RStudio

Lanjutkan project sebelumnya tentang Data Preprocessing 06

Ubah kode yang sudah ada secara keseluruhan menjadi seperti ini:

Template kode R untuk melakukan data preprocessing

--

--

R. Kukuh

Sr. Software Dev Learning Facilitator at Apple Developer Academy @UC