Mengatasi “Missing Data” dalam Dataset

Data Preprocessing 03

R. Kukuh
2 min readFeb 7, 2018

Missing data dalam dataset tentu akan membuat hasil analisa data menjadi kacau. Berikut adalah contoh missing data dalam dataset:

Missing Data ditemukan pada kolom Age dan Salary

Simak penjelasan cara mengatasi missing data dalam dataset ini dengan menggunakan Python dan R.

Daftar Isi

  1. Python / Spyder
  2. R / RStudio

Python / Spyder

Buka Anaconda Navigator

Buka Spyder

Buka project sebelumnya tentang Data Preprocessing 02

Lanjutkan dengan kode berikut:

Import libary bernama Imputer untuk menangani missing data

Pro Tips: Highlight kata “Imputer” lalu tekan ⌘ + i untuk menampilkan dokumentasinya seperti ini:

Dokumentasi yang berisi deskripsi sekaligus penjelasan masing-masing parameter dari suatu fungsi

Lanjutkan kode diatas hingga menjadi seperti ini:

Kode Python untuk mengubah missing data menjadi ‘mean’ value dari kolom tersebut

Eksekusi kode di atas, maka di console akan tampak seperti ini:

Hasil eksekusi proses Imputer

Ketik X pada console untuk mengetahui isi dari matrix X setelah missing data-nya di-handle oleh Imputer:

Isi matrix X setelah missing data-nya diatasi oleh Imputer

R / RStudio

Buka RStudio

Buka project sebelumnya tentang Data Preprocessing 02

Lanjutkan dengan kode berikut:

Kode R untuk meng-handle missing data dengan mean value

Eksekusi kode diatas sehingga dalam console akan muncul result seperti ini:

Hasil eksekusi kode R

Lihat objek dataset, perhatikan bahwa sekarang missing data pada kolom Age sudah diganti:

Missing data yang sudah diganti dengan mean value

Lakukan hal yang sama terhadap missing data pada kolom Salary

Kode R untuk meng-handle missing data dengan mean value

Eksekusi kodenya, lalu perhatikan bahwa sekarang dataset sudah tidak memiliki missing data lagi.

Missing data yang sudah diganti dengan mean value

--

--

R. Kukuh

Sr. Software Dev Learning Facilitator at Apple Developer Academy @UC