Machine Learning Preprocessing Card Data Kaggle Python

Yasril Imam
Jul 30 · 3 min read

Halo teman-teman semua, Pada kali ini saya akan mengulas langkah-langkah dalam Prepocessing Data yang masih memiliki “Noise” atau data yang belum bisa di proses dengan mengunakan bahasa python beserta libary yang digunakan.

Image for post
Image for post

Penjelasan Singkat Preprocessing Data

Preprocessing data adalah tahap penting dalam pembelajaran mesin, karena data masukan yang baik dan tepat (harusnya) akan membuat estimator mampu menghasilkan keluaran yang baik pula.

Persiapan Libary

Salah satu keunggulan python adalah mendukung banyak open-source library. Ada banyak library python yang dapat digunakan untuk melakukan dan mengimplementasikan masalah dalam preprocessing data.

Implementasi Sourcode

Dalam implentasi ini kita bisa menggunakan beberapa libary untuk melakukan preprocessing data contohnya sebagai berikut :

import pandas as pd
import
numpy as np

Penjelasan Libary :

a. Pandas merupakan toolkit yang powerfull sebagai alat analisis data dan struktur untuk bahasa pemrograman Python. Dengan menggunakan pandas kita dapat mengolah data dengan mudah, salah satu fiturnya adalah Dataframe.

b. NumPy (Numerical Python) adalah library Python yang fokus pada scientific computing. NumPy memiliki kemampuan untuk membentuk objek N-dimensional array, yang mirip dengan list pada Python. Keunggulan NumPy array dibandingkan dengan list pada Python adalah konsumsi memory yang lebih kecil serta runtime yang lebih cepat.

df = pd.read_csv("cardata.csv", encoding ='utf-8')
#Membaca Data csv
df

Sourcode diatas berfungsi untuk membaca data csv dan menampilkannya

Image for post
Image for post
Data csv yang ditampilkan
df.Merek = df.Merek.str.upper() 
df.Model = df.Model.str.upper()
df.Bahan_Bakar = df.Bahan_Bakar.str.upper()
df.Jenis_Kendaraan = df.Jenis_Kendaraan.str.upper()

df.Merek = df.Merek.replace({"_":" "}, regex=True)
df.Model = df.Model.replace({"_":" "}, regex=True)
df.Km = df.Km.replace({",0":""}, regex=True)

df = df.dropna(subset = ['Merek','Model','Bahan_Bakar','Jenis_Kendaraan','Km'])
df

Pada sourcode diatas memiliki beberapa fungsi penting dalam proses preprocessing seperti “str.upper” berfungsi mengganti huruf kapital, fungsi “Replace” berfungsi mengembalikan salinan pada string, “regek” atau Regular expressions cara untuk mencari string berdasarkan rule. Contoh, mencari semua merek atau model dalam dataset dan Dropna berfungsi untuk menghapus data NaN pada data yang di subset.

Image for post
Image for post
Data yang berhasil di preprocessing menggunakan beberapa fungsi diatas.
confirm2 = df.groupby(['Merek','Model','Tahun']).sum()
z2 = confirm2.sort_values(['Km','Merek','Model','Tahun'])
yy2 = pd.DataFrame(z2)
yy2.to_csv("data hasil2.csv")
yy2

Langkah selanjutnya saya akan mengambil sebagian atribut dari data Car yang sudah di preprocessing dengan menggunakan fungsi groupby untuk mengelompokan atribut yang pilih. Setelah atribut di kelompokan jangan lupa menggunakan fungsi Sorting unutk mengurutkan data terendah ke data tertinggi dan saya akan exportkan data csv baru ke Laptop/Komputer saya dengan menggunakan fungsi (“to_csv”). Maka data hasil akhirnya seperti ini.

Image for post
Image for post
Data yang di export ke laptop dan melewati Preprocessing

Penutup

Dalam tulisan ini kita telah mengetahui langkah dasar dalam preprocessing data beserta library yang digunakan dalam python. Selanjutnya hasil dari Data preprocessing dapat digunakan untuk proses selanjut seperti melakukan Klasifikasi atau Klustering. Selamat mencoba dan sukses selalu :))

Baris kode diatas dapat anda temukan di github saya. https://github.com/yasrilimam98/cardata-preprocessing

Lebih jelas lagi bisa langsung kunjungi Youtube Channel saya

https://www.youtube.com/channel/UCpAIJbuXwvwQf6F4h7fLQaQ

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch

Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore

Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store