Basic Data Science with Python

Published in

Amikom Computer Club

5 min readMar 31, 2022

Materi pengantar mengenai dasar-dasar data science menggunakan bahasa pemrograman Python.

Halo, teman-teman!
Bersua lagi di kelas pembelajaran Desktop Programming AMIKOM Computer Club. Langsung aja kita simak pembelajaran di modul kali ini.

Di pertemuan sebelumnya sudah belajar tentang library di Python kan? Nah, sekarang kita akan coba betul-betul menerapkan beberapa library kemarin pada kasus nyata nih. Kita akan coba menerapkan library tersebut ke dalam proses Data Science yang sedang hype itu.

Tapi, perlu digarisbawahi ya teman-teman bahwa modul ini lebih menekankan pada aspek teknis dalam penggunaan library. Jadi, kita tidak akan membahas terlalu dalam mengenai data science. Barangkali kita hanya akan sedikit menyinggung tentang Exploratory Data Analysis yang merupakan salah satu proses dalam pengelolaan data. Yuk langsung kita bahas ya!

Apa itu Data Science?

Mengutip dari sebuah platform belajar daring, data science didefinisikan sebagai berikut,

Data science adalah bidang multi-disiplin yang menggunakan metode, proses, algoritma, dan sistem ilmiah untuk mengekstrak pengetahuan dan informasi dari data terstruktur dan tidak terstruktur. Data science merupakan konsep untuk menyatukan statistik, analisis data, pembelajaran mesin (machine learning), pengetahuan dasar (domain knowledge) dan metode terkaitnya untuk memahami dan menganalisis fenomena aktual dengan data.
~ Bisa AI Academy

Kenapa Data Science Diperlukan?

Pernah dengar istilah “data is the new oil”? Kenapa sampai disebut sebagai ‘minyak versi baru’ yang notabene minyak adalah komoditas berharga?

Ternyata begitu pun dengan data. Dengan proses data analisis yang tepat, maka informasi yang terbentuk dapat dijadikan bahan pertimbangan bagi berbagai kepentingan seperti dalam bidang ekonomi, marketing, hingga politik. Dan hal tersebut mampu mendatangkan manfaat yang lebih besar lagi.

Jumlah data yang banyak membutuhkan mekanisme pengelolaan agar data tidak terkumpul sia-sia. Google, Amazon, Facebook, Microsoft setidaknya menyimpan data informasi sebanyak 1.200 petabytes (setara dengan 1,2 milyar GB) [1]. Sangat sia-sia bukan jika data yang tersimpan hanya didiamkan saja? Maka dari itu hadirlah ilmu data science yang digunakan untuk mengelola ‘Data Tsunami’ tadi agar memberikan manfaat yang lebih besar dibanding hanya disimpan.

Praktikum

Kali ini kita akan mencoba salah satu proses di dalam siklus data science, yaitu Exploratory Data Analysis (EDA). Library yang akan kita gunakan setidaknya ada tiga.

Ikuti langkah-langkah berikut ya!

#1 Dataset

Dalam praktikum ini kita akan menggunakan dataset Kecelakaan Kapal Titanic yang kita ambil dari platform Kaggle (unduh di sini). Setelah diunduh, ubah nama dataset menjadi “dataset_titanic.csv”. Pastikan file tersebut di simpan di dalam satu direktori dengan file kodingan.

#2 Persiapan text editor

Seperti di materi pada pertemuan sebelumnya, pastikan sudah terdapat virtual environment (baca di sini) dalam folder kodingan kita untuk instalasi library nantinya

#3 Impor library

Kata ‘as’ dalam script gunanya sebagai istilah pengganti untuk memanggil fungsi library yang sudah diimpor.

Dengan menggunakan ‘as’ kita cukup menulis pd.read_csv() yang mana kalau tanpa ‘as’ kita perlu menulis pandas.read_csv().

#4 Load dataset

Kemudian kita akan memuat dataset yang sudah diunduh tadi ke dalam kodingan menggunakan fitur dari library Pandas, yaitu .read_csv(‘nama_dataset.csv’). Setelah sintaks ditulis, akan kita uji apakah dataset benar-benar sudah termuat ke dalam kodingan menggunakan .shape() dan .head(). Gas langsung di-run!

Jadi, apa kegunaan dari **.shape** dan **.head()**? Spill jawabanmu ke kita nanti ya 😁

Outputnya adalah seperti ini,

**(rows, columns)**, sebuah output dari .shape yang menunjukkan jumlah baris dan kolom dalam dataset

Okey, kalau sudah menampilkan output seperti di atas artinya dataset berhasil dimuat.

#5 Drop atribut yang tidak digunakan

Tadi sudah lihat kan output dari .shape, dan ternyata dataset memiliki 28 kolom/atribut. Wah, banyak yah?

Nah, untuk mempercepat pemrosesan data, ada baiknya kita ‘buang’ atribut-atribut yang tidak digunakan. Tapi gimana cara kita tahu seluruh kolom yang ada saat ini? Gunakan sintaks print(df.columns).

Kita hanya akan menggunakan atribut ‘Age’, ‘Sex’, ‘sibsp’, ‘Pclass’, ‘2urvived’. Gini cara drop kolomnya,

Tulis semua kolom yang akan ‘dibuang’, sisakan kolom yang akan digunakan

Untuk memastikan proses dropout berhasil, gunakan kembali df.shape dan jika benar akan tampil (1309, 5). Kini hanya tersisa lima atribut yang akan kita gunakan.

#6 Drop record data yang nilai atributnya mengandung null

Caranya sangat sederhana,

df.dropna(inplace=True)

Lalu, untuk memastikan data benar sudah terhapus adalah dengan menggunakan .shape lagi ya.. dan ternyata jumlah barisnya tetap sama! Artinya tidak ada record yang dihapus.

#7 Visualisasi data

Langsung ya kita visualisasikan data-data tadi..

‘Sex’ dan ‘Survived’

Melihat jumlah penumpang yang selamat berdasarkan jenis kelamin. Kita bisa menggunakan visualisasi sebagai berikut,

Output nya akan seperti ini,

Visualisasi atribut ‘Sex’ dan ‘2urvived’

‘Pclass’ dan ‘Survived’

Melihat jumlah penumpang yang selamat berdasarkan kelas tiket. Kita bisa menggunakan visualisasi sebagai berikut,

Output nya sebagai berikut,

Visualisasi atribut ‘Pclass’ dan ‘2urvived’

Oke, dicukupkan dulu ya pembahasan kita pada modul kali ini. Jangan lupa untuk eksplorasi lebih jauh tentang materi ini supaya makin banyak referensi ilmu. Terima kasih 💙

Reference:

BISA AI — AI For Everyone