Praktik Analisi Data Menggunakan Python dengan Google Colaboratory

Arfiant
4 min readMay 24, 2023

--

Artikel ini mencoba membuat beberapa praktik analisis data disertai dengan studi kasus yang berguna untuk pemula dalam maningkatkan kemampuan olah data.

Photo by Shahadat Rahman on Unsplash

Python merupakan bahasa pemrograman paling populer saat ini yang interpretatif dan multiguna. Python biasanya digunakan untuk mengembangkan website, mengembangkan software, menganalisis data, serta visualisasi data. Python juga merupakan bahasa pemrograman yang bersifat open source, sehingga dapat digunakan secara gratis.

Bahasa python mudah dipelajari untuk pemula, memiliki syntax yang mudah dibaca dan dipahami. Python merupakan interpreted language yang cocok untuk pemrograman yang dinamis seperti olah data.

Python memiliki toolbox lengkap yang membantu kita dalam proses perhitungan statistik, matematika, data analisis, dan mechine learning dengan dukungan ekosistem berbasis komunitas yang luas.

Google Colaboratory atau Google Colab merupakan executable document yang dibuat oleh Google Research yang dapat digunakan untuk menyimpan, menulis, dan membagikan program melalui Google Drive.

Google Colab pada dasarnya sama seperti Jupyter Notebook gratis yang bahasa programnya dijalankan browser. Google Colab memungkinkan penggunanya untuk menjalankan kode Python tanpa proses instalasi dan konfigurasi tambahan. Dengan Google Colab ini lah kita dapat mengasah kemampuan dan pengetahuan kita mengenai Python.

Dibawah ini kita akan mencoba untuk mempraktikan dasar analisis data melalui beberapa contoh studi kasus menggunakan Ptyhon. Dalam praktik kali ini, kita akan menggunakan Google Colab sebagai tools dalam melakukan analisis data.

Sebelum memulai menganalisis beberapa kasus, terlebih dahulu kita akan melakukan install pandas dan menimport library dengan menuliskan syntax berikut,

!pip install numpy
!pip install pandas

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pandas.tseries.offsets import BDay

Selanjutnya kita akan mengimport data yang akan kita gunakan dalam praktik kali ini. Berikut adalah dataset yang akan saya gunakan dan dapat kamu gunakan dalam praktik kali ini, dataset dapat kamu akses dengan menuliskan syntax berikut,

path_od = "https://raw.githubusercontent.com/dataskillsboost/myskill/main/order_detail.csv"
path_pd = "https://raw.githubusercontent.com/dataskillsboost/myskill/main/payment_detail.csv"
path_cd = "https://raw.githubusercontent.com/dataskillsboost/myskill/main/customer_detail.csv"
path_sd = "https://raw.githubusercontent.com/dataskillsboost/myskill/main/sku_detail.csv"
df_od = pd.read_csv(path_od)
df_pd = pd.read_csv(path_pd)
df_cd = pd.read_csv(path_cd)
df_sd = pd.read_csv(path_sd)

Hasil dataset dapat dilakukan dengan mengakses tautan berikut ini, https://colab.research.google.com/drive/1nvR7JbmK1YY_gbnotaKgr4gElSGSutvA?usp=share_link

Setelah kita memiliki data dan mengolah yang kita butuhkan selanjutnya Mari Kita Mulai Praktik Analisis Data

Case 1

Akhir tahun ini, perusahaan akan memberikan hadiah bagi pelanggan yang memenangkan kompetisi Festival Akhir Tahun. Tim Marketing membutuhkan bantuan untuk menentukan perkiraan hadiah yang akan diberikan pada pemenang kompetisi nantinya. Hadiah tersebut akan diambil dari TOP 5 Produk dari Kategori Mobiles & Tablets selama tahun 2022, dengan jumlah kuantitas penjualan (valid = 1) paling tinggi.

Untuk menyelesaikan kasus diatas, maka kita dapat menuliskan syntax seperti dibawah ini

df.info()
Menyimpan data dalam bentuk Pandas DataFrame
data1 = pd.DataFrame(\
#Memfilter data dengan valid=1
df[(df['is_valid']==1) &\
#Memfilter data dengan Category = Mobiles & Tablets
(df['category']=='Mobiles & Tablets') &\
#Memfilter data pada transaksi selama 2022
((df['order_date'] >= '2022-01-01') & (df['order_date'] <= '2022-12-31'))]\
#Mengelompokan data
.groupby(by=["sku_name"])["qty_ordered"]\
#Pengelompokan berdasarkan penjumlahan
.sum()\
#Mengurutkan data
.sort_values(ascending=False)\
#Mengambil TOP 5 Produk
.head(5)\
#Mereset nama header
.reset_index(name='qty_2022'))
data1

Case 2 & 3

Menindaklanjuti meeting gabungan Tim Werehouse dan Tim Marketing, kami menemukan bahwa ketersediaan stock produk dengan Kategori Beauty & Grooming pada akhir 2022 kemarin masih banyak.

  1. Kami mohon bantuan untuk melakukan pengecekan data penjualan kategori tersebut dengan tahun 2021 secara kuantitas penjualan. Dugaan sementara kami, telah terjadi penurunan kuantitas penjualan pada 2022 dibandingkan 2021. (Mohon juga menampilkan data ke-15 kategori)
  2. Apabila memang terjadi penurunan kuantitas penjualan pada kategori Beauty & Grooming, kami mohon bantuan untuk menyediakan data TOP 20 nama produk yang mengalami penurunan paling tinggi pada 2022 jika dibanding dengan 2021. Hal ini kami gunakan sebagai bahan diskusi pada meeting selanjutnya.

Untuk menampilkan data kuantitas penjualan category pada tahun 2021, dapat dilakukan dengan menuliskan syntax berikut ini,

#Menyimpan data dalam bentuk Pandas DataFrame
data2 = pd.DataFrame(\
#Memfilter data dengan valid=1
df[(df['is_valid']==1) &\
#Memfilter data pada transaksi selama 2021
((df['order_date'] >= '2021-01-01') & (df['order_date'] <= '2021-12-31'))]\
#Mengelompokan data
.groupby(by=["category"])["qty_ordered"]\
#Pengelompokan berdasarkan penjumlahan
.sum()\
#Mengurutkan data
.sort_values(ascending=False)\
#Mereset nama header
.reset_index(name='qty_2021'))
data2

Untuk menampilkan data kuantitas penjualan category pada tahun 2022, dapat dilakukan dengan menuliskan syntax berikut ini,

#Menyimpan data dalam bentuk Pandas DataFrame
data3 = pd.DataFrame(\
#Memfilter data dengan valid=1
df[(df['is_valid']==1) &\
#Memfilter data pada transaksi selama 2022
((df['order_date'] >= '2022-01-01') & (df['order_date'] <= '2022-12-31'))]\
#Mengelompokan data berdasarkan nama produk
.groupby(by=["category"])["qty_ordered"]\
#Pengelompokan berdasarkan penjumlahan
.sum()\
#Mengurutkan data berdasarkan nilai kuantitas paling banyak
.sort_values(ascending=False)\
#Mereset nama header
.reset_index(name='qty_2022'))
data3

Untuk mengabungkan data dapat dilakukan dengan menuliskan syntax berikut ini,

data4 = data2.merge(data3, left_on = 'category', right_on = 'category')
data4

Selanjutnya untuk menampilkan growth atau penurunan kuantitas penjualan pada 2022 dibandingkan 2021 dapat dilakukan dengan menuliskan syntax berikut ini,

#Growth = tahun terakhir - tahun sebelumnya
data4['qty_growth']=data4['qty_2022']-data4['qty_2021']
data4.sort_values(by=['qty_growth'],ascending=True,inplace=True)
data4

Akhirnya kita telah mencoba untuk menyelesaikan beberapa kasus dasar diatas menggunakan Python dengan Google Colab. Setelah mencoba menuntaskan beberapa kasus, sekarang kamu dapat meningkatkan dan mencoba menggembangkan kemampuan kamu terkait Python dan dalam mengolah data menggunakan Google Colab.

Terimakasih sudah mengikuti praktik sampai disini. Nantikan lebih banyak artikel informatif lainnya terkait dengan analisi data untuk pemula.

--

--