Penjualan Toko Roti Korea — Preprocessing dan Visualisasi

Radian Lukman
dataradi
Published in
3 min readSep 27, 2021
Photo by Angelo Pantazis on Unsplash

Saya selalu suka wangi toko roti yang baru saja buka. Tercium harumnya kayu manis, wangi cokelat panggang, dan kadang aroma kopi yang baru saja keluar dari mesin espresso. Semua wewangian itu tak pernah gagal membujuk saya untuk mampir sebentar melihat roti segar yang baru saja matang.

Kesukaan saya terhadap toko roti itu membuat saya tertarik terhadap data yang saya temukan di kaggle ini. Dalam keterangannya, data ini merupakan data transaksi sebuah toko roti di Korea.

Setelah melihat dataset ini, saya tertarik untuk mencari tahu:

1. Apa produk terlaris di toko roti tersebut?

2. Bagaimana tren penjualan di toko roti tersebut?

Preprocessing dan visualisasi data pada project kali ini menggunakan bahasa pemrograman Python dengan packages pandas, numpy, dan matplotlib.

1 . Data Awal

Data yang diperoleh dapat dilihat pada output berikut:

Jika dilihat sekilas, data tersebut masih kotor. Data berjumlah 2654 baris dengan 27 kolom. Ada beberapa baris yang berisikan missing value sebagai NaN, kolom yang tidak diperlukan, dan lain sebagainya.

Kita coba lihat info dari data tersebut:

Dari informasi di atas, dapat diketahui bahwa terdapat missing value hampir pada setiap kolom data. Terlihat juga kolom datetime belum dalam format tanggal melainkan masih berupa object. Data tersebut wajib dilakukan preprocessing terlebih dahulu.

2 . Preprocessing Data

Saya akan menjabarkan apa saja yang perlu dilakukan pada data tersebut:

  1. Menghapus baris yang berisi nilai NaN.
  2. Menghapus kolom ‘day of week’, ‘total’, dan ‘place’ karena tidak begitu diperlukan.
  3. Mengganti nilai NaN menjadi 0.
  4. Mengganti format tanggal menjadi datetime dan hanya mengambil tanggalnya saja (tidak termasuk jam dan menit).
  5. Menggabungkan baris dengan tanggal yang sama menjadi satu agar menjadi data transaksi harian.
  6. Membuat kolom ‘total’ yaitu jumlah produk yang dibeli pada tanggal tersebut. Sebelumnya, kolom ‘total’ merupakan jumlah dalam mata uang Won sehingga dihapus.

Langkah lengkap dari data preprocessing dapat dilihat di notebook ini.

Setelah melakukan keenam hal tersebut, diperoleh data sebagai berikut:

Data sudah terlihat bersih, setiap baris mewakili tanggal dan sudah tidak ada nilai NaN. Data yang tadinya berjumlah 2654 baris dan 27 kolom kini menjadi 249 baris dan 24 kolom.

Mari kita lihat informasi dari data itu kembali:

Sekarang, seluruh kolom berisikan 249 data yang tidak null. Ini berarti sudah tidak ada NaN pada tiap kolom. Setelah ini, kita dapat melakukan visualisasi menggunakan data yang telah dibersihkan.

3. Visualisasi Data

Untuk mengetahui apa produk terlaris di toko roti tersebut, kita dapat membuat pie chart seperti berikut:

Jelas terlihat bahwa roti khas korea bernama angbutter menjadi roti terlaris yaitu sebanyak 29.79% dari penjualan, disusuli croissant (9.68%), plain bread (9.48%), dan tiramisu croissant (8.72%).

Namun, pie chart tersebut kurang bagus. Data untuk produk milk tea, cheese cake, dan seterusnya terhimpit satu sama lain. Sehingga, lebih jelas untuk memvisualisasikannya menggunakan bar chart.

Dengan bar chart di atas, kita dapat melihat data keseluruhan produk mulai dari yang terlaris hingga yang kurang peminatnya. Angka pada samping bar menunjukkan jumlah produk yang terjual.

Untuk menjawab bagaimana tren penjualan di toko roti tersebut, kita dapat membuat line plot dengan:

Tren penjualan di toko roti tersebut tidak menunjukkan adanya peningkatan ataupun penurunan secara signifikan. Jumlah produk yang terjual tiap harinya fluktuatif namun masih berada di sekitar rata-rata yaitu garis putus-putus yang berwarna merah. Terdapat tren naik pada bulan Maret 2020 namun turun kembali setelah itu.

Kesimpulan

  1. Data yang diperoleh masih merupakan raw data sehingga perlu dilakukan preprocessing terlebih dahulu. Preprocessing pada data tersebut seperti: menghapus baris & kolom yang tidak diperlukan, mengganti nilai NaN menjadi 0, mengganti format tanggal, menggabungkan data dengan tanggal yang sama, dan membuat kolom baru berisikan jumlah produk terjual bernama “total”.
  2. Produk terlaris di toko roti tersebut adalah roti angbutter yang terjual sebanyak 3.229 atau 29.79% dari total penjualan. Produk terlaris berikutnya secara berturut-turut adalah croissant, plain bread, dan tiramisu croissant.
  3. Tren penjualan di toko roti tersebut fluktuatif namun masih di sekitar rata-rata. Terjadi peningkatan penjualan secara signifikan pada bulan Maret 2020, namun turun kembali setelah itu.

Sekian preprocessing dan visualisasi data penjualan toko roti Korea yang bisa saya jelaskan. Jika Anda tertarik akan project ini, Anda bisa akses dataset dan syntax pada GitHub saya.

Terima kasih!

--

--

Radian Lukman
dataradi
Editor for

Data Enthusiast | Bachelor of Statistics from Diponegoro University