Exploratory Coffee Analysis (Part 2)
A little step by step exploration on coffee data set
Welcome to Exploratory Coffee Analysis Part 2 !
Artikel ini merupakan lanjutan dari artikel Exploratory Coffee Analysis Part 1. Pada artikel sebelumnya saya membahas secara umum bagaimana kualitas kopi pada tiap negara menggunakan pendekatan Exploratory Data Analysis. Nah pada artikel kali ini kita akan memperkecil cakupan kita hanya pada kualitas kopi Indonesia.
Let’s get this EDA started!
Pada artikel sebelumnya kita sudah melihat peringkat negara dengan kualitas kopi terbaik berdasarkan Total.Cup.Points. Kopi Indonesia berada pada peringkat 15 nih. Not bad lah ya?
Tapi untuk sekelas Indonesia yang kopi-kopinya terkenal di mancanegara, kenapa ngga masuk ke peringkat 10 besar ya? Nah ini yang perlu kita ulik-ulik!
Oke, pertama kita coba bandingkan Indonesia dengan beberapa negara yang masuk 5 besar dalam data di atas.
Kita dapat menggunakan seaborn boxplot sebagai visualisasi untuk melihat perbandingan Total.Cup.Points tiap negara. Tapi gambar di atas masih tampilan default dari seaborn. Nah coba deh kita bagusin dikit visualisasinya biar lebih gampang untuk diinterpretasikan insight-nya.
Nah mending yang mana nih? Yang jelas visualisasinya jadi lebih insightful kan?
Grafik di atas sebenarnya hanya merubah warna dan menambahkan deskripsi di samping visualisasi agar audience lebih mudah dalam memperoleh insight yang didapatkan dari data. Sisanya lebih ke segi estetika saja, contohnya frame hanya kita visualisasikan pada sumbu x dan y, tidak pada keseluruhan figure. Lalu menghilangkan judul dan keterangan pada sumbu x untuk mengurangi redundansi informasi.
Dari visualisasi di atas kita bisa lihat jelas ternyata kopi Indonesia tidak tertinggal terlalu jauh kok dari negara lain. Tapi pasti ada aspek-aspek yang bisa ditingkatkan kopi Indonesia nih biar setidaknya Indonesia masuk 10 besar laaah. Yuk coba kita bandingkan lagi!
Kita fokus saja ke beberapa fitur yang merupakan aspek-aspek penilaian kopinya.
Setelah fitur telah diseleksi, kita akan melakukan group by data kita berdasarkan negara lalu menghitung rata-rata tiap fitur untuk dijadikan ukuran pemusatan data sebagai bahan perbandingan aspek penilaian kopi tiap negara.
Our data is ready to visualize!
Salah satu jenis grafik yang baik untuk komparasi karakter tiap kopi pada data kita adalah radar(spider) chart. Kita dapat membuat visualisasi dengan menggunakan matplotlib. Dalam visualisasi kali ini saya menggunakan code yang terdapat pada python-graph-gallery.com, salah satu referensi yang sering saya kunjungi sebelum membuat visualisasi.
You can check the original code here!
Dapat dilihat pada chart di atas, kopi Indonesia ternyata masih kurang pada semua aspek scoring. Terutama pada aspek Aftertaste.
Ternyata berdasarkan analisis kita masih banyak nih yang perlu ditingkatkan lagi pada kualitas kopi Indonesia.
By the way, speaking about the chart, the information is there, but the chart isn’t quite appealing isn’t it?
Well, what do you guys think about this chart below?
Looks so much better right?
Grafik di atas hanya dibuat menggunakan matplotlib loh. Lebih insightful kan? Walau begitu, pada grafik di atas beberapa informasi harus dihilangkan jika kita lebih mengutamakan estetika dari grafik. Jadi semua tergantung prioritas apa yang ingin teman-teman utamakan dalam membuat visualisasi data.
Semoga artikel ini bisa membantu teman-teman semua yaa dalam membuat visualisasi data yang lebih baik lagi.
Follow Medium Make-AI data stories dan instagram @make.ai supaya tidak ketinggalan artikel-artikel terkait data visualisasi dan data science berikutnya.
Tertarik untuk mempelajari Data Science? Kamu bisa mempelajari materi ini lebih lanjut melalui Make-AI Data Science Online Course.