Memilih Visualisasi Data yang Tepat

Published in

Data Science Indonesia

3 min readDec 29, 2019

By Rasyid Ridha

Dua minggu yang lalu, saya sempat iseng mengeksplorasi data perjalanan pribadi saya di aplikasi GO-JEK yang didapatkan melalui permintaan langsung ke Customer Care GO-JEK. Sebenarnya, ada cara lain untuk mendapatkan data perjalanan GO-JEK saya tanpa harus repot-repot meminta data dan mengkonversi data yang dibungkus dalam bentuk pdf menjadi bentuk tabular csv.

Saya memang berencana mengumpulkan beberapa data pribadi saya ke dalam bentuk tabular di tahun 2017 ini termasuk data perjalanan saya menggunakan aplikasi GO-JEK. Tujuannya adalah untuk arsip data pribadi, evaluasi diri melalui data (self-data-driven-decision-making) sekaligus menjadi ajang bagi saya untuk melatih diri dan meningkatkan kemampuan saya dalam data wrangling maupun data visualization. Beberapa hasil eksplorasi yang saya lakukan pun disematkan di channel berjudul “Data Gue” di tautan ini.

Data terdiri dari beberapa kolom seperti: waktu, nomor order, tipe layanan, alamat asal, alamat tujuan, jarak, metode pembayaran dan total pembayaran. Akan lebih menarik lagi apabila ada kolom seperti nama driver. Terlebih lagi saya sering mendapatkan driver yang sama untuk beberapa perjalanan rutin tertentu. Namun begitu, masih banyak hal menarik yang bisa saya dapatkan dari data tersebut.

Di sentuhan pertama, saya mengajukan pertanyaan “Jam berapa saya berangkat dari rumah dan sampai ke kantor?” Dari data GO-JEK yang saya miliki terdapat kolom waktu keberangkatan namun tidak untuk waktu kedatangan. Ada dua cara bagi saya untuk mendapatkan data waktu kedatangan di kantor, yaitu melalui data absensi yang bisa diperoleh di portal kantor maupun melalui input data yang saya lakukan secara manual via TapLog.

Sebelum memvisualisasikan data, saya perlu melakukan sedikit operasi data seperti “filter” untuk perjalanan dari rumah ke kantor saja dan “join” berdasarkan tanggal untuk menggabungkan waktu keberangkatan dan waktu kedatangan. Saya menggunakan package di R yaitu dan hrbrthemes untuk memeroleh visualisasi data minimalis seperti gambar di bawah ini.

Saya sempat membagikan visualisasi data tersebut via Twitter dengan hashtag #rstats. Saya pun mendapatkan komentar seperti di bawah ini.

Secara tidak langsung, dia mengatakan bahwa bagian yang beririsan pada plot sebelumnya sebagai “datang sebelum pergi”. It doesn’t mean like that actually. Waktu keberangkatan dan waktu kedatangan dalam data tersebut bersifat dependen alias berpasangan satu sama lain sehingga memang kurang tepat membuat mereka berdua di satu sumbu.

Sekejap saya berkata “iya juga ya”, dan saya pun berpikiran bahwa dia sepertinya memiliki latar belakang statistika karena memerhatikan hal sedemikian rupa. Setelah menghempaskan namanya di papan pencarian Google, ternyata dugaan saya benar bahwa dia memiliki latar belakang statistika. Dia pun pernah membuat buku “Introductory Statistics with R”.

Oleh karena itu, alternatif plot yang lebih tepat digunakan adalah memisahkan plot tersebut menjadi dua bagian yang berdiri sendiri atau menggunakan plot X-Y seperti plot di bawah ini.

Plot ini pun dapat berkata lebih banyak yaitu apabila waktu keberangkatan dan waktu kedatangan memiliki korelasi, lamanya perjalanan yang ditempuh memiliki variansi yang kecil dan tidak bergantung terhadap waktu keberangkatan. Di sisi lain, kelemahannya adalah saya tidak bisa melihat jelas bagaimana distribusi waktu keberangkatan dan waktu kedatangan yang memang dari awal ingin saya investigasi. Alternatif lainnya adalah memvisualisasikan data distribusi waktu keberangkatan dan waktu kedatangan secara terpisah dengan menambahkan opsi “facet_wrap(…)” di ggplot2 pada plot pertama.

Sebagai penyaji data, kita harus memilih cara untuk memvisualisasikan data dengan cara yang tepat tergantung dengan pertanyaan data yang diajukan dari awal, audience dan berbagai faktor lainnya.

Originally published at https://datascience.or.id

Memilih Visualisasi Data yang Tepat

Written by Data Science Indonesia