Mengenal Data Perjalanan
Tulisan Asli: Mengenal Data Perjalanan oleh Hani Ramadhan, Member Asosiasi Ilmuwan Data Indonesia.
Halo semua!
Saya hendak membahas data perjalanan dalam tulisan ini. Data perjalanan adalah cuilan dari riset yang sedang berlangsung di laboratorium saya di Pusan National University ( datalab.pusan.ac.kr). Yang akan saya terangkan di sini adalah pertama definisi data perjalanan itu sendiri, manfaatnya, topik-topik riset yang berkaitan dengan big data untuk data perjalanan, dan terakhir, sekelumit mengenai topik riset saya.
Data perjalanan, atau kata kuncinya dalam bahasa inggris adalah “trajectory data”, adalah hasil perekaman posisi beserta waktu dari objek bergerak. Semisal nih, saya hari ini berada di rumah jam 9 lalu berangkat ke kantor sampai jam 9.30. Ini adalah salah satu bentuk data perjalanan. Cara kita mendeskripsikan data ini tidak selalu sekasar “rumah, jam 9” dan “kantor, jam 9.30”. Tentu di antaranya ada posisi dan waktu yang lebih detail. Data ini bisa kita ungkapkan juga dengan nama jalan seperti “Jalan Ahmad Yani, 09:10:15”, “Jalan Raya Wonokromo, 09:20:10”; atau sedetail “Jalan Ahmad Yani km 4.9, 09:10:15”, “Jalan Ahmad Yani km 5.2, 09:10:50”; atau juga dengan angka lintang bujur “7°20'21.3'’LS 112°43'44.5'’BT, 09:20:10”; dan lain sebagainya. Merasa data ini sangat familier? Yak benar, sebagai pengguna jalan, data ini secara tidak langsung kita sering temui di GPS (Global Positioning System) di peta yang sekarang sudah terdigitalisasi di ponsel kita. Kita sudah tahu nih betapa seringnya kita temui data ini, lalu untuk apa?
Secara langsung, pencatatan data perjalanan ini tentu saja mempermudah kita menelusuri berapa lama kita menghabiskan waktu di jalan, tempat mana saja yang kita lalui, dan rute kita dari satu tempat ke tempat lain. Mari kita sambungkan sedikit ke big data. Bayangkan kalau datanya ada banyak, misalkan perjalanan kita secara individu selama sebulan. Tenang, nanti kita juga bahas bagaimana data banyak dari perjalanan banyak orang.
Bayangkan perjalanan kita sebulan dicatat rutin. Rumah-kantor, lewat jalan mana saja sih kalau berangkat? Kantor-rumah, lewat jalan mana saja sih kalau pulang? Nah dari tempat-tempat yang kita lalui, akhir ketahuan rute umum kita pergi-pulang rumah-kantor. Apakah kita melakukan hal di luar kebiasaan rute umum kita? Mungkin kita beli kue dulu, atau mampir pom bensin. Ke-tidak-biasaan ini menjadi hal yang menarik untuk ditemukan di luar pola perjalanan rumah-kantor (pergi pulang). Setelah kita mengulik pola perjalanan individu, mari kita memperluas lingkup data perjalanan ke perjalanan banyak orang.
Anggap ada 1000 orang yang berangkat dari area rumah kita dan yang bekerja di area kantor kita di jam yang relatif tidak terlalu jauh (kira-kira 1 jam lah ya). Apakah 1000 orang ini akan memiliki data perjalanan yang sama persis? Bisa jadi iya. Bisa jadi tidak. Mungkin ada dua orang yang tiba di area kantor pada waktu yang sama tetapi salah satunya berangkat 30 menit lebih lambat. Mengapa hal ini bisa terjadi? Apakah orang yang durasi tempuhnya lebih lama terkena macet? Apakah rutenya sama? Apakah kendaraannya berbeda? Apakah keterampilan mengemudinya lebih cepat seorang dari seorang yang lain? Jawaban-jawaban ini bisa dianalisis secara kasar dari deskripsi data perjalanan yang tadi diceritakan.
Sebagai contoh, mari kita cek kembali deskripsi data perjalanan tadi yang tadi kita ulas, yakni
- “Rumah, Jam 9”
- “Jalan Ahmad Yani, 09:10:15”,
- “Jalan Ahmad Yani km ke-4.9, 09:10:15”, dan
- “7°20'21.3'’LS 112°43'44.5'’BT, 09:20:10”
Tentu pasangan “Rumah, Jam 9” dan “Jalan Ahmad Yani, 09:10:15” tidak akan banyak membantu kita untuk menganalisis perbedaan pola perjalanan dua orang karena ketelitian yang rendah. Ketika kita menambahkan keterangan “Jalan Ahmad Yani km ke-4.9, 09:10:15”, ada suatu tingkat ketelitian yang berbeda. Perbedaan keterangan ini kita sebut dengan tingkat semantik/makna yang berbeda, tentu dengan deskripsi data ketiga lebih teliti daripada yang pertama dan kedua. Di sisi lain, bentuk deskripsi lintang bujur adalah format mentah yang bisa kita petakan ke beberapa makna tertentu melalui teknik praproses. Namun, saya tidak akan membahas teknik praproses tersebut di sini.
Sekarang mari kita sertakan contoh data dua orang yang berbeda dari data perjalanan:
- Si A: “Jalan Ahmad Yani km ke-4.9, 09:10:15”,”Jalan Ahmad Yani km 5.2, 09:10:50"
- Si B: “Jalan Ahmad Yani km ke-4.9, 09:10:15”,”Jalan Ahmad Yani km 5.3, 09:10:45"
Ternyata si B bisa lebih cepat menempuh jalan A. Yani sejauh 100 meter dalam waktu 5 detik lebih cepat. Mengapa? Mungkin si B menggunakan sepeda motor, si A menggunakan mobil. Dari sini saja, kita sudah menemukan pola perbedaan data perjalanan dari dua orang saja sudah memberikan wawasan menarik. Apakah manfaat lainnya?
Ketika sudah ada pola tertentu dari banyak orang (anggap 1000 orang tadi selama satu jam selama satu bulan), seseorang bisa mencari rute terbaik (populer/cepat/lengang), dari suatu tempat ke tempat lain. Dengan pandangan sisi non-pengendara, kecenderungan lalu lintas tertentu bisa dianalisis, semisal suatu tempat hanya sering dilewati ketika siang tetapi sepi pada waktu malam, mungkinkah di sana kurang penerangan? Jika di suatu tempat banyak pengendara berhenti karena sebab yang wajar (lampu merah misalkan) dan pola tertentu, bijakkah menerapkan suatu reklame dengan konten promosi caleg? Dan tentu banyak lagi. Penarikan-penarikan fenomena ini menjadi hal yang bermanfaat, baik bagi pengendara maupun non-pengendara/pemangku kebijakan.
Penelitian mengenai data perjalanan sudah sering dilakukan. Saya sering membaca kajian [ 1] dari Yu Zheng (Microsoft) terhadap data perjalanan dengan salah satu himpunan datanya yang cukup besar adalah Geolife. Data lain yang juga sering digunakan adalah data perjalanan taksi di beberapa kota seperti Porto [ 2], New York [ 3], dan Roma [ 4]. Dalam hal terkait ilmu data, isu-isu yang menarik adalah penerapan query [5–10], perancangan indeks data [10–12], kompresi data [13], dan lain sebagainya untuk menjelajahi data perjalanan ini karena sifatnya yang jauh berbeda dengan data relasional pada umumnya. Beberapa juga menerapkan machine learning dalam metode penyelesaiannya [8,13].
(Referensi-referensi di atas mayoritas bersumber dari kuliah yang saya ambil: Streaming Database, Fall 2018)
Saya dalam hal ini tertarik untuk mengembangkan penelitian di bidang ini dalam kasus data perjalanan dengan multi-semantik. Hanya saja, saya memfokuskan riset saya pada data perjalanan dalam gedung. Mengapa? Saya berasumsi perpindahan objek pada perjalanan luar gedung dan dalam gedung memiliki karakteristik semantik yang berbeda. Dan tentu hal ini menarik untuk diteliti dikarenakan penentuan posisi dalam gedung sangat sulit (tidak bisa menerapkan GPS), detail perpindahan diharuskan sangat tinggi (ketelitian dalam meter), dan pemaknaan semantik dalam ruangan bisa berbeda-beda. Mungkin salah satu luarannya adalah pola perjalanan para individu di dalam gedung, seperti seorang pengunjung biasa bisa jadi memiliki pola perjalanan sama dengan seorang satpam di kasus tertentu.
Semakin rumit? Haha. Doakan saja ide saya ini bisa bermanfaat dan bisa mengantarkan saya ke kelulusan saya sebagai pemegang gelar doktor. Aaamiiin
Oh ya mungkin hal-hal yang lebih teknis, seperti artikel-artikel ilmiah terkait dan implementasinya, akan saya ceritakan di tulisan berbeda jika kepikiran dan sempat.
Bagi rekan-rekan yang berminat tukar pikiran, silakan bisa kontak saya melalui surel pribadi saya di hani.its.042@gmail.com.
Cheers!
Daftar Referensi:
[1] Yu Zheng, dalam Trajectory Data Mining: An Overview, Microsoft Research, 2015, Tersedia di Microsoft Research [Dokumen daring], https://www.microsoft.com/en-us/research/publication/trajectory-data-mining-an-overview/ [Diakses 8 April 2019]
[2] Tim ECML-PKDD 2015, dalam Taxi Service Trajectory (TST) Prediction Challenge 2015, Geolink, 2015, Tersedia di Geolink [Dokumen daring], http://www.geolink.pt/ecmlpkdd2015-challenge/dataset.html [Diakses 8 April 2019]
[3] Donovan, Brian; Work, Dan (2016) dalam New York City Taxi Trip Data (2010–2013). University of Illinois at Urbana-Champaign. https://doi.org/10.13012/J8PN93H8
[4] Bracciale L, Bonola M, Loreti P, Bianchi G, Amici R, Rabuffi A, dalam CRAWDAD wireless network data archive, CRAWDAD, 2014, Tersedia di CRAWDAD [Dokumen Daring], https://crawdad.org/roma/taxi/20140717/ [Diakses 8 April 2019]
[5] C. Zhang, J. Han, L. Shou, J. Lu dan T. L. Porta, “Splitter: Mining Fine-Grained Sequential Patterns in Semantic Trajectories,” 2150. Artikel
[6] D.-W. Choi, J. Pei dan T. Heinis, “Efficient Mining of Regional Movement Patterns in Semantic Trajectories,” 2150. Artikel
[7] H. Liu, C. Jin, B. Yang dan A. Zhou, “Finding Top-k Optimal Sequenced Routes”. Artikel
[8] C. Guo, B. Yang, J. Hu dan C. S. Jensen, “Learning to Route with Sparse Trajectory Sets”. Artikel
[9] Q. Fan, D. Zhang, H. Wu dan K.-L. Tan, “A General and Parallel Platform for Mining Co-Movement Patterns over Large-scale Trajectories,” 2150. Artikel
[10] G. Wu, Y. Ding, Y. Li, J. Bao, Y. Zheng dan J. Luo, “Mining Spatio-Temporal Reachable Regions over Massive Trajectory Data”. Artikel
[11] D. Xie, F. Li dan J. M. Phillips, “Distributed Trajectory Similarity Search,” 2150. Artikel
[12] Z. Shang, G. Li dan Z. Bao, “DITA: Distributed In-Memory Trajectory Analytics,” p. 16, 2018. Artikel
[13] X. Li, K. Zhao, G. Cong, C. S. Jensen dan W. Wei, “Deep Representation Learning for Trajectory Similarity Computation”. Artikel
Originally published at https://medium.com on September 29, 2019.
Tracked to https://medium.com/@rmdn_hani/mengenal-data-perjalanan-26bf2e3885ec on April 8, 2019.