Tentang data citation: data sebagai luaran riset
Artikel blog ini berawal dari kuliah Telegram yang saya berikan di salah satu grup yang saya ikuti. Versi podcast dapat didengarkan di sini. Versi videonya di sini. Coba dengarkan musik bebas royalti dan bebas pakai ini supaya semangat. Hari terakhir ngantor yeeeeay.
Masalah yang sering ditemui
Terima kasih telah memperlihatkan minat kepada topik “data citation”. Mungkin saya awali lebih dulu dengan berbagai masalah yang sering kita temui:
1. Saya tertarik dengan makalah ini atau laporan ini dan saya ingin menyitirnya, tapi bagian yang akan saya gunaka ternyata: grafik hanya bisa di-screenshot padahal kondisinya kurang jelas. Akan bagus kalau saya bisa membuat ulang grafik itu, tapi di mana datanya?
2. Ok makalahnya bagus, tapi saya hanya akan menggunakan datanya. Dan datanya ternyata hanya dalam bentuk tabel yang menyatu dalam makalah, yang juga hanya bisa di-screenshot. Saya perlu mengetik ulang untuk dapat menggunakan data itu.
3. Saya punya data, tapi saya ingin membandingkan distribusinya dengan data dari daerah lain yang ditulis oleh orang lain. Masalahnya sama dengan kasus no 2, data harus diketik ulang.
Dan beberapa masalah lain yang kurang lebih seperti yang saya sampaikan di atas. Jadi apa solusinya? Sitasi data atau data citation.
Beberapa contoh tambahan
Ambil contoh buku terbaru yang ditulis Aris Rinaldi, berjudul Hidrogeologi Air Tanah Tak Jenuh, yang sedang saya sunting. Buku ini membahas dasar-dasar air pada zona tak jenuh dan berbagai kondisi yang sering terlihat di lapangan. Contoh: pada halaman 22 ada grafik ini (Gambar 3.2).
Katakan kita ingin menguji data kita, di mana posisinya dalam model grafik tersebut? Apa yang akan pembaca lakukan? Maka ia kan memplot datanya mungkin menggunakan Excel. Kemudian ia akan menggambar ulang garis-garis yang ada dalam model grafik itu dalam skala grafik yang sama. Baru kemudian ia bisa menilai posisi datanya terhadap model empirik yang telah dibuat oleh Harvey (2015).
Hal lainnya, kalau andai Aris ingin menjadi “the next Harvey”, maka Aris bisa membuat tabel data secara terbuka agar orang lain bisa menambahkan datanya masing-masing ke dalamnya. Masing-masing kontributor data akan memasukkan identitas risetnya sebagai sumber data itu. Hasilnya akan ada satu set data yang baru untuk memperkuat plot Model Harvey atau bahkan mengoreksinya.
Oya sedikit tentang Aris Rinaldi. Aris adalah alumni Teknik Sipil ITB (2006–2011), penerima Beasiswa LPDP yang berkuliah di Prodi Magister Teknik Air Tanah (2015–2017). Riset S2nya pernah saya tulis sekilas di blog SPS berjudul Tanah sebagai spons penyerap air. Kini ia adalah staf Balai Bendungan at Kementerian Pekerjaan Umum dan Perumahan Rakyat. Sejak lulus, ia sudah menerbitkan satu buku “Hidrogeologi Pertanian” yang diterbitkan oleh ITB Press. Bukunya yang kedua “Hidrogeologi zona tidak jenuh” sedang proses penyuntingan.
Sebagai contoh adalah tabel sumber data dari riset mahasiswa saya ini (Rendi Ermansyah Putra). Ia punya data sendiri, tapi dalam analisisnya ia perlu data yang lebih banyak dan lebih luas juga yang berasal dari periode waktu yang berbeda. Maka ia lakukan sitasi data dari beberapa orang (atau dokumen). Untuk itu ia membuat tabel di bawah ini. Struktur tabel masih perlu dibenahi, tapi sudah menggambarkan maksudnya.
Sedikit tentang Rendi. Ia mahasiswa Prodi Magister Teknik Air Tanah angkatan 2017, setelah lulus dari Program Sarjana Geologi Unpad. Saat ini sedang sibuk menyelesaikan proses analisis tesisnya tentang kualitas air S. Cikapundung dan air tanah di sekitarnya. Bila ingin tahu apa saja kegiatannya, silahkan menyimak profil OSF nya.
Pertanyaan dan jawaban
Di Grup Telegram ada beberapa pertanyaan yang intinya mempertanyakan cara menyitir data dan siapa yang disitir.
Pertanyaan: tentang teknik menyitir/menyitat
- Siapa yg harus disitat nantinya? Depositor, kreator, kurator, kontributor? Apakah sdh ada pedoman layaknya authorship? Misal saya meminta tolong A untuk membuatkan sebuah peta dari data yg saya olah dr BPS, Dukcapil, dan BIG.
- Saya memiliki data nama seluruh Kab. X yg ingin saya buka, namun takut disalahgunakan. Bgmn cara terbaik membaginya? Hanya metadata, sampel kecil data, atau ada cara lain?
Jawaban
- Saya jelaskan dulu ini ya: kalau penginisiasi kolaborasi data adalah “orang yang benar”, maka mestinya ia mengklaim sebagai data kurator, kecuali kalau ia juga punya andil data di situ. Dan semua orang yang menyumbangkan data adalah sebagai kontributor. Nah bagaimana si data kurator menyetup data repositorinya? Mestinya ia akan menyatakan bahwa ia adalah kurator dan data adalah miliki dari masing-masing kontributor yang telah disumbangkan dengan lisensi X (misal CC-BY). Oleh karena itu, undangan pemasukan data harus menjelaskan lisensi ini, agar kontributor tahu. Nah kembali ke pertanyaan: karena kondisi di atas, maka pengelola (bukan pemilik) data repositori adalah kurator dan/atau depositor, maka mestinya sistem metadata akan mengarahkan bahwa yang disitir adalah kurator/depositor, bukan para kontributor. Tapi pengguna data tetap akan mendapatkan informasi yang jelas tentang siapa saja kontributornya dan sumber datanya (berdasarkan daftar sitiran yang ada dalam repositori).
- Kalau saya, maka evaluasi dulu apakah datanya termasuk data sensitif (uang, kesehatan, dll). Apa saja yang dikategorikan sebagai data sensitif? Baca https://www.ands.org.au/working-with-data/sensitive-data/sharing-sensitive-data dan https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5967383/ juga pelatihan saya dan tim di osf.io/s76gu.
Setelah yakin status data dan bagaimana membagikannya, maka baru kita setup data repositori. Salah satu alternatifnya begini:
- Jelaskan status data dalam lembar deskripsi, apa yang boleh dan apa yang tidak boleh dilakukan. Kemudian pisahkan tabel yang berisi data sensitif kemudian masukkan ke folder dalam akses terbatas (tapi tautan tetap diberikan), sementara data non-sensitif masuk ke folder yang terbuka publik.
- Kalau data sensitif ada dalam tabel yg sama dengan data non-sensitif, maka pisahkan kolomnya (plus tentunya kolom identitasnya agar identitas sampel tidak hilang), ke dalam tabel yang berbeda kemudian masukkan ke folder yang non-publik di atas. Dalam tabel yang orisinal, kolom data sensitif jangan dihapus. Biarkan saja kolom headernya, tapi isi datanya kosongkan. Ini agar pembaca tetap bisa melihat struktur data aslinya.
Pertanyaan: tentang pencurian data
80% intellectual property (IP) dicuri. Bagaimana posisi sains terbuka?
Jawaban
Kalau kita pakai istilah “dicuri”, maka konteksnya adalah bahwa IP itu memang layak dicuri. Sekarang apa alasan dicuri? Kemungkinan IP itu memiliki nilai ekonomis, baik langsung (misal terkait konsep produk, purwarupa) atau tidak langsung (IP yang perlu tahapan lanjutan sebelum akhirnya punya nilai ekonomis). Saya belum punya jawaban pasti kalau lingkupnya seperti itu, karena saya tidak punya latar belakang atau bukan praktisi wirausaha. Tapi pikiran saya begini, saya kasih satu contoh.
Andaikan saya seorang inventor yang menemukan alat data logger kualitas air tanah. Saya punya kepentingan ekonomis untuk alat itu. Mikirnya siang malam, lapar kenyang, segar ngantuk dst. Nah sekarang, saya punya motif ekonomi untuk mengenalkan produk saya sambil menunggu proses paten misalnya. Cara saya apa? Dalam proses ujicoba sistem pastinya saya melakukan pengukuran dan membandingkannya dengan standar baku atau hasil pengukuran menggunakan alat lain. Nah apakah data itu bernilai ekonomis? Mestinya tidak ya, baik secara langsung maupun tak langsung. Nah kalau data hasil pengukuran itu saya bagikan dan kemudian dinyatakan bahwa itu adalah hasil pengukuran dari alat yang masih dirahasiakan konstruksinya, bukankah akah bagus ya dari sisi inventor. Saya bisa berbagi data (dari berbagai alat), saya bisa mengenalkan alat saya, walaupun masih dalam proses dipatenkan. Pembaca senang bisa mendapatkan data dan jadi tahu bahwa saya membuat alat mutakhir.
Satu hal lagi, terakhir. Menurut anda, seberapa banyak data (sebagai bagian dari IP) yang bernilai ekonomis dibandingkan yang tidak? Apakah lebih banyak atau lebih sedikit? Jawaban saya adalah “mestinya lebih sedikit”.
Catatan akhir
Jadi intinya adalah semua senang seperti dalam gambar ini:
- data adalah luaran riset yang independen yang bisa dipisahkan dari laporan. Maka laporan itu bisa saja menyitir data yang berasal dari proyek yang sama.
- metode dalam suatu riset harus dapat diulang oleh orang lain. Ini prinsip riset saintifik. Tapi bagaimana itu dapat dilakukan kalau datanya tidak tersedia. Bukan hanya data tersedia saja, tetapi juga data yang disampaikan dalam bentuk dan format yang mudah digunakan ulang oleh orang lain.
- khusus untuk peneliti pemula (early career researcher) berbagi data (data sharing) dapat meningkatkan visibilitas riset juga penelitinya.