Data Governance: Langkah Strategis Pengelolaan Data Privacy (Part 3: Data Quality)

Eryk Budi Pratama
9 min readJun 4, 2020

--

Disclaimer: Tulisan ini adalah opini dan hasil analisis penulis pribadi tanpa mewakili pihak/institusi manapun.

Sebelum membaca artikel ini, saya sarankan anda membaca artikel saya sebelumnya (part 2). Topik tulisan kali ini terinspirasi dari presentasi yang pernah saya berikan untuk teman-teman Data Science tentang Data Trust.

Data dan informasi memiliki siklus hidup /lifecycle. Berdasarkan hasil survey dari Forrester dan KPMG, terdapat beberapa tahapan dimana organisasi memiliki “trust” terhadap data.

Sumber: https://home.kpmg/pl/en/home/insights/2018/01/report-building-trust-in-analytics.html

Bagi para data analytics decision makers, Data Sourcing merupakan bagian yang paling banyak ekspektasinya untuk dapat di-”trust”. Kenapa data source ini sangat penting? Garbage in, garbage out. Kualitas dari data yang masuk menjadi sangat penting. Memang nantinya ada aktivitas pemrosesan data. Namun alangkah baiknya jika data yang diambil adalah data yang kualitasnya baik.

Sumber: https://home.kpmg/pl/en/home/insights/2018/01/report-building-trust-in-analytics.html

Dari report yang sama, setidaknya terdapat empat dimensi dari Data Trust.

  • Quality. Organisasi perlu memastikan bahwa input dan output yang dihasilkan dapat sesuai dengan konteks di mana informasi / insight tersebut akan digunakan.
  • Effectiveness. Efektivitas dalam hal ini adalah sejauh mana output dapat mencapai hasil yang diharapkan dan memberikan nilai kepada para decision maker yang menggunakan informasi tersebut.
  • Integrity. Dalam konteks ini, integrity mengacu pada penggunaan data yang etis dan dapat diterima oleh pihak terkait dan memenuhi regulasi / peraturan yang ada (misalnya data privasi).
  • Resilience. Dalam konteks ini, resilience berarti bagaimana memastikan bahwa data source dan output yang dihasilkan dapat dioptimasi untuk jangka panjang.

Sesuai dengan judulm pada artikel ini saya akan bahas dari sisi Data Quality saja.

Data Quality menurut DAMA DMBOK v2 dan NIST

Jika anda sudah baca artikel pertama saya tentang Data Governance, dapat kita pahami bahwa Data Governance adalah hal yang sebenarnya kompleks. Selain banyak dimensi dari Data Governance, juga tantangan yang biasanya dihadapi dalam pengelolaan data, yaitu bagaimana mengurangi kompleksitas dengan integrasi yang tepat. Dalam konteks ini, organisasi yang memiliki banyak data sources dan jumlah data yang sangat besar tentu ingin agar pemrosesan data lebih sederhana dan terintegrasi. Hal tersebut dapat tercapai jika organisasi memperhatikan aspek kualitas data. Mengapa kualitas data ini penting?

All data management disciplines contribute to the quality of data, and
high quality data that supports the organization should be the goal of all
data management disciplines.

Menurut DAMA, kualitas data yang baik dapat membantu organisasi mencapai tujuan dari praktik-praktik data management. Terlepas dari kualitas dalam konteks data management, menurut saya kualitas harus menjadi perhatian utama setiap aktivitas manajemen.

Dalam konteks manajemen Data Quality, tujuan aktivitas ini adalah:

  1. Menyusun pendekatan yang dikelola dengan tepat untuk membuat data “fit for purpose” berdasarkan kebutuhan data customer.
  2. Mendefinisikan standar, kebutuhan, dan spesifikasi untuk tujuan quality control sebagai bagian dari data lifecycle.
  3. Mendefinisikan dan mengimplementasikan proses untuk mengukur, memantau, dan melaporkan level dari kualitas data.
  4. Mengidentifikasi opportunity untuk meningkatkan kualitas data melalui peningkatan proses dan sistem.

Berikut adalah contoh input, activities, dan output yang didefinisikan oleh DAMA terkait Data Quality.

Sumber: DAMA DMBOK v2

Dari beberapa proses yang ada, dapat kita pahami bahwa proses awal dari Data Quality Management adalah menentukan Business Drivers. Beberapa contoh Business Drivers, misalnya mengurangi risiko dan biaya dari kualitas data yang buruk, meningkatkan efisiensi dan produktivitas, menjaga reputasi organisasi, meningkatkan nilai dengan pemanfaatan pengolahan data yang tepat, dan lain-lain. Selain itu pada tahap awal, organisasi perlu memahami apa sih “High Quality Data”. Tentunya high quality data adalah data yang paling memberikan nilai/value bagi organisasi, misalnya data transaksi pembelian oleh user pada website e-commerce.

Data Quality berfokus pada hal-hal berikut.

  • Mengembangkan pendekatan yang diatur untuk membuat data sesuai untuk tujuan berdasarkan pada persyaratan data konsumen
  • Menentukan standar dan spesifikasi untuk kualitas data
    kontrol sebagai bagian dari siklus hidup data
  • Mendefinisikan dan mengimplementasikan proses untuk mengukur, memantau, dan melaporkan tingkat kualitas data
  • Mengidentifikasi dan mengadvokasi peluang untuk meningkatkan
    kualitas data, melalui perubahan proses dan sistem
    dan terlibat dalam kegiatan yang secara terukur meningkatkan
    kualitas data berdasarkan data kebutuhan konsumen

Sebagian organisasi pastinya memiliki banyak data (tergantung ukuran organisasi), namun tidak semua data memiliki prioritas atau kritikalitas yang sama. Prinsip dari manajemen kualitas data adalah bagaimana organisasi memfokuskan usaha pada data yang penting (bahkan paling penting) bagi organisasi dan stakeholdernya. Tujuan untuk menentukan prioritas ini adalah agar organisasi dapat fokus dan mudah mengukur pencapaian tujuan bisnis.

Saya sempat bahas tentang klasifikasi informasi pada tulisan saya tentang Relevansi Data Privacy dan Data Protection. Setiap perusahaan dan industri pasti memiliki karakteristik yang berbeda, sehingga kritikalitas data dapat ditentukan berdasarkan beberapa kebutuhan, misalnya strategi bisnis, pelaporan regulasi, pelaporan keuangan, kebijakan bisnis, operasional bisnis, dan kebutuhan yang lain.

Jika mengacu pada NIST Privacy Framework, tidak banyak informasi terkait Data Quality.

Sumber: NIST Privacy Framework

Data Quality disebutkan pada bagian Data Processing Management, dimana pada area tersebut data harus dikelola secara konsisten terhadao strategi manajemen risiko organisasi untuk melindungi data pribadi individu, memastikan data mudah dikelola, dan menerapkan prinsip-prinsip privasi. Salah satu prinsip privacu adalah Data Quality. Jadi jika anda familiar dengan NIST Privacy Framework, tentunya anda harus aware bahwa Data Quality adalah bagian yang perlu diperhatikan jika kita berbicara masalah Data Privacy.

Komponen Data Quality

Mengingat saya juga punya background IT Audit juga, pada presentasi saya tentang Cybersecurity in Financial Audit Perspective, saya sempat membahas sedikit tentang asersi audit. Tentunya saya lebih familiar dengan asersi IT Audit daripada Financial Audit karena saya bukan financial auditor. Asersi IT audit ada empat, yaitu Completeness, Accuracy, Validity, dan Restricted Access. Menurut perspektif saya pribadi, keempat asersi ini bisa dikatakan sebagai komponen/kriteria kualitas data, dalam konteks IT audit.

Completeness berarti data/informasinya lengkap (no missing value), Accuracy berarti hasil/nilainya tepat sesuai ekspektasi, Validity berarti metode yang digunakan tepat, dan Restricted Access berarti data/informasi diakses dan digunakan oleh pihak yang memang sah untuk mengakses dan menggunakannya.

Menurut DAMA, terdapat beberapa dimensi dari Data Quality seperti gambar berikut.

Relationship between data quality dimensions. Sumber: DAMA DMBOK v2

Jika kita lihat, semua asersi IT tersebut masuk ke dalam komponen Data Quality yang didefinisikan oleh DAMA. Menurut The Strong-Wang framework (1996) yang disebutkan dalam dokumen DAMA, terdapat 15 dimensi Data Quality yang dikategorikan menjadi empat jenis, yaitu:

  1. Intrinsic DQ
    Accuracy
    Objectivity
    Believability
    Reputation
  2. Contextual DQ
    Value-added
    Relevancy
    Timeliness
    Completeness
    Appropriate amount of data
  3. Representational DQ
    Interpretability
    Ease of understanding
    Representational consistency
    Concise representation
  4. Accessibility DQ
    Accessibility
    Access security

Jika kita bandingkan memang String-Wang Framework memiliki dimensi kualitas yang lebih banyak dari empat asersi IT yang saya sebutkan di atas. Namun tentunya tidak harus seluruh dimensi tersebut digunakan sebagai kriteria kualitas data pada organisasi kita. Pilih yang mudah dipenuhi dan dipantau saja.

Data Quality Assessment

Salah satu aktivitas dalam Data Quality Management yang didefinisikan DAMA adalah Initial Data Quality Assessment. Tujuan dari aktivitas ini adalah untuk mempelajari data yang akan digunakan sebagai bahan untuk improvement. DAMA menganjurkan aktivitas ini dilakukan secara bertahap, mulai dari yang kecil dulu sehingga organisasi dapat lebih fokus dan aktivitasnya mudah diukur.

Beberapa langkah yang direkomendasikan adalah sebagai berikut.

  1. Mendefinisikan tujuan dari assessment.
  2. Mengidentifikasi data yang akan di-assess; fokus pada data yang kecil dulu atau ke masalah yang spesifik.
  3. Mengidentifikasi penggunaan data dan pihak yang akan menggunakan data.
  4. Mengidentifikasi risiko dari data yang akan di-assess, termasuk dampaknya terhadap proses bisnis.
  5. Memeriksa data sesuai dengan aturan-aturan yang telah ditentukan sebelumnya.
  6. Mendokumentasikan isu yang ditemukan.
  7. Melakukan analisis lebih jauh untuk mengkuantifikasi temuan, memprioritaskan isu berdasarkan dampak bisnis, dan menyusun hipotesis untuk root cause dari isu yang ditemukan.
  8. Bertemu dengan Data Stewards/Owner, Subject Matter Expert, dan pengguna data untuk mengkonfirmasi isu dan prioritas perbaikan.
  9. Menggunakan temuan assessment untuk proses perencanaan perbaikan / improvement proses data quality management.

Data Quality Assurance

Improve the ability of the enterprise to proactively control and measure the quality of data through metric based analysis and provide guidance to address the root cause efficiently. Establish data governance policies and standards for auditable data quality assurance.

Data Quality Assurance dapat meningkatkan kemampuan perusahaan untuk secara proaktif dapat mengendalikan dan mengukur kualitas data melalui analisis (yang direkomendasikan berbasis metrics) dan memberikan panduan untuk mengatasi root cause secara efisien. Organisasi perlu menetapkan kebijakan dan standar data governance untuk jaminan kualitas data (data quality assurance) yang dapat diaudit.

Beberapa aktivitas yang biasanya dilakukan dalam konteks data quality assurance:

  • Mendefinisikan standar dan kontrol untuk data quality assurance yang “auditable” atau mudah untuk diaudit.
  • Menentukan proses untuk pengumpulan, aggregation, dan evaluasi hasil kualitas data.
  • Melakukan root cause analysis.
  • Perform root cause analysis.
  • Menyediakan panduan untuk melakukan investigasi dan menyelesaikan permasalahan kualitas data.
  • Menyediakan panduan untuk data clean-up untuk memperbaiki masalah dan anomali kualitas data.
  • dan lain-lain.

Use Case

Berdasarkan hasil analisis, terdapat beberapa drivers yang membutuhkan data quality, misalnya terkait:

  • Exponential Growth of Information Assets
  • Lack Single View of the Customer
  • Un-optimized Data Warehouse Platform

Beberapa contoh isu data quality yang biasanya diangkat adalah:

  • Isu kualitas data dan reporting yang dihasilkan karena adanya duplikasi dan tidak konsistennya profil customer pada data sources yang berbeda.
  • Kebutuhan atas tools yang memudahkan perusahaan dalam mengelola dan menjamin kualitas data
  • Kurangnya “trust” pada data sehingga Top Management perlu diyakinkan dengan adanya data quality yang tepat dan sesuai kebutuhan perusahaan.
  • Trusted information quality : The data warehouse and data mart components of the warehouse layer will present information that can be traced back to the transactional level data Kebutuhan untuk dapat melakukan trace-back data warehouse dan data mart ke level data transaksional. (saya asumsikan anda mengerti konsep data mart dan data warehouse ya)

Dalam konteks Data Quality, sebenernya apa sih peranan Data Owner, Data Steward, dan Data Custodian? Berikut adalah contoh yang saya ambil dari sebuah case project data quality assessment. Untuk memudahkan persepsi, anggap saja Data Stewards ini sebagai Data Controller, Data Custodian sebagai Data Protection Officer (dalam konteks data privacy).

Data Domain Owner

  • “Sebagai pemilik (owner) data untuk area bisnis yang menjadi cakupannya dan yang memiliki “ultimate responsibility” untuk data quality, accuracym dan completeness.
  • Mendefinisikan data quality metrics yang nantinya akan menjadi target dari Data Stewards.
  • Melakukan performance review dari Data Stewards terhadap data quality metrics.

Data Stewards (Business)

  • Sebagai “first responder” terkait isu kualitas data, pelaporan, dan penyelesaian masalah kualitas data.
  • Works with Data Owner and Business SMEs to determine data quality thresholds Bekerja sama dengan Data Owner dan Business SME untuk menetukan ambang batas (threshold) dari kualitas data.

Data Custodian (IT)

  • Berkoordinasi dengan Data Stewards untuk kebutuhan data governance tingkat perusahaan (enterprise) dan berkomunikasi dengan Data Stewards terkait kualitas data.
  • Menerapkan kontrol-kontrol yang telah ditentukan oleh Data Stewards.

Contoh Kasus: Data Quality Assessment

Pada artikel ini saya coba berikan satu contoh use case dari real project. Perusahaan XYZ memiliki kebutuhan untuk melakukan assessment terhadap kualitas data dari Platform Analytics ABC sebelum diintegrasikan dengan data sources yang baru dan dimigrasi ke arsitektur sistem yang baru. Secara keseluruhan, assessment ini dilakukan selama kurang lebih 8 bulan, mengingat kompleksitas dari arsitektur sistem yang dimiliki perusahaan.

Mengapa perusahaan ingin melakukan assessment terhadap data quality-nya?

  • Untuk memastikan quality, accuracy, completeness, dan integrity dari aset informasi perusahaan
  • Meminimalkan usaha untuk melakukan maintenance, pengolahan, dan peningkatan integritas data.
  • Meningkatkan tingkat kepercayaan stakeholder terhadap informasi yang dimiliki perusahaan dan untuk mendukung akurasi informasi yang digunakan untuk decision making.

Berikut adalah aktivitas utama yang dilakukan untuk membantu perusahaan.

  • Melakukan profiling dan assessment atas historical data pada data warehouse berdasarkan kebutuhan/metrics compliance yang telah ditentukan oleh unit bisnis DEF sebelum melakukan integrasi dengan beberapa data sources yang baru.
  • Mengidentifikasi area mana saja yang memiliki masalah kualitas data terbanyak untuk kemudian digunakan sebagai referensi prioritisasi inisiatif manajemen kualitas data.
  • Menentukan pendekatan manajemen kualitas data yang berfokus pada risiko (risk-based) dan temuan dari hasil asssessment (finding-based).

Rangkuman pendekatan yang dapat dilakukan untuk membantu perusahaan adalah sebagai berikut.

  1. Mengidentifikasi area/domain informasi yang kritikal dan paling terdampak oleh migrasi sistem DEF, serta menentukan prioritas berdasarkan pada kritikalitas bisnis.
  2. Melakukan profiling terhadap satu area/domain informasi pada satu waktu (secara sekuensial)
  3. Melakukan iterasi data set untuk mengidentifikasi data yang tidak sesuai dengan aturan bisnis, batasan yang telah ditentukan, atau faktor lain yang tidak terduga
  4. Menyusun mekanisme untuk mengevaluasi pilihan opportunities untuk meningkatkan kualitas data sebisa mungkin pada tahap awal (data inception).
  5. Memastikan Data Owner dan Steward dinotifikasi ketika terdapat aspek-aspek pada area informasi yang tidak memenuhi standar

Kesimpulan

Data Quality merupakan bagian dari Data Governance yang sebenernya cukup kompleks. Pada artikel ini saya coba rangkum agar lebih mudah dipahami dan harapan saya agar dapat dijadikan referensi bagi anda saat menyusun data quality program.

Sebagai fondasi dari Data Quality, menurut saya ada empat prinsip yang harus anda pegang ketika ingin menyusun kriteria Data Quality.

Accuracy, Completeness, Consistency, Timeliness

Selebihnya, dengan mengacu ke framework/best practice yang saya bahas di artikel ini (atau framework lain), anda dapat mengembangkan kriteria Data Quality yang sesuai, mudah diukur, dan mudah dicapai oleh organisasi anda.

Silakan japri saya jika masih terdapat pertanyaan atas tulisan saya ini. Untuk selalu update informasi terkait Data Governance, anda dapat subscribe channel telegram (news feed) yang telah saya buat.

Semoga bermanfaat. Keep learning, keep sharing :)

Salam,

Eryk Budi Pratama

(Slideshare) (Linkedin)

--

--

Eryk Budi Pratama

Global IT & Cybersecurity Advisor | Global CIO & CISO Advisory | IT GRC | Cloud | Cyber Resilience | Data Privacy & Governance