Data Lineage 是什麼? Data Governance、Data Dictionary 的用例和作用 (Use Cases and Application)

Tommy
IT+Digital@互聯網
10 min readMar 24, 2019

--

上文提到行業之間API 的分類霧計算(fog computing)的用例,這兩種技術都會製造和用到很多的數據。例如在霧計算中,底層的感應器會收集環境數據(e.g. 温度、距離、光度),再發送到霧計算服務器中處理。又例如用XAPI (Experience API) 投射價錢資訊給顧客前,程式可能會先分析顧客的年齡、工作、性別等個人資料,再決定以那種方式呈現給顧客(e.g. Experience 1: 顯示限時優惠、Experience 2: 顯示具吸引性的圖片)。

當機構不斷發展時,都會遇到一個問題,就是有太多數據。如果沒有一個有系統的方法去管理數據,在想要某種數據時,很多時會因為數據庫太大、太多,而找不到。更甚的是,可能同一數據(例如客戶的名字)出現在不同的數據庫(Database)中,內容是不同的。例如數據庫A 儲存的客戶名字是Tommy、數據庫B的名字是Tammy。程式要如何處理這種衝突,將會是一個很大的課題。

下文將會討論企業之間,管理數據的方法(Data Governance)。亦會討論一下數據管理其中一個重要概念 -- Data Lineage,以及當中細分的三個Lineage: Vertical Lineage、Horizontal Lineage 和 Business Lineage。再介紹Data Dictionary 在企業的用例(Use Case)和用途。

Where is My Data :( (Harvard Business Review, 2017+ 筆者所繪)

數據管理(Data Governance) 和數據沿襲 (Data Lineage)

數據管理這個名詞相信很多人都有聽過,亦有不同衍生出的字眼,例如數據治理、數據資料管理等,而它們意思大概相近。

簡單來說,數據管理就是對數據的生命週期的管理,管理人員需確保數據在整個生命周期都能保持高質量(i.e. 準確和完整)。

以客戶在銀行開戶(Account Opening)為例:

  • Step 1. 數據生成 (Data Generation): 管理者需確保在客戶在輸入數據時,數據沒有遺漏並且準確。管理方法可以是要求客戶輸入兩次、將特定的項目(e.g. 身份證號碼) 設定為必須輸入。
  • Step 2. 數據維護 (Maintenance): 管理者需確保客戶資料保持更新和準確。例如客戶需進行交易紀錄查詢時,可能需要地址和電話驗證,如在此時發現客戶更新了個人資料,管理者需確保數據庫的數據能作出更新,保持客戶資料準確。
  • Step 3. 數據使用 (Active use)…

--

--