五分鐘快速搞懂「資料完整性」

(本文由 Numbers 實習生 Diana 主筆,Sofia 編修)

你有好不容易做好的 Spreadsheet 被隨意更動的經驗嗎? 還是好不容易蒐集到的資料卻被刪除?

隨著大數據時代來臨,連帶帶起資安和資料庫的討論熱度,資料完整性 (Data Integrity) 的人氣更是勢不可擋,定義更被多次討論 (看來大家對它都滿疑惑的😅),而資料被恣意篡改與資料完整性又有什麼關係呢?

暑假期間由一樣是 Numbers 文組人的實習生 Diana 來幫大家整理解惑~!

一般而言,資料完整性的定義為「資料在傳輸過程和其應用之產品生命週期中,沒有經過未授權者的任意竄改或更動,或經變動,但經授權者及時發現並補救」。這是比較「正經」 的定義 XD,麻瓜一點的比喻就是「由我代替小組交給教授的分組期末報告,沒有經過除了我們小組外的任何人竄改或更動,或者被助教偷動手腳變動了,但被冰雪聰明的我們發現了並及時補救」。

資料完整性也可以用來形容一些過程,例如檢查資料錯誤和可信度的程序。簡而言之,資料完整性是一個「保護數據」的工具,防止資料在儲存至應用的過程被惡意修改,是防範許多想惡意竄改資料者(ex 助教想害我們整組被當,中途攔截期末報告偷偷竄改)的最佳武器。

還是太模糊了?好,那先來看看資料完整性的指標。👇👇👇👇👇

資料完整性二指標

-正確性 (Accuracy):確保資料蒐集與其資料庫定義相符。
-可靠性 (Reliability):確保資料是可靠的,沒有被未授權者隨意篡改。

了解這兩個重要指標後,我們來聊聊資料完整性的類別與應用。

數據完整性類別

  1. 實體完整性(Entity Integrity):
    在資料庫已定義下,每一筆資料在收集時各欄位應該都要完整。「資料庫」或許對你來說太遙遠? 那我們舉個生活中的實例吧:當我們在社群網站上看到一張照片時,除了影像外,拍攝的時間、地點、拍攝者、角度等等,都是重要的輔助資訊,缺少了這些資訊,很難判斷照片與文字描述是否相符對吧?

我們常常看到影像被移花接木、濫用,組合成非事實的訊息在社群平台上流傳的狀況,很大的原因即是由於該資料的實體完整性不足喔。

2. 區域完整性(Domain Integrity):
透過一連串過濾與檢驗數據正確性的過程,來確保資料符合資料庫規範與定義後准許儲存。簡單來說,區域完整性會確認資料庫內的數值是否遵循資料庫規範,例如:無法被記錄的資料統一標示為「N/A」、數字一律紀錄至小數點第二位、只儲存 10~100 的數據值等。雖然不是非常精確,但我們可以用超市的分區來理解,蔬果區不能放肉類、調味料區不能放空心菜,(獅子不能放到可愛動物區),資料必須被放置在符合規範的位置。

3. 參考完整性(Referential Integrity):
又稱「引用完整性」,確保資料能在被參照、引用後,正確回溯原資料,像是引用資料 A 的資料 B 中,所參照的資料都須符合 A 的內容。例如,一個出版社要出版一本書,它就會引用作者的資料,若應被參照的作者資料是空白的,那就不具參考完整性。這觀念比較抽象一點,再以社群網站上看到一張照片為例,如果紀錄了此照片的作者 ID、卻無法找到作者的相關的參照資料,這就是一種參考完整性缺失。那…論文如果抄襲,內容都能完美對應回原論文,算不算是一種參考完整性✍️🤐呢?

4. 使用者定義的完整性(User-defined Integrity):
使用者定義的規則,不歸類於以上三個類別,有了「使用者定義完整性」,資料庫管理者才能基於觀察或者實驗結果賦予資料特殊的意義。

資安和資料完整性

最後聊聊兩個易混淆的名詞。

「資安」和「資料完整性」最大的差異點在於:

資安關注的是資料保存、存取的安全性、是否在未授權的狀況下被盜用等等。而資料完整性則著重於資料與輔助資訊是否完好齊全、是否被任意更動等等。

舉例來說,如果想從政府資料知道我是個怎麼樣的人?就會發現「資安」通常很好,但「完整性」就比較不足,政府可以提供我的出生年月日、身分證資料等等,卻不了解我的習慣與喜好。反之,在近期 Twitter 被駭的事件當中,其資料完整性是相當好的,需要修正的是資安漏洞(自己的資料被完整盜走…真不知道該開心完整性很好,還是憂慮我的偏好、習慣全部被看光呢…?

在數據化時代,資料的判讀能力愈加重要,維護資料和確保品質不僅是資料管理者的責任,也是每一個人的責任。

但是除了多吃葉黃素眼睛張大點判讀資料,有什麼更有效率的工具可以協助我們呢?

~葉佩雯時間~

由正統台灣新創團隊主張數據開發的 Numbers Capture App ,協助你從源頭保護資料完整性!經由 Numbers Capture App 拍攝的照片,不但能留下按下快門的地點、時間、手機上的感測器資料等等環境資訊,賦予每張照片專屬指紋認證並上區塊鏈,確保資料完整性在資料產生時即被完整保存,即使被未經授權的人拿去誤用濫用製造假新聞,也能輕易找出資料源頭,還原真相!

從今天起也開始注意你接收到的資料是否具備可經驗證的完整性吧!
讓我們一起找回對資料數據的信任!

--

--

邱如韻 Diana Chiu
Numbers Protocol - 主張數據

Diana 的寫實派留學筆記。不只寫那些國外的憧憬,更寫那些深刻的顛沛流離, 一個出國卻喜歡用中文寫作的人。