[資料科學] 資料品質初探(Data Quality)

Published in

A multi hyphen life

3 min readJan 13, 2019

Garbage In, Garbage Out

碩士班在做研究時，老師就有個名言「Garbage In, Garbage Out」。指的是，分析資料，無論是質化量化，首重資料的品質。不佳甚至錯誤的資料，只會得到可怕的結果。

社會所很多都是使用問卷調查方法，我們花了非常多時間再討論問卷要如何設計、如何抽樣、如何訪談、如何回收資料、整理資料等等，為的就是講求資料的品質。不恰當的問句，讓受訪者產生認知誤差；或訪員問話時使用誤導的語氣；或是隨便的抽樣讓樣本喪失了代表性，等等狀況都會造成垃圾的產生。

收集資料的過程只要有任何一個環節出錯，就會產生不乾淨的資料。

但是到了大數據時代，反而很少人在談資料品質？

以網站 log 來說：

小細節非常多，根據資料的來源和性質也有不同的作法。參考了一些文獻，整理出下列以下幾個大方向：

正確及可靠

正確：表示測量指標可以反應要測量的事物，例如你要測男生發育狀況，會使用身高及體重，而不會使用血脂含量。

可靠：表示這個指標經得起重複測量，不會每次都有很大的變化或誤差。例如每日追蹤網站的流量，不管是增加或減少，一定會有合理的解釋。如果找不到原因卻增增減減，表示一定哪裡有問題。

可靠性可以透過多重指標互相比較來確認數值的可靠。例如透過不同的體重計量體重，或是透過不同的 traking 機制追蹤網站瀏覽人數，就算有誤差，但也應該是在合理範圍內。

但是正確性是否正確，通常是一個哲學問題。需要反覆推敲對於問題的定義和理解，才能設計出良好的觀察指標。

資料就是拿來被分析的，如果貴公司的資料很難被該分析的人使用，那會大大降低資料的價值。

可接近性可以根據不同業務需求和對資料處理的熟悉度做區分。越靠近 raw data 的使用者，需要越強的資料整理和編程能力；相反地，越靠近應用端的人，需要的是更多整合以及視覺化資料。

資料安全和隱私是這幾年很強調的話題，除了少數必須使用資料的人外，需要做適當的資訊屏蔽或是權限控管。結合資料可接近性，可以從職位上這樣大致劃分：

一方面需要確保取得資料過程的完善，有沒有考慮到不同的狀況。例如是不是能收到每筆 Log、過期的 Log 怎麼處理、Log 回不來怎麼辦、處理 Log 的機器狀況是否正常、儲存裝置是否妥當、資料有沒有用合適的方式儲存等。

另一方面處理流程的完善更是包山包海，像是對遺失值的處理是否合理、什麼情況需要排除某些資料、資料聚合、篩選、解析的邏輯等。

研究時很著重研究倫理，但是在收資料方面，倫理好像是個大家嘴巴上講一套，實際上做一套的東西，包括那根本不會有人看完但是包山包海的隱私權條款…不過這方面不好講太多…

上面講的都是大方向，下次再聊聊一些過去用過的指標。