[資料科學] 資料品質初探(Data Quality)

Bryan Yang
A multi hyphen life
3 min readJan 13, 2019

Garbage In, Garbage Out

「garbage in garbage Out」的圖片搜尋結果

碩士班在做研究時,老師就有個名言「Garbage In, Garbage Out」。指的是,分析資料,無論是質化量化,首重資料的品質。不佳甚至錯誤的資料,只會得到可怕的結果。

社會所很多都是使用問卷調查方法,我們花了非常多時間再討論問卷要如何設計、如何抽樣、如何訪談、如何回收資料、整理資料等等,為的就是講求資料的品質。不恰當的問句,讓受訪者產生認知誤差;或訪員問話時使用誤導的語氣;或是隨便的抽樣讓樣本喪失了代表性,等等狀況都會造成垃圾的產生。

收集資料的過程只要有任何一個環節出錯,就會產生不乾淨的資料。

但是到了大數據時代,反而很少人在談資料品質?

以網站 log 來說:

  • 使用者回傳資料時會不會因為網路延遲造成順序或反覆發送的錯誤?
  • 埋的 Event 是否正確?
  • 收的資料是否完整?
  • 收 Log 的機器故障?
  • 就不提處理資料時各種可能對資料的誤讀和處理瑕疵…

小細節非常多,根據資料的來源和性質也有不同的作法。參考了一些文獻,整理出下列以下幾個大方向:

正確及可靠

正確:表示測量指標可以反應要測量的事物,例如你要測男生發育狀況,會使用身高及體重,而不會使用血脂含量。

可靠:表示這個指標經得起重複測量,不會每次都有很大的變化或誤差。例如每日追蹤網站的流量,不管是增加或減少,一定會有合理的解釋。如果找不到原因卻增增減減,表示一定哪裡有問題。

可靠性可以透過多重指標互相比較來確認數值的可靠。例如透過不同的體重計量體重,或是透過不同的 traking 機制追蹤網站瀏覽人數,就算有誤差,但也應該是在合理範圍內。

但是正確性是否正確,通常是一個哲學問題。需要反覆推敲對於問題的定義和理解,才能設計出良好的觀察指標。

可接近性

資料就是拿來被分析的,如果貴公司的資料很難被該分析的人使用,那會大大降低資料的價值。

可接近性可以根據不同業務需求和對資料處理的熟悉度做區分。越靠近 raw data 的使用者,需要越強的資料整理和編程能力;相反地,越靠近應用端的人,需要的是更多整合以及視覺化資料。

安全及隱私

資料安全和隱私是這幾年很強調的話題,除了少數必須使用資料的人外,需要做適當的資訊屏蔽或是權限控管。結合資料可接近性,可以從職位上這樣大致劃分:

  • 資料工程師:需要直接碰觸原始資料
  • 資料科學家:部分隱私資訊被屏蔽,或只能取得部分的隱私資料
  • 資料分析師:更多隱私資訊被屏蔽,製作整合過的資料和繪製資訊圖表
  • 業務分析:只能看到整理過的的資料圖表

完善的資料取得和處理流程

一方面需要確保取得資料過程的完善,有沒有考慮到不同的狀況。例如是不是能收到每筆 Log、過期的 Log 怎麼處理、Log 回不來怎麼辦、處理 Log 的機器狀況是否正常、儲存裝置是否妥當、資料有沒有用合適的方式儲存等。

另一方面處理流程的完善更是包山包海,像是對遺失值的處理是否合理、什麼情況需要排除某些資料、資料聚合、篩選、解析的邏輯等。

合法/合乎道德的資料取得過程

研究時很著重研究倫理,但是在收資料方面,倫理好像是個大家嘴巴上講一套,實際上做一套的東西,包括那根本不會有人看完但是包山包海的隱私權條款…不過這方面不好講太多…

上面講的都是大方向,下次再聊聊一些過去用過的指標。

--

--

Bryan Yang
A multi hyphen life

Data Engineer, Data Producer Manager, Data Solution Architect