[AIUX] Ch2–2 數據的資訊結構

AlfredCamera
AlfredCamera Team Blog
Mar 29, 2020
這系列文章為 AlfredCamera 工程和設計團隊閱讀 Google People + AI 內容綱要和討論筆記,期望透過平常設計 AI 產品的設計師和工程師的補充,讓文件中的知識更容易被各種背景的人員吸收應用。由於在討論中也發現 AI 產品設計的中文資料較少,因此整理分享期望能幫助到其他團隊。原文摘要在文中以白底區塊為主,團隊的討論會以灰底區塊呈現,方便大家閱讀。如果有任何建議歡迎留言討論,或來信 hello@alfred.camera 😊

前情提要:Ch2–1 將用戶需求轉化成數據需求

二、數據的資訊結構

獲取數據的方式有兩種,第一是使用現有的資料集,第二是建立自己的資料集,或是也可以結合這兩種。但不論你選擇了哪一個,最重要的是要確保此數據的基礎結構是正確的。

2.1 使用現有的資料集

在使用現有的資料集時,可能會檢測到一些值是缺少的、格式或拼寫錯誤的狀況,你還是得花時間去整理數據。可以利用Facets的工具探索現有的資料集,以了解資料的差距或偏差狀況。

📝garbage in garbage out
這邊延伸資料中講到通俗說法 garbage in garbage out,怎樣的資料會被認為是 garbage?這裡指會造成數據雜訊的資料,要看前一章介紹的數據需求來定義怎樣的數據算是雜訊,傳統上資料缺值遺漏可能利用補值或直接刪除。

2.1 建立自己的資料集

建立自己的資料集之前,先去了解使用你產品的領域專家。(EX:醫療類)

再自行收集完你的數據後,請記得要執行以下步驟:

  • 標識你的數據來源
  • 你的數據來源多久要刷新一次
  • 檢查可能值(possible values)、單位(units)、數據類型(data types)
  • 識別異常值,調查他們是實際異常值還是由於數據錯誤引起的。

2.3 考慮將數據統一格式

最好將你的數據一致格式,你的ML模型才可以更好的進行學習。舉例來說,「零」是「0」;「國家」可能包含「US」或「USA」或「United States」。

2.4 避免其他ML模型帶來的錯誤

若使用了另一個ML系統的輸出結果來訓練模型,會較難以識別錯誤來源。

2.5 保護個人訊息

無論使用什麼數據都可能包含個人身份訊息,在這個部分要特別去匿名處理數據,匿名數據的方法有以下兩種:聚合、修訂。

聚合(Aggregation):意指使用摘要值替換唯一值,例如,一個月中每天每分鐘用戶的最大心跳值替換成:每分鐘平均心跳或是分類成高/中/低的標籤。

📝以分析角度應該還是 raw data 最好用,怎麼取捨保護訊息和實作彈性之間的平橫?可能回到一開始定義目標所需的精度為何,有點類似權限管理的問題,讓資料的可識別性盡可能接近需求就好,但的確會降低方便與複用性。

修訂(Redaction):特意移除某些數據去創建不完整的圖片。旨在減少用於識別單一用戶的特徵和數量。

📝我們是否應該完全的向用戶說明清楚資料的流向,降低用戶的疑慮?根據經驗,說明清楚與讓用戶感到心安未必能有正相關,要完全清楚的說明本身就是不小成本,當中又牽扯到許多複雜性,更是降低使用彈性,因此這條線該畫在哪或許需要再評估。

2.6 分割數據

要把可用數據拆分成兩個來使用,60% 用來訓練、40% 用來測試及驗證你的ML 符合數據。

📝阿福管家 ML 模型分割比例怎麼評估?根據資料量,資料品質,模型性質評估。

2.7 從用戶收集數據回饋

從後台收集數據或直接詢問用戶,例如 Google Home 跟用戶的對話就能作為資料分析。

本文編者名單主筆:宜婷
編輯:Weiyun Hsu
討論:AIUX 讀書會成員 Cheyu, Frank, Jacky, Ron, 宜婷, Weiyun

--

--

AlfredCamera
AlfredCamera Team Blog

AlfredCamera 從使用者出發,專注在推出解決大眾生活問題的普及化 AI 應用。全球已累積超越四千萬用戶下載,北美最受歡迎的居家安全監控軟體,並分別在 2016 年與 2019 年獲得 Google Play 年度最創新 App 與年度最佳生活幫手 App 的殊榮。