[AIUX] Ch2–2 數據的資訊結構

Published in

AlfredCamera Team Blog

Mar 29, 2020

這系列文章為 AlfredCamera 工程和設計團隊閱讀 Google People + AI 內容綱要和討論筆記，期望透過平常設計 AI 產品的設計師和工程師的補充，讓文件中的知識更容易被各種背景的人員吸收應用。由於在討論中也發現 AI 產品設計的中文資料較少，因此整理分享期望能幫助到其他團隊。原文摘要在文中以白底區塊為主，團隊的討論會以灰底區塊呈現，方便大家閱讀。如果有任何建議歡迎留言討論，或來信 hello@alfred.camera 😊

前情提要：Ch2–1 將用戶需求轉化成數據需求

二、數據的資訊結構

獲取數據的方式有兩種，第一是使用現有的資料集，第二是建立自己的資料集，或是也可以結合這兩種。但不論你選擇了哪一個，最重要的是要確保此數據的基礎結構是正確的。

2.1 使用現有的資料集

在使用現有的資料集時，可能會檢測到一些值是缺少的、格式或拼寫錯誤的狀況，你還是得花時間去整理數據。可以利用Facets的工具探索現有的資料集，以了解資料的差距或偏差狀況。

📝garbage in garbage out
這邊延伸資料中講到通俗說法 garbage in garbage out，怎樣的資料會被認為是 garbage？這裡指會造成數據雜訊的資料，要看前一章介紹的數據需求來定義怎樣的數據算是雜訊，傳統上資料缺值遺漏可能利用補值或直接刪除。

2.1 建立自己的資料集

建立自己的資料集之前，先去了解使用你產品的領域專家。（EX:醫療類)

再自行收集完你的數據後，請記得要執行以下步驟：

標識你的數據來源
你的數據來源多久要刷新一次
檢查可能值(possible values)、單位(units)、數據類型(data types)
識別異常值，調查他們是實際異常值還是由於數據錯誤引起的。

2.3 考慮將數據統一格式

最好將你的數據一致格式，你的ML模型才可以更好的進行學習。舉例來說，「零」是「0」；「國家」可能包含「US」或「USA」或「United States」。

2.4 避免其他ML模型帶來的錯誤

若使用了另一個ML系統的輸出結果來訓練模型，會較難以識別錯誤來源。

2.5 保護個人訊息

無論使用什麼數據都可能包含個人身份訊息，在這個部分要特別去匿名處理數據，匿名數據的方法有以下兩種：聚合、修訂。

聚合（Aggregation）：意指使用摘要值替換唯一值，例如，一個月中每天每分鐘用戶的最大心跳值替換成：每分鐘平均心跳或是分類成高/中/低的標籤。

📝以分析角度應該還是 raw data 最好用，怎麼取捨保護訊息和實作彈性之間的平橫？可能回到一開始定義目標所需的精度為何，有點類似權限管理的問題，讓資料的可識別性盡可能接近需求就好，但的確會降低方便與複用性。

修訂（Redaction）：特意移除某些數據去創建不完整的圖片。旨在減少用於識別單一用戶的特徵和數量。

📝我們是否應該完全的向用戶說明清楚資料的流向，降低用戶的疑慮？根據經驗，說明清楚與讓用戶感到心安未必能有正相關，要完全清楚的說明本身就是不小成本，當中又牽扯到許多複雜性，更是降低使用彈性，因此這條線該畫在哪或許需要再評估。

2.6 分割數據

要把可用數據拆分成兩個來使用，60% 用來訓練、40% 用來測試及驗證你的ML 符合數據。

📝阿福管家 ML 模型分割比例怎麼評估？根據資料量，資料品質，模型性質評估。

2.7 從用戶收集數據回饋

從後台收集數據或直接詢問用戶，例如 Google Home 跟用戶的對話就能作為資料分析。

本文編者名單主筆：宜婷
編輯：Weiyun Hsu
討論：AIUX 讀書會成員 Cheyu, Frank, Jacky, Ron, 宜婷, Weiyun

下一篇：2–3 評估與標籤機制
Google People + AI 系列文章總覽

[AIUX] Ch2–2 數據的資訊結構

二、數據的資訊結構

Written by AlfredCamera