[AIUX] Ch1–3 設計以及評估回饋函數

AlfredCamera
AlfredCamera Team Blog
9 min readMar 30, 2020
這系列文章為 AlfredCamera 工程和設計團隊閱讀 Google People + AI 內容綱要和討論筆記,期望透過平常設計 AI 產品的設計師和工程師的補充,讓文件中的知識更容易被各種背景的人員吸收應用。由於在討論中也發現 AI 產品設計的中文資料較少,因此整理分享期望能幫助到其他團隊。原文摘要在文中以白底區塊為主,團隊的討論會以灰底區塊呈現,方便大家閱讀。如果有任何建議歡迎留言討論,或來信 hello@alfred.camera 😊

前情提要:Ch1–2 完全自動化 v.s 機器輔助

三、設計以及評估回饋函數(reward function)

任何 AI 模型都以回饋函數(reward function/objective function/loss function)為依據,這是一組讓 AI 模型預測對和錯的公式,模型會不斷優化這個操作並完成最終體驗。設計過程應該是跨團隊協作,一起思考可能的結果並綜合結論。這樣的過程有助於提前看到坑,避免踩雷。

模型訓練的目標,算是一種模型訓練到後面的考試機制,利用獎勵函數/目標函數/損失函數來判斷模型有沒有接近想要的樣子。若考試沒過就要再訓練,訓練到考試通過了才停止。

3.1 衡量 positive 和 negative

binary classifiers 是一種用來預測標的物是否屬於某個類別的模型,他的預測有4 種可能的結果:

  • True positive: 模型正確預測了一個正面結果,例如建議跑者適合的路線
  • True negative: 模型正確預測了一個負面結果,例如沒有建議跑者不喜歡的路線
  • False positive: 模型錯誤預測了一個正面結果,例如建議跑者不喜歡的路線
  • False negative: 模型錯誤預測了一個負面結果,例如沒有建議跑者喜歡的路線
Original from Google People + AI

衡量 false positive 和 false negative 會是定義體驗的關鍵決定因素,兩者同樣權重是理想狀態,但現實生活中,錯誤預測對用戶造成的影響不可能是相等的。例如一個誤響的警報以及火災中沒有響起的警報相比,同樣是錯誤預測,後者明顯更嚴重。但換句話說,偶爾推薦錯誤歌單給用戶並不會造成太大影響。透過信心程度指標,可以減輕錯誤預測帶來的負面影響。

3.2 考量精確度和召回率

精確度和回收成本是定義錯誤類型的兩個維度。

精確度(precision) = true positive/(true positive + false positive)

當精確度越高,我們對模型輸出正確預測的信心度就越高,但要小心這個指標可能排除一些事件,導致 false negative 增加。

例如一個講求精確度的跑步 app 可能不會推薦每一條用戶「可能」會喜歡的路線,但它能有高度信心推薦的路線用戶會喜歡,整體來說推薦的路線數量會偏少。

📝 應用案例
其他適合的場景例如:製作飛機螺絲,需要謹慎判斷合格的螺絲,不合格就應該重做。此時就應該在判讀上追求精確度。另外像是阿福管家的人臉辨識,寧願多紀錄偶發的錯誤偵測,也不希望追求精確而不小心遺漏了陌生人的錄影(欸當然理想上兩種都不要發生啦...但相較之下還是有輕重之分),因此安全系統通常也會以追求精確度為主要衡量指標。

召回率 (recall)= true positive/(true positive + false negative)

當召回率越高,我們對模型推薦所有相關預測的信心度就越高,但可能會納入一些事件,導致 false positive 增加。

例如一個講求召回率的跑步 app 可能傾向推薦所有用戶可能會喜歡的路線,即使部分推薦可能不會受到喜愛,系統會產生較多推薦。

我們需要確保用戶在這兩者間達成平衡,有時用戶希望可以看到一些精確度較低的結果,以確定系統有考量所有可能結果。有時候給出精確度較低的結果,會造成用戶信任減少。應該根據用戶的期望以及完成任務的心情,綜合決定適合的目標。

📝 應用案例
例如檢查癌症,誤判有癌症雖然也很嚇人,但通常會再做多次檢查進行確認,但有癌症卻沒有檢查出來卻是一件很嚴重的事。因此在醫療判讀系統會以追求召回率為主。又如廣告商可能透過 AI 預測產品的潛在客戶並投放廣告,也會傾向多投放給有可能買的受眾,也不要因為追求精確而放過潛在付費客戶。

Original from Google People + AI

📝 我什麼都要!試試看 F1 score (F1 Measure)
如果覺得精準度和召回率一樣重要(或是不特別在意某方面的時候),就要用 F1 score 把這兩個指標取一個平衡。這種指標適用於有標準答案的場景,例如辨識圖片是否有人(有明確的 yes/no),沒有標準答案的場景例如推薦模型就比較不適合進行 F1 measure。
📝 設定指標之後,會優化到什麼程度才算是可以了?
以阿福管家的 Person Detection 為例,會看一個特定數值,若這個數字降不下來了,且維持在一個水平,代表已經到達了這個模型優化的極限,就會把它停止。想要再繼續更優化也可以,但會需要找出能造成較大突破的優化方向(要讀論文的意思)。另一個面向也可以設定一個我們想要達到的正確率,例如我們人物預測的準確度若能辨識到60% 的人就可以符合用戶需求,那模型就可以優化到這個標準就停止。這部分在第二章會進一步討論怎麼將資料連結至用戶體驗指標。以UX的角度來說,確保兩者之間的平衡在用戶可接受的範圍是核心重點,有時候用戶希望能看到精確度相對低,但涵蓋的範圍較廣的資料。有時候要追求精確度,否則會導致用戶覺得不準而信任度降低。

3.3 評估 reward function 的結果

提到成功的系統,往往會連結到簡單、固定範圍、立即見效,但當你用這種方式評估 reward function 可能會造成負面結果,要注意以下幾點:

評估對用戶的包容性

確保種族、性別、背景等不同的用戶都有被納入考量,推薦兩個工具協助大家檢查 AI 的數據是否存在偏差 Facets and the What-If Tool ,詳細的指導綱要請參考 Responsible AI Practices

監控一段時間

需要考慮 reward function 所優化的行為在不同用戶時期的意義,畢竟第一天使用的用戶和第一千天使用的用戶的最佳體驗應該是很不一樣的。

想像潛在的坑

要注意 Second-order effects,想像一下我們的 reward function 優化到極致後,這個系統對於用戶的家人、朋友甚至整個社會的影響是什麼?舉例來說,優化搜索結果體驗是好的,但如果優化如何吸引用戶整天的注意力可能不太好。

3.4 為負面結果負責

在高風險的產業中應用 AI 時,負面結果的監測越來越重要,即使做了練習也不一定會預先想到可能的影響,這是一件需要定期安排時間來檢查指標、不良影響的重要工作項目。

將負面結果與用戶體驗連結起來也是個好作法,以下為一些標準的範例:

  • 如果用戶對智能播放的平均拒絕率超過 20% ,應該檢查 ML模型
  • 如果超過60%的安裝用戶從未使用,則應該檢查行銷策略
  • 如果用戶經常打開 app 但僅停留 25% 的使用時間,則可能重新設定我們的通知頻率 completing runs

隨著產品成熟度越高,需不斷確認用戶反饋以知道產品是對未被考慮的用戶造成影響,如果有這種情形發生,請與這些用戶詳細了解情況,持續用這樣的方式調整產品。也推薦使用社群軟體或 Google Alerts 進行產品監控。

📝 取得有意義的反饋是 AIUX 的重點之一
從這章節中我們知道「機器透過反饋學習的結果」在 AI 產品中是產品會不會變好的關鍵,因此如何取得反饋會是其他數位產品比較少接觸的部分。困難點在於取得用戶反饋成為用戶體驗的一部份,若取得手法不佳,導致 AI 不準確,會讓用戶流失進而更難取得有效的反饋,產品會陷入一個負面循環。因此 AI 產品設計在前期就先規劃好如何採集反饋非常重要。UX 進行設計時,要進一步了解模型想要取得什麼,以及透過什麼流程能取得對模型最有意義的資料,抓到一個最佳的平衡點。例如 Google photo 會跳出一個彈窗,詢問用戶某兩張臉是否為同一個人,用戶只要回答 Yes/No,非常簡單。但同樣的設計如果套用至阿福管家的人臉辨識,以明確的「好」跟「不好」的圖示讓用戶對人臉辨識結果進行標注,用戶可能不知道你要問的是人臉判斷準不準,還是這個功能體驗好不好,導致回收的資料其實對模型的幫助不大。
📝 關於 AI 模型的準確度
AI 模型準不準有太多因素,甚至連「準」或「不準」都要定義清楚。以人臉辨識為例,用戶的相機放在哪個角度?通常與人距離多遠?都會牽涉到模型的準確率。一味追求精確也需要投入大量資源,但也不一定對用戶有意義。若是人臉辨識需要標記用戶,就會需要考慮到資料量怎麼來,要怎麼要求用戶給這個資料?若你真的去要求用戶,會不會造成反感?因此單純討論「準不準」太粗略,後續第二章會更有架構的介紹怎麼在這種模糊性中整理出評估標準。所以,訓練AI模型會根據每個場景不同而有不一樣的需求,開發新的 AI 模型之前,應該要先定義用戶的需求是什麼,或者同步去進行測試,想辦法讓使用者需求和 AI 技術達到一個很好的平衡點,而不是一味地追求越準越好,這樣才能真正落實 User-centered,而不是自嗨的 AI-centered。
本文編者名單主筆:Weiyun Hsu
編輯:Weiyun Hsu
討論:AIUX 讀書會成員 Cheyu, Frank, Jacky, Ron, 宜婷, Weiyun

--

--

AlfredCamera
AlfredCamera Team Blog

AlfredCamera 從使用者出發,專注在推出解決大眾生活問題的普及化 AI 應用。全球已累積超越四千萬用戶下載,北美最受歡迎的居家安全監控軟體,並分別在 2016 年與 2019 年獲得 Google Play 年度最創新 App 與年度最佳生活幫手 App 的殊榮。