歐盟 GDPR 生效對機器學習應用的影響

Published in

TrustableAI

8 min readOct 3, 2017

歐盟在 2016 年 4 月通過了 General Data Protection Regulation（以下簡稱 GDPR），對於運用演算法代替人類進行決策有重大的規範。這裡我們參考 Goodman et al 在 2016 年這篇論文[1]的架構，簡要說明 GDPR 中涉及演算法公平性與可解釋性的條文。

這裡要說明我們不是歐盟法規專家。這篇文章所提及的見解，僅止於總結我們目前搜集到的研究結果，並盡可能準確地轉述。我們認為人們能否信任演算法，不只是技術問題，因此我們也關注演算法的法律、社會等面向，並歡迎有更多見解的朋友們一起討論。

GDPR 概要

根據 Goodman et al，GDPR 的目的是規範個人資料的搜集、儲存與運用，補強歐盟現行的個人資料保護措施，例如被遺忘權（right to be forgotten）、外國公司搜集歐盟公民資料等等議題都在其範圍內。以下我們要特別討論 Article 22，關於「自動化個人決策」（automated individual decision making）的條文：

其中 Paragraph 4 與演算法公平性有關。

GDPR 將於 2018 年 4 日生效，取代 1995 年起生效的 Data Protection Directive（以下簡稱 DPD）。兩者有幾個重要的不同：

GDPR 是 regulation，DPD 是 directive。Directive 的作用是指導歐盟各國的立法，實際上還是要透過歐盟各國國內立法完成後才能落實。Regulation 的地位則等同歐盟各國國內法，只不過其範圍涵蓋整個歐盟。因此 GDPR 從 2018 年 4 月起不需要再由各國國內立法程序就直接適用。
GDPR 明文規定罰則，是 2 千萬歐元或全球獲利的 4% 其中較高的一方（Article 83，Paragraph 5）。
GDPR 涵蓋所有持有歐盟公民資料的公司，不僅限於總部設在歐盟的（Article 3，Paragraph 1）。

演算法公平性相關規範

GDPR Article 22 Paragraph 4 規定，對個人有法律或重大影響的決定，不得基於（Article 9 規定的）個人種族、政治立場、宗教與哲學信仰、商業關係這些個人資料：

在限縮其適用範圍的最小解釋（minimal interpretation）之下，Article 22 可以禁止演算法直接使用以上這些敏感資訊進行決策。但我們在演算法公平性相關研究中已經很清楚知道，僅限制不得直接使用這些敏感資訊，無法杜絕演算法歧視的問題。

在擴大解釋（maximal interpretation）之下，所有與以上敏感資訊相關的資料都可能被涵蓋在禁止使用之列，而這會面臨以下技術困難：

不容易從演算法中移除敏感資訊的影響。
Uncertainty bias，即因為訓練資料量多少，而對不同群體有不同的預測誤差。

這些技術困難，以及當前的演算法公平性研究進展，我們在之前〈演算法公不公平？〉一文中已經整理過。

因為上述問題，這裡難以找到一體適用的法律解釋，屆時判決可能要看個案實際運用演算法的情況。也因此，能不能有效地解釋演算法的決策，也就是演算法的可解釋性，會是重要的。

演算法可解釋性相關規範

GDPR 對於被搜集資料的個人「要求解釋的權力」（right to explanation）到底規範了什麼，目前仍有爭議。

Wachter et al（2017）[2]針對 right to explanation 進行研究，指出 GDPR Article 22 雖然要求個人有 “right not to be subject to automated decision-making”，但其用詞模糊、適用範圍有限，屆時可能會無法落實。總括來說，GDPR 只要求個人有「被知會的權力」（right to be informed），而這不一定能擴大到要求演算法的決策可以被解釋。

Goodman et al 則認為，Article 13–15 規範個人有權取得被搜集的資料與得知其用途，其中就包含個人有權得知「關於該邏輯（演算法）有意義的資訊，與其可預見的影響」。例如 Article 13 Paragraph 2 (f) 規定資料搜集方在搜集資料前應先告知：

因此重點是要做到什麼程度，才算是解釋了演算法的決定。Goodman et al 引用 Burrell（2016）[3]對於機器學習演算法透明性的研究，區分了對於演算法三個程度的理解障礙：

有意不讓人取得資訊。這一點 Article 13 已納入。
技術理解門檻，讓人即使取得演算法也無法看懂。這一點 Article 12 已納入。
機器學習演算法是同時考慮大量因素進行數學最佳化的結果，與人類仰賴少數關鍵因素進行詮釋理解，這之間存在著落差。所以即使知道演算法的邏輯，也不一定能理解其結果為什麼是最佳的。這一點 GDPR 還未納入。

可解釋的演算法是一個快速發展中的研究領域，例如 DARPA 的 Explainable Artificial Intelligence 計劃、2016 ICML Workshop on Human Interpretability in Machine Learning 都有許多資訊。之後我們也會整理該領域的進展。

GDPR 生效之後

除了即將付諸實行的 GDPR，也已經有人在討論法規之外進一步規範機器學習應用與保障個人權利的措施。Thelisson et al（2016）[4]引用歐盟對食品安全的保護措施，提出幾個進一步的管理辦法：

Code of conduct
Quality label
Data chain transparency
Discrimination-aware machine learning 研究

這方面的進展值得關注。另外，上節提到的 Wachter et al 已經指出，目前 GDPR 的條文本身仍然不夠明確的地方，可能無法落實對個人的保護，因此我們推測後續的修正與補充也可能正在進行中。

參考文獻

Goodman, B., & Flaxman, S. (2016). European Union regulations on algorithmic decision-making and a “right to explanation,” 1–9. Retrieved from http://arxiv.org/abs/1606.08813
Wachter, S., Mittelstadt, B., & Floridi, L. (2017). Why a Right to Explanation of Automated Decision-Making Does Not Exist in the General Data Protection Regulation. International Data Privacy Law, 7(2), 76–99. Retrieved from https://academic.oup.com/idpl/article/3860948
J. Burrell, “How the machine ‘thinks’: Understanding opacity in machine learning algorithms,” Big Data & Society, vol. 3, no. 1, p. 2053951715622512, Jan. 2016.
Thelisson, E., Padh EPFL, K., & Elisa Celis EPFL, L. (2016). Regulatory Mechanisms and Algorithms towards Trust in AI/ML. Retrieved from https://www.researchgate.net/publication/318913104_Regulatory_Mechanisms_and_Algorithms_towards_Trust_in_AIML

原文為 Trustable AI — 歐盟 GDPR 生效對機器學習應用的影響