On Lightweight Privacy-Preserving Collaborative Learning for Internet-of-Things Objects

Kuan-Hung Liu
Taiwan AI Academy
Published in
5 min readJun 26, 2020

1. INTRODUCTION

在這個機器學習當道的時代中,IOT裝置的不少應用也會使用到這項技術,但 IOT 裝置通常運算資源都不強,所以我們通常需要把資料丟到伺服器端,讓那邊來幫我們做運算,再把結果返回。

在這篇論文中想解決的是,在把資料丟到伺服器的時候,除了要對伺服器保護隱私之外,他還想盡可能的降低運算消耗甚至是傳輸的消耗。

常見的方式為在資料上加雜訊(Differential privacy)、對資料作加密(homomorphic encryption)等

2. BACKGROUND AND PRELIMINARIES

2.1 Supervised Collaborative Learning

其實沒什麼特別的,內在其實就是一般的機器學習,下面是其參數求法

2.2 Gaussian Random Projection (GRP)

給定特徵多少 d 和結果大小 k ,會生成一個 k x d 的矩陣 R,之後便可用這個矩陣將特徵投射到另外一個空間,其中這個矩陣有一些性質是需要注意的

  • 其每個 row 必正交
  • 其每個 row 為單位向量 轉換公式

轉換後也有一些性質

  • x1、x2和轉換過的y1、y2,他們內積和歐幾里德距離的期望值相同
  • 當你試圖從y反推x時,期望值也會是x

3. RELATED WORK

保護訓練資料

DML 在本地也訓練模型,將梯度上傳到伺服器端,伺服器將梯度整理好再丟還給使用者,這樣能維持大家的模型一致,但極耗費資源。
接著就是使用加密或加雜訊的方式去保護訓練資料

隱私地預測

CryptoNet 一樣是使用加密的方式,使用 homomorphic encryption,運算消耗和傳輸消耗都很大
Partitioned DNN 將神經網路切分成兩個部分,小部分的留在使用者那邊,把那部分當作特徵萃取器,以讓伺服器端不易能推估回原本資料
ObfNet 論文中的方法

4. PROBLEM STATEMENT AND APPROACH

4.1 Problem Statement

  • Honest-but-curious coordinator 簡單說就是會老實回覆你,但還是會想偷看你資料的伺服器端
  • Potential collusion between participants and coordinator 有使用者跟伺服器端有串通

4.2 Gaussian Random Projection Approach

相對輕量化許多,differential privacy (DP) 生成雜訊時消耗太多運算資源、homomorphic encryption運算量本身就很大而且傳輸量也會大幅增加,並且有提過他的性質可以算是保留distance、可逆的,所以神經網路理論上應該學的起來

4.3 Illustrating Examples

下面有一個論文中的範例,原始的資料隨機分配給4個參與者,他們把資料丟進自己的GRP後的資料模樣,以及最後伺服器端(Coordinator)統整後的樣子

5. PERFORMANCE EVALUATION

  • GRP-DNN 資料經過使用者 GRP 轉換過,給伺服器端用神經網路訓練
  • GRP-SVM 資料經過使用者 GRP 轉換過,給伺服器端用 SVM 訓練
  • GRP-NCL 使用者自己用神經網路訓練
  • ϵ-DP-DNN 使用者用符合 DP 定義加雜訊,再給伺服器端用 DNN 訓練

這邊使用 MNIST 的資料集做測試,ϵ 愈小加的雜訊愈大,但看起來效果沒有 GRP 好,除了1還是很明顯之外,其他效果都還不錯

下圖可以看到 GRP-DNN 效果最好,GRP-NCL 的准度 variance 很大,

下面的圖,左邊在比較當 k 愈小時,也就是維度被壓縮愈多時,我的效果還能保持多少,右邊則在敘述 ϵ 的差異,可以看到 ϵ 得到非常大才學習的起來,但一般 ϵ 會希望介於1左右,幾十就很誇張了

最後這邊是和其他論文方法的消耗比較,從左到右分別是論文中的作法、 DP 的作法、homomorphic encryption,可以看到大幅減少記換和傳輸消耗

論文連結:https://arxiv.org/abs/1902.05197

--

--