【De-ID】A Recurrent Neural Network Architecture for De-identifying Clinical Records (2)
這是一系列針對深度學習應用於個資去識別化論文整理並google中文化。
Paper:
1. A Deep Learning Architecture for De-identification of Patient Notes : Implementation and Evaluation
2. A Recurrent Neural Network Architecture for De-identifying Clinical Records
3. DE-IDENTIFICATION OF PROTECTED HEALTH INFORMATION PHI FROM FREE TEXT IN MEDICAL RECORDS
4. An Interactive De-Identification-System
5. Deep Learning Architectures for Tattoo Detection and De-identification
6. Live Face De-Identification in Video
7. Face-deidentification in images using Restricted Boltzmann Machine
上一篇:
3. De-identification of Electtronic Medical Record
■ EMR的去識別化可分成兩階段
- 第一階段:從病歷資料中擷取及分類PHI
- 第二階段:將識別出來的PHI進行加密
■ 第一階段:序列標籤問題
- 被制定為序列標籤任務,而有些系統是將其當作分類問題
- 此Paper將其認定為傳統的”named entity recognition task”
- 給定一個字詞序列W,目標是用後驗機率最大( the maximum posterior probability的方式識別最有可能的標籤序列L,表示成P (L|W ).
- 在貝氏定理的訓練生成模型(generative model )中,貝氏規則可表示成
- 因此對每個W和L,P (W |L)P (L) 必須要透過生成模型的目標函數來達到最大化
- 表一展示將自詞序列與相對應的標籤序列作為imput及作為去識別化後的output
- 幾個機率模型例如SVM HMM和CRF都曾被用來解決文字上的標籤序列問題,在這次的任務中開發CRF為基礎的模型當作baseline
- 每個病歷(筆記)是最先做預處理的,包括標記及對每個標記產生特徵
- 在訓練時要讓CRF參數最佳化,使測試時後驗機率最大化然後預測出最佳的標籤結果
- 雖然SVM HMM都有很好的結果,但因為要有特徵工程所以只適合在單一領域,因此RNN變成此次去識別化的架構模型
4. RNN architecture for de-identification
4.1 Neural network based Word Representation: Word Embedding
■ Wording embedding 就是用向量形式表示字詞,而這些向量當作RNN的input
■ Wording embedding 有強大的能力可以抓取各種字詞的語意和語法(Mikolov et al., 2013)
■ 該向量最初可以隨機生成,也可以透過外部資源(例如Wikipedia,新聞報導,生物醫學文獻等)從大型未標記的語料庫進行無監督式的預訓練。
■ Word embedding 是透過樣本字詞共同出現的分布來進行學習
■ 這種方法針對識別在向量中出現在相近地方的相識詞很有用
■ 有好幾種不同架構可以產生字詞向量
1) word2vec (Mikolov et al., 2013)
2) shallow neural networks (Schwenk and Gauvain, 2005),
3) RNN (Mikolov et al., 2010; Mikolov et al., 2011) etc.
■這次採用三種不同方式去訓練word embedding
- random number initialization:隨機產生在範圍-0.25~0.25長度為100的向量
- RNN’s word embedding:在RNNLM網站上提供的廣播新聞語料集裡,用80個領域的word embedding做字詞訓練
- continuous bag-of-words (CBOW) based models:在新聞語料集中,用CBOW產生300個領域的向量用來做字詞訓練
4.2 Capturing Short term Dependency with Context Window
■ 前饋神經網路(forward neural network, FNN)的input 是目標字詞的word embedding
■ 僅目標字詞是無法有效找尋其相關性
■ 上下文字詞對於抓取短期相依性字詞(short-term temporal dependencies)很有幫助
■ 對於每個字詞,用大小為m的word-context windows產生d為的word embedding,考慮到先前有m個字詞以及下一個也是有m個字詞和目前的字詞,我們生成字詞向量當作2m+1個word embedding向量,如下所示
■ ⊕是串聯運算子,對每一個字詞Wi,都產生一個word embedding向量Vi,在windows 大小為m下,相依詞的串聯被表示為:
■在最頭和最尾的詞執行padding以產生m個context window,以下舉例以字詞”Hess”為目標,生成context window 2:
- C(t)表示兩個字詞的context window
- Vhess表示目標字詞Hess的word embedding d維向量
- 同理,在時間t時對每個詞序W(t),其串聯向量表示為C(t)
4.3 Variant of RNN Model
■ 使用兩種不同的RNN架構做去識別化 如下圖
- Elman-type RNN (Elman, 1990)
- the Jordan-type RNN (Jordan, 1997)
在網路架構中,Cm是Window大小為m的context embedding,h(1)是第一個隱藏層,h(H)是H個隱藏層大小的網路中的最後一個隱藏層。 在兩種RNN體系結構中,從h(1)到h(H)的虛線箭頭表示它們之間存在多個隱藏連接。 同樣的,在Jordan網路中,從softmax層到隱藏層的虛線箭頭表示將機率值送到每個隱藏層。 注意:此處,假設大小為5的實值向量用於示範這網路
■ Elman-type RNN
- 基本的類神經網路是FNN,而RNN與基本前饋模型相反,RNN中形成的連接也通過先前的層。 在Elman型網絡中,每個狀態都通過其循環連接獲得其先前隱藏層狀態的資訊。
- 在時間t處的隱藏層h(t)具有前一個(t − 1)隱藏層的資訊
- 即(t)隱藏層的輸出取決於在第(t − 1)個隱藏層h(t − 1)和context window的input
- 以下為Elman-type 有H個隱藏層的數學表示式
(4)(5)表示隱藏層的深度,而W和U分別表示從輸入層到隱藏層的權重連接,最後狀態的隱藏層到當前隱藏層的權重連接。 在此,b是偏差值。 稍後將softmax函數應用於隱藏狀態,以生成不同類別的分類器的後驗機率,如下所示:
V是從隱藏層到輸出層的權重連接,c是偏差值,g是softmax函數,定義如下:
■ the Jordan-type RNN
Jordan模型是RNN體系結構的另一個變化,它與Elman模型相似,不同之處在於,對循環連接的輸入是通過輸出後驗機率實現的: