【De-ID】A Recurrent Neural Network Architecture for De-identifying Clinical Records (2)

Joyce Hsiao
Hsiao’s Blog
Published in
9 min readFeb 25, 2020

這是一系列針對深度學習應用於個資去識別化論文整理並google中文化。

Paper:

1. A Deep Learning Architecture for De-identification of Patient Notes : Implementation and Evaluation

2. A Recurrent Neural Network Architecture for De-identifying Clinical Records

3. DE-IDENTIFICATION OF PROTECTED HEALTH INFORMATION PHI FROM FREE TEXT IN MEDICAL RECORDS

4. An Interactive De-Identification-System

5. Deep Learning Architectures for Tattoo Detection and De-identification

6. Live Face De-Identification in Video

7. Face-deidentification in images using Restricted Boltzmann Machine

上一篇:

3. De-identification of Electtronic Medical Record

■ EMR的去識別化可分成兩階段

  1. 第一階段:從病歷資料中擷取及分類PHI
  2. 第二階段:將識別出來的PHI進行加密

■ 第一階段:序列標籤問題

  1. 被制定為序列標籤任務,而有些系統是將其當作分類問題
  2. 此Paper將其認定為傳統的”named entity recognition task”
  • 給定一個字詞序列W,目標是用後驗機率最大( the maximum posterior probability的方式識別最有可能的標籤序列L,表示成P (L|W ).
  • 在貝氏定理的訓練生成模型(generative model )中,貝氏規則可表示成
  • 因此對每個W和L,P (W |L)P (L) 必須要透過生成模型的目標函數來達到最大化
  • 表一展示將自詞序列與相對應的標籤序列作為imput及作為去識別化後的output
  • 幾個機率模型例如SVM HMM和CRF都曾被用來解決文字上的標籤序列問題,在這次的任務中開發CRF為基礎的模型當作baseline
  • 每個病歷(筆記)是最先做預處理的,包括標記及對每個標記產生特徵
  • 在訓練時要讓CRF參數最佳化,使測試時後驗機率最大化然後預測出最佳的標籤結果
  • 雖然SVM HMM都有很好的結果,但因為要有特徵工程所以只適合在單一領域,因此RNN變成此次去識別化的架構模型

4. RNN architecture for de-identification

4.1 Neural network based Word Representation: Word Embedding

■ Wording embedding 就是用向量形式表示字詞,而這些向量當作RNN的input

■ Wording embedding 有強大的能力可以抓取各種字詞的語意和語法(Mikolov et al., 2013)

■ 該向量最初可以隨機生成,也可以透過外部資源(例如Wikipedia,新聞報導,生物醫學文獻等)從大型未標記的語料庫進行無監督式的預訓練。

■ Word embedding 是透過樣本字詞共同出現的分布來進行學習

■ 這種方法針對識別在向量中出現在相近地方的相識詞很有用

■ 有好幾種不同架構可以產生字詞向量

1) word2vec (Mikolov et al., 2013)
2) shallow neural networks (Schwenk and Gauvain, 2005),
3) RNN (Mikolov et al., 2010; Mikolov et al., 2011) etc.

■這次採用三種不同方式去訓練word embedding

  1. random number initialization:隨機產生在範圍-0.25~0.25長度為100的向量
  2. RNN’s word embedding:在RNNLM網站上提供的廣播新聞語料集裡,用80個領域的word embedding做字詞訓練
  3. continuous bag-of-words (CBOW) based models:在新聞語料集中,用CBOW產生300個領域的向量用來做字詞訓練

4.2 Capturing Short term Dependency with Context Window

■ 前饋神經網路(forward neural network, FNN)的input 是目標字詞的word embedding

■ 僅目標字詞是無法有效找尋其相關性

■ 上下文字詞對於抓取短期相依性字詞(short-term temporal dependencies)很有幫助

■ 對於每個字詞,用大小為m的word-context windows產生d為的word embedding,考慮到先前有m個字詞以及下一個也是有m個字詞和目前的字詞,我們生成字詞向量當作2m+1個word embedding向量,如下所示

■ ⊕是串聯運算子,對每一個字詞Wi,都產生一個word embedding向量Vi,在windows 大小為m下,相依詞的串聯被表示為:

■在最頭和最尾的詞執行padding以產生m個context window,以下舉例以字詞”Hess”為目標,生成context window 2:

  1. C(t)表示兩個字詞的context window
  2. Vhess表示目標字詞Hess的word embedding d維向量
  3. 同理,在時間t時對每個詞序W(t),其串聯向量表示為C(t)

4.3 Variant of RNN Model

■ 使用兩種不同的RNN架構做去識別化 如下圖

  • Elman-type RNN (Elman, 1990)
  • the Jordan-type RNN (Jordan, 1997)

在網路架構中,Cm是Window大小為m的context embedding,h(1)是第一個隱藏層,h(H)是H個隱藏層大小的網路中的最後一個隱藏層。 在兩種RNN體系結構中,從h(1)到h(H)的虛線箭頭表示它們之間存在多個隱藏連接。 同樣的,在Jordan網路中,從softmax層到隱藏層的虛線箭頭表示將機率值送到每個隱藏層。 注意:此處,假設大小為5的實值向量用於示範這網路

■ Elman-type RNN

  1. 基本的類神經網路是FNN,而RNN與基本前饋模型相反,RNN中形成的連接也通過先前的層。 在Elman型網絡中,每個狀態都通過其循環連接獲得其先前隱藏層狀態的資訊。
  2. 在時間t處的隱藏層h(t)具有前一個(t − 1)隱藏層的資訊
  3. 即(t)隱藏層的輸出取決於在第(t − 1)個隱藏層h(t − 1)和context window的input
  4. 以下為Elman-type 有H個隱藏層的數學表示式
在整個實驗中都使用非線性S型函數作為隱藏層的激活單元( activation unit)

(4)(5)表示隱藏層的深度,而W和U分別表示從輸入層到隱藏層的權重連接,最後狀態的隱藏層到當前隱藏層的權重連接。 在此,b是偏差值。 稍後將softmax函數應用於隱藏狀態,以生成不同類別的分類器的後驗機率,如下所示:

V是從隱藏層到輸出層的權重連接,c是偏差值,g是softmax函數,定義如下:

■ the Jordan-type RNN

Jordan模型是RNN體系結構的另一個變化,它與Elman模型相似,不同之處在於,對循環連接的輸入是通過輸出後驗機率實現的:

其中W和U分別表示輸入到隱藏層和先前狀態的輸出層到當前隱藏層之間的權重連接,P(y(t − 1))是最後一個感興趣字詞的後驗機率。在Eq-6中描述的sigmoid function用作非線性激活函數f。

--

--