【De-ID】A Recurrent Neural Network Architecture for De-identifying Clinical Records (2)

Published in

Hsiao’s Blog

9 min readFeb 25, 2020

這是一系列針對深度學習應用於個資去識別化論文整理並google中文化。
Paper：
1. A Deep Learning Architecture for De-identification of Patient Notes : Implementation and Evaluation
2. A Recurrent Neural Network Architecture for De-identifying Clinical Records
3. DE-IDENTIFICATION OF PROTECTED HEALTH INFORMATION PHI FROM FREE TEXT IN MEDICAL RECORDS
4. An Interactive De-Identification-System
5. Deep Learning Architectures for Tattoo Detection and De-identification
6. Live Face De-Identification in Video
7. Face-deidentification in images using Restricted Boltzmann Machine

這是一系列針對深度學習應用於個資去識別化論文整理並google中文化。

medium.com

3. De-identification of Electtronic Medical Record

■ EMR的去識別化可分成兩階段

第一階段：從病歷資料中擷取及分類PHI
第二階段：將識別出來的PHI進行加密

■ 第一階段：序列標籤問題

被制定為序列標籤任務，而有些系統是將其當作分類問題
此Paper將其認定為傳統的”named entity recognition task”

給定一個字詞序列W，目標是用後驗機率最大( the maximum posterior probability的方式識別最有可能的標籤序列L，表示成P (L|W ).
在貝氏定理的訓練生成模型(generative model )中，貝氏規則可表示成

因此對每個W和L，P (W |L)P (L) 必須要透過生成模型的目標函數來達到最大化
表一展示將自詞序列與相對應的標籤序列作為imput及作為去識別化後的output

幾個機率模型例如SVM HMM和CRF都曾被用來解決文字上的標籤序列問題，在這次的任務中開發CRF為基礎的模型當作baseline
每個病歷(筆記)是最先做預處理的，包括標記及對每個標記產生特徵
在訓練時要讓CRF參數最佳化，使測試時後驗機率最大化然後預測出最佳的標籤結果
雖然SVM HMM都有很好的結果，但因為要有特徵工程所以只適合在單一領域，因此RNN變成此次去識別化的架構模型

4. RNN architecture for de-identification

4.1 Neural network based Word Representation: Word Embedding

■ Wording embedding 就是用向量形式表示字詞，而這些向量當作RNN的input

■ Wording embedding 有強大的能力可以抓取各種字詞的語意和語法(Mikolov et al., 2013)

■ 該向量最初可以隨機生成，也可以透過外部資源（例如Wikipedia，新聞報導，生物醫學文獻等）從大型未標記的語料庫進行無監督式的預訓練。

■ Word embedding 是透過樣本字詞共同出現的分布來進行學習

■ 這種方法針對識別在向量中出現在相近地方的相識詞很有用

■ 有好幾種不同架構可以產生字詞向量

1) word2vec (Mikolov et al., 2013)
2) shallow neural networks (Schwenk and Gauvain, 2005),
3) RNN (Mikolov et al., 2010; Mikolov et al., 2011) etc.

■這次採用三種不同方式去訓練word embedding

random number initialization：隨機產生在範圍-0.25~0.25長度為100的向量
RNN’s word embedding：在RNNLM網站上提供的廣播新聞語料集裡，用80個領域的word embedding做字詞訓練
continuous bag-of-words (CBOW) based models：在新聞語料集中，用CBOW產生300個領域的向量用來做字詞訓練

4.2 Capturing Short term Dependency with Context Window

■ 前饋神經網路(forward neural network, FNN)的input 是目標字詞的word embedding

■ 僅目標字詞是無法有效找尋其相關性

■ 上下文字詞對於抓取短期相依性字詞(short-term temporal dependencies)很有幫助

■ 對於每個字詞，用大小為m的word-context windows產生d為的word embedding，考慮到先前有m個字詞以及下一個也是有m個字詞和目前的字詞，我們生成字詞向量當作2m+1個word embedding向量，如下所示

■ ⊕是串聯運算子，對每一個字詞Wi，都產生一個word embedding向量Vi，在windows 大小為m下，相依詞的串聯被表示為：

■在最頭和最尾的詞執行padding以產生m個context window，以下舉例以字詞”Hess”為目標，生成context window 2：

C(t)表示兩個字詞的context window
Vhess表示目標字詞Hess的word embedding d維向量
同理，在時間t時對每個詞序W(t)，其串聯向量表示為C(t)

4.3 Variant of RNN Model

■ 使用兩種不同的RNN架構做去識別化如下圖

Elman-type RNN (Elman, 1990)
the Jordan-type RNN (Jordan, 1997)

在網路架構中，Cm是Window大小為m的context embedding，h（1）是第一個隱藏層，h（H）是H個隱藏層大小的網路中的最後一個隱藏層。在兩種RNN體系結構中，從h（1）到h（H）的虛線箭頭表示它們之間存在多個隱藏連接。同樣的，在Jordan網路中，從softmax層到隱藏層的虛線箭頭表示將機率值送到每個隱藏層。注意：此處，假設大小為5的實值向量用於示範這網路

■ Elman-type RNN

基本的類神經網路是FNN，而RNN與基本前饋模型相反，RNN中形成的連接也通過先前的層。在Elman型網絡中，每個狀態都通過其循環連接獲得其先前隱藏層狀態的資訊。
在時間t處的隱藏層h（t）具有前一個（t − 1）隱藏層的資訊
即（t）隱藏層的輸出取決於在第（t − 1）個隱藏層h（t − 1）和context window的input
以下為Elman-type 有H個隱藏層的數學表示式