【De-ID】A Recurrent Neural Network Architecture for De-identifying Clinical Records (3)

Published in

Hsiao’s Blog

10 min readMar 2, 2020

這是一系列針對深度學習應用於個資去識別化論文整理並google中文化。
Paper：
1. A Deep Learning Architecture for De-identification of Patient Notes : Implementation and Evaluation
2. A Recurrent Neural Network Architecture for De-identifying Clinical Records
3. DE-IDENTIFICATION OF PROTECTED HEALTH INFORMATION PHI FROM FREE TEXT IN MEDICAL RECORDS
4. An Interactive De-Identification-System
5. Deep Learning Architectures for Tattoo Detection and De-identification
6. Live Face De-Identification in Video
7. Face-deidentification in images using Restricted Boltzmann Machine

這是一系列針對深度學習應用於個資去識別化論文整理並google中文化。

medium.com

5. Dataset, Experiments and Results

利用i2b2–2014 challenge (Stubbs et al., 2015) 的標準資料集來評估此次模型
2b2–2014數據集是從“ Partner Healthcare的研究患者數據資料庫”中收集的最大的公開去識別數據集。
總共對297位患者的1304條病歷進行了手動註釋，將其分為訓練和測試集，分別包括790條和514條記錄。
訓練和測試集中分別有17045和11462個PHI實例
使用7種類型進行了手動註釋，其中包括25個子類別

■ Evaluation measures：採用了recall (R), precision (P) and F-Measure(F)

■ Learning Methods: Fine tuning RNN hyper-parameter

用隨機梯度下降來訓練RNN模型
RNN可以使用超參數進行調整，例如隱藏層數（H），context window size（m），learning rate（λ），dropout probability（p）和no of epochs。
為了微調系統，此次對訓練集的10％數據進行實驗。
為了訓練RNN模型，我們執行了小批量梯度下降方法，每小批量僅考慮一個句子，最小化negative log-likelihood。我們已經初始化了embedding和[-1，1]範圍內的矩陣
表3顯示了優化的兩個RNN模型的hyper-parameter

■ Dropout regularization

Over-fitting 會造成RNN模型的表現變差
利用 dropout (Hinton et al., 2012) 正規化技術去防範over-fitting
Dropout 會從每個訓練樣本中排除隱藏層的某些部分以及輸入向量
文獻調查顯示，隨著dropout 的引入，性能得到了改善。對於這兩個RNN模型，我們將dropout 機率p的值設置為0.5。

■ Results on Word Embedding Techniques

如表四所述，比較了三種帶有Elman-type模型的word embedding所產生的影響
可從上表發現CBOW表現比其餘兩個好，因為其在訓練時適應了分布假設
RNNLM獲得的字詞向量在抓取語法部分時非常有效，因為它直接連接到非線性隱藏層
但CBOW甚至比RNNLM在語法部分表現還優秀，而在語意部分也具有競爭力

■ 5.5 CRF Model: Baseline

大部分現有的病患去識別化系統都是利用Chunk,Part-of-Speech(POS), n-gram等特徵做CRF分類器的學習
因此使用基於CRF分類器的監督式學習模型來當baseline

使用標準資料集做手選特徵值，並用來訓練分類器
這些特徵值是根據2014年i2b2挑戰的最佳系統選擇的（Yang和Garibaldi，2015年）

◆Context word feature

上下文在識別當前單詞時扮演非常重要的字詞。我們使用當前單詞和從前三個單詞到後三個單詞的局部上下文

◆Bag-of-word feature

在窗口大小為[−2，2]的範圍內生成了uni-gram，bi-gram和tri-grams特徵

◆Part-of-Speech (PoS) Information

此對於識別實體非常有幫助，因為大多數實體都屬於短字詞。在這裡，我們為目前字詞和前後各兩個字詞生成了特徵，使用了Stanford tagger（Toutanova和Manning，2000）來抓取POS資訊。

◆Chunk Information

這對於PHI字詞的邊界識別非常有用，這裡使用了從openNLP4取得的Chunk information當作特徵

◆Combined POS-token and Chunk-token Feature

在context window [-1,1]中產生POS和chunk組合的特徵值，表示成[w0p−1, w0p0, w0p1] ，其中W0為目標字詞，P-1,p0,p1分別代表先前、目前、下一個Pos或chunk標記

◆Task-specific feature

包含各種特定詞彙，如包括所有美國各州的名稱和縮寫，國家/地區的名稱，一周，月份，季節，美國節日的名稱。除此之外，我們還包括每個PHI類別的詞彙線索，例如患者的“Ms.”，“Mr.”，醫生的“Dr.”，“M.D.”。

◆Regular expression patterns

用來辨識PHI相關的資訊，例如日期、ID、年紀、電話號碼、使用者名稱、病歷。使用上述功能集開發了基於CRF的模型。我們使用默認參數CRF ++的CRF進行了實驗。表5提供了基於CRF構建的模型的綜合結果。

■ 5.6 Results with Elman-RNN

根據表五可知，E-RNN比CRF模型在辨識PHI方面表現還要好，進一步如5-d討論中，發現當作為E-RNN的輸入時，CBOW為基礎的word emmbedding比其他的表現還要好

■ 5.7 Results with Jordan-RNN

利用J-RNN以識別PHI術語的有效性，Jordan也類似於Elman，優於基於CRF的强基線模型。在表5中給出了詳細的比較結果。結果表明，J-RNN模型的有效性優於其它兩個模型。J-RNN比E-RNN在識別5個PHI類別方面表現更好。

■ 5.8 De-Identification of PHI terms

在識別PHI後的最後一步就是去識別這些字詞，目前的樣板是用來轉換識別出來的PHI字詞，如Patient, Hospital, Doctor等，這些會轉變成通用的格式，像是XYZ Patient, XYZ Hospital, XYZ Doctor，而全部的日期都變成00_00_Date的形式。同樣的，電話號碼和ID也都轉換成NUM ID , NUM PHONE。這些都有助於取得資料同時避免個資外流

6. Error Analysis

表5顯示了RNN模型在基於CRF的基線模型上的成功率。對系統產生的結果進行詳細研究，結果如下：

由於使用明確定義的規則表達式模型，基於CRF的模型正確識別了ID，因此RNN模型無法顯示可持續的結果。
PHI模糊性：這些錯誤主要發生在醫生和患者類別的情况下。由於名稱形式非常相似，這些PHI術語非常模糊。當名稱由單個單詞組成時，大多數情况下都會出現此錯誤。例如，“Glass”、“Chabechird”等。
RNN模型在檢測”PROFESSION”類別方面優於CRF。RNN成功的主要原因在於word embedding模型捕捉到的語義和句法特性。
RNN模型能捕獲wordforms中的字形變化，大多數情况下，基於CRF的模型會錯誤地預測這些變化，如拼寫錯誤、標記化和簡短的wordform。例如，“KELLIHER CARE CENTER”、“KCC”、“20880703”等。
RNN模型能抓語義差異，而CRF模型不能很好地抓語義差異。通過RNN學習的系統是在一個大的未標記的語料庫上訓練的，這使得RNN適合於有效地捕獲上下文，這對於為每個可能的上下文生成特徵將是非常耗時的
CRF模型被認為擅長識別字典或詞典中包含的單詞，例如聖誕節。由於“聖誕節”從未出現在訓練集中，因此RNN模型無法識別它。而CRF由於在地名詞典列表中存在而正確識別了它。

■ 6.1 Discussion and Comparative Analysis

我們已經對RNN架構的兩個變化Elman和Jordan進行了綜合研究，以識別PHI術語。兩種RNN模型都優於要手動調整的CRF模型。但是，J-RNN被認為是識別大多數PHI類別的最佳模型。與E-RNN不同，J-RNN不只會考慮來自上一個單詞還會考慮隱藏層的輸出，進而調整當前單詞的權重。

結果，J-RNN在多詞PHI術語上表現得更好。我們還與表6中所示的最新模型進行了比較。結果表明，與基於機器學習的系統（包括最佳的i2b2–2014任務系統）相比，RNN模型的性能更好（Yang和Garibaldi，2015）。儘管與基於Notting-ham的系統相比，基於RNN的模型的性能沒有高出很多，但應注意，他們的系統根據i2b2數據集和評估框架進行了明顯的微調。他們對識別出的PHI執行了後處理。例如，將“ 3041023MARY”更改為“ 304102”和“ MARY”，將術語“ MWFS”更改為“ M”，“ W”，“ F”，“ S”。

Table 6: Comparisons with the existing systems. The F-measure value reported is on micro-averaged entity based evaluation.

7. Conclusions

這次paper是展示了深度神經網路應用於解決PHI去識別化，包含從任意文字的病歷資料中識別並分類PHI。對Elman,Jordan模型進行系統性比較，也發現了利用word embedding對於去識別化的貢獻。也發現RNN模型比CRF模型更有效，對基準數據集進行基線以上的實驗表明，使用Elman型和Jordan型網絡的性能分別提高了1.69％和1.85％。基於RNN的技術也大大優於現有的現有系統。未來的工作將探索RNN的其他有效學習方法，例如長期短期記憶（LSTM），以及探索其他一些word embedding技術。我們還希望通過在臨床數據上受過訓練的word embedding進行實驗。

其他文章：

https://medium.com/1205hsiao

【De-ID】A Recurrent Neural Network Architecture for De-identifying Clinical Records (3)

【De-ID】A Recurrent Neural Network Architecture for De-identifying Clinical Records (2)

這是一系列針對深度學習應用於個資去識別化論文整理並google中文化。

5. Dataset, Experiments and Results

6. Error Analysis

7. Conclusions

Written by Joyce Hsiao