【De-ID】A Recurrent Neural Network Architecture for De-identifying Clinical Records (3)

Joyce Hsiao
Hsiao’s Blog
Published in
10 min readMar 2, 2020

這是一系列針對深度學習應用於個資去識別化論文整理並google中文化。

Paper:

1. A Deep Learning Architecture for De-identification of Patient Notes : Implementation and Evaluation

2. A Recurrent Neural Network Architecture for De-identifying Clinical Records

3. DE-IDENTIFICATION OF PROTECTED HEALTH INFORMATION PHI FROM FREE TEXT IN MEDICAL RECORDS

4. An Interactive De-Identification-System

5. Deep Learning Architectures for Tattoo Detection and De-identification

6. Live Face De-Identification in Video

7. Face-deidentification in images using Restricted Boltzmann Machine

上一篇:

5. Dataset, Experiments and Results

  • 利用i2b2–2014 challenge (Stubbs et al., 2015) 的標準資料集來評估此次模型
  • 2b2–2014數據集是從“ Partner Healthcare的研究患者數據資料庫”中收集的最大的公開去識別數據集。
  • 總共對297位患者的1304條病歷進行了手動註釋,將其分為訓練和測試集,分別包括790條和514條記錄。
  • 訓練和測試集中分別有17045和11462個PHI實例
  • 使用7種類型進行了手動註釋,其中包括25個子類別

■ Evaluation measures:採用了recall (R), precision (P) and F-Measure(F)

■ Learning Methods: Fine tuning RNN hyper-parameter

  1. 用隨機梯度下降來訓練RNN模型
  2. RNN可以使用超參數進行調整,例如隱藏層數(H),context window size(m),learning rate(λ),dropout probability(p)和no of epochs。
  3. 為了微調系統,此次對訓練集的10%數據進行實驗。
  4. 為了訓練RNN模型,我們執行了小批量梯度下降方法,每小批量僅考慮一個句子,最小化negative log-likelihood。 我們已經初始化了embedding和[-1,1]範圍內的矩陣
  5. 表3顯示了優化的兩個RNN模型的hyper-parameter

■ Dropout regularization

  1. Over-fitting 會造成RNN模型的表現變差
  2. 利用 dropout (Hinton et al., 2012) 正規化技術去防範over-fitting
  3. Dropout 會從每個訓練樣本中排除隱藏層的某些部分以及輸入向量
  4. 文獻調查顯示,隨著dropout 的引入,性能得到了改善。 對於這兩個RNN模型,我們將dropout 機率p的值設置為0.5。

■ Results on Word Embedding Techniques

表四
  1. 如表四所述,比較了三種帶有Elman-type模型的word embedding所產生的影響
  2. 可從上表發現CBOW表現比其餘兩個好,因為其在訓練時適應了分布假設
  3. RNNLM獲得的字詞向量在抓取語法部分時非常有效,因為它直接連接到非線性隱藏層
  4. 但CBOW甚至比RNNLM在語法部分表現還優秀,而在語意部分也具有競爭力

■ 5.5 CRF Model: Baseline

  1. 大部分現有的病患去識別化系統都是利用Chunk,Part-of-Speech(POS), n-gram等特徵做CRF分類器的學習
  2. 因此使用基於CRF分類器的監督式學習模型來當baseline
  • 使用標準資料集做手選特徵值,並用來訓練分類器
  • 這些特徵值是根據2014年i2b2挑戰的最佳系統選擇的(Yang和Garibaldi,2015年)

◆Context word feature

上下文在識別當前單詞時扮演非常重要的字詞。我們使用當前單詞和從前三個單詞到後三個單詞的局部上下文

◆Bag-of-word feature

在窗口大小為[−2,2]的範圍內生成了uni-gram,bi-gram和tri-grams特徵

◆Part-of-Speech (PoS) Information

此對於識別實體非常有幫助,因為大多數實體都屬於短字詞。在這裡,我們為目前字詞和前後各兩個字詞生成了特徵,使用了Stanford tagger(Toutanova和Manning,2000)來抓取POS資訊。

◆Chunk Information

這對於PHI字詞的邊界識別非常有用,這裡使用了從openNLP4取得的Chunk information當作特徵

◆Combined POS-token and Chunk-token Feature

在context window [-1,1]中產生POS和chunk組合的特徵值,表示成[w0p−1, w0p0, w0p1] ,其中W0為目標字詞,P-1,p0,p1分別代表先前、目前、下一個Pos或chunk標記

◆Task-specific feature

包含各種特定詞彙,如包括所有美國各州的名稱和縮寫,國家/地區的名稱,一周,月份,季節,美國節日的名稱。 除此之外,我們還包括每個PHI類別的詞彙線索,例如患者的“Ms.”,“Mr.”,醫生的“Dr.”,“M.D.”。

◆Regular expression patterns

用來辨識PHI相關的資訊,例如日期、ID、年紀、電話號碼、使用者名稱、病歷。使用上述功能集開發了基於CRF的模型。 我們使用默認參數CRF ++的CRF進行了實驗。 表5提供了基於CRF構建的模型的綜合結果。

■ 5.6 Results with Elman-RNN

根據表五可知,E-RNN比CRF模型在辨識PHI方面表現還要好,進一步如5-d討論中,發現當作為E-RNN的輸入時,CBOW為基礎的word emmbedding比其他的表現還要好

■ 5.7 Results with Jordan-RNN

利用J-RNN以識別PHI術語的有效性,Jordan也類似於Elman,優於基於CRF的强基線模型。在表5中給出了詳細的比較結果。結果表明,J-RNN模型的有效性優於其它兩個模型。J-RNN比E-RNN在識別5個PHI類別方面表現更好。

■ 5.8 De-Identification of PHI terms

在識別PHI後的最後一步就是去識別這些字詞,目前的樣板是用來轉換識別出來的PHI字詞,如Patient, Hospital, Doctor等,這些會轉變成通用的格式,像是XYZ Patient, XYZ Hospital, XYZ Doctor,而全部的日期都變成00_00_Date的形式。同樣的,電話號碼和ID也都轉換成NUM ID , NUM PHONE。這些都有助於取得資料同時避免個資外流

6. Error Analysis

表5顯示了RNN模型在基於CRF的基線模型上的成功率。對系統產生的結果進行詳細研究,結果如下:

  1. 由於使用明確定義的規則表達式模型,基於CRF的模型正確識別了ID,因此RNN模型無法顯示可持續的結果。
  2. PHI模糊性:這些錯誤主要發生在醫生和患者類別的情况下。由於名稱形式非常相似,這些PHI術語非常模糊。當名稱由單個單詞組成時,大多數情况下都會出現此錯誤。例如,“Glass”、“Chabechird”等。
  3. RNN模型在檢測”PROFESSION”類別方面優於CRF。RNN成功的主要原因在於word embedding模型捕捉到的語義和句法特性。
  4. RNN模型能捕獲wordforms中的字形變化,大多數情况下,基於CRF的模型會錯誤地預測這些變化,如拼寫錯誤、標記化和簡短的wordform。例如,“KELLIHER CARE CENTER”、“KCC”、“20880703”等。
  5. RNN模型能抓語義差異,而CRF模型不能很好地抓語義差異。通過RNN學習的系統是在一個大的未標記的語料庫上訓練的,這使得RNN適合於有效地捕獲上下文,這對於為每個可能的上下文生成特徵將是非常耗時的
  6. CRF模型被認為擅長識別字典或詞典中包含的單詞,例如聖誕節。由於“聖誕節”從未出現在訓練集中,因此RNN模型無法識別它。而CRF由於在地名詞典列表中存在而正確識別了它。

■ 6.1 Discussion and Comparative Analysis

我們已經對RNN架構的兩個變化Elman和Jordan進行了綜合研究,以識別PHI術語。兩種RNN模型都優於要手動調整的CRF模型。但是,J-RNN被認為是識別大多數PHI類別的最佳模型。與E-RNN不同,J-RNN不只會考慮來自上一個單詞還會考慮隱藏層的輸出,進而調整當前單詞的權重。

結果,J-RNN在多詞PHI術語上表現得更好。我們還與表6中所示的最新模型進行了比較。結果表明,與基於機器學習的系統(包括最佳的i2b2–2014任務系統)相比,RNN模型的性能更好(Yang和Garibaldi,2015)。儘管與基於Notting-ham的系統相比,基於RNN的模型的性能沒有高出很多,但應注意,他們的系統根據i2b2數據集和評估框架進行了明顯的微調。他們對識別出的PHI執行了後處理。例如,將“ 3041023MARY”更改為“ 304102”和“ MARY”,將術語“ MWFS”更改為“ M”,“ W”,“ F”,“ S”。

Table 6: Comparisons with the existing systems. The F-measure value reported is on micro-averaged entity based evaluation.

7. Conclusions

這次paper是展示了深度神經網路應用於解決PHI去識別化,包含從任意文字的病歷資料中識別並分類PHI。對Elman,Jordan模型進行系統性比較,也發現了利用word embedding對於去識別化的貢獻。也發現RNN模型比CRF模型更有效,對基準數據集進行基線以上的實驗表明,使用Elman型和Jordan型網絡的性能分別提高了1.69%和1.85%。基於RNN的技術也大大優於現有的現有系統。未來的工作將探索RNN的其他有效學習方法,例如長期短期記憶(LSTM),以及探索其他一些word embedding技術。我們還希望通過在臨床數據上受過訓練的word embedding進行實驗。

--

--