【De-ID】A Recurrent Neural Network Architecture for De-identifying Clinical Records (1)

Joyce Hsiao
Hsiao’s Blog
Published in
9 min readFeb 25, 2020

這是一系列針對深度學習應用於個資去識別化論文整理並google中文化。

Paper:

1. A Deep Learning Architecture for De-identification of Patient Notes : Implementation and Evaluation

2. A Recurrent Neural Network Architecture for De-identifying Clinical Records

3. DE-IDENTIFICATION OF PROTECTED HEALTH INFORMATION PHI FROM FREE TEXT IN MEDICAL RECORDS

4. An Interactive De-Identification-System

5. Deep Learning Architectures for Tattoo Detection and De-identification

6. Live Face De-Identification in Video

7. Face-deidentification in images using Restricted Boltzmann Machine

A Recurrent Neural Network Architecture for De-identifying Clinical Records

Shweta, Ankit Kumar, Asif Ekbal, Sriparna Saha, Pushpak Bhattacharyya
Indian Institute of Technology Patna
Bihar, India

Abstract

電子病歷(EMR)資料中應要有18種類別的資訊需要被隱藏

此類資訊稱為protected health information (PHI)有18類

  1. Names
  2. Locations
  3. Dates
  4. Telephone number
  5. Fax number
  6. Email
  7. Social security number
  8. Medical record number
  9. Health plan beneficiary number
  10. Account numbers
  11. Certificate/license number
  12. Vehicle identifiers and serial number
  13. Device identifiers and serial number
  14. URLs
  15. IP address
  16. Biometric identifiers
  17. Full-face photographic images and any comparable images
  18. Other

隨著EMR快速發展,手動管理是沒有彈性且耗時間的事情,所以研究人員提出了自動識別系統(automated de-identification system)

這次的Paper中提出了一種基於深度神經網路的架構,用於對7個PHI類別和25個相關子類別進行去識別

  • 名稱 (子類別:患者,醫生,用戶名)
  • 職業
  • 位置(子類別:醫院,部門,組織,房間,街道,城市,州,國家/地區,郵政編碼)
  • 年齡
  • 日期
  • 聯絡人(子類別:電話,傳真,電子郵件,URL,IP地址)
  • ID(子類別:Medical record number,Health plan beneficiary number,Social security number,Account numbers,Vehicle identifiers,Device identifiers,Certificate/license number,Biometric identifiers)

1. Introdution

Health Insurance Portability and Ac-countability Act (HIPAA)要求將病歷中的個人資料the private health information (PHI) 給去除,

■ 但會有幾項挑戰:

→專業術語的變化及不規則性

例如’3041023MARY’是兩個不同的PHI類別,’3041023'代表醫療記錄,而’MARY’是另一個PHI 類別。

→詞彙的變化

在EMR中,相同的物體通常以不同的詞彙形式表示。例如“ 50 yo m”,“ 50 yo M”,“ 55 YO MALE”

→PHI和非PHI的歧義

PHI和非PHI之間的模糊空間,例如”Brown”可以被定義為PHI詞也可以是非PHI詞

→PHI內的歧異

PHI術語和其他PHI術語的模糊地帶,可以將“ 30s”標識為PHI術語(年齡)以及其他PHI術語(日期)。

■ 最近,已經組織了一些共享任務來解決去識別問題,例如生物學整合資訊中心(i2b2)。

■ 傳統去識別化系統分成三大類

  • 基於機器學習的系統
  • 基於規則的系統
  • 混合系統(基於機器學習和基於規則的系統)

■ 基於規則的系統取決於由人類開發的regular expressions和gazetteers。基於規則的技術對於特定領域可能非常成功,但是當領域更改時卻無法做出明顯的改進。為了克服這些困難,提出了監督式機器學習技術來解決去識別化

■ 基於機器學習的現有技術具有以下缺點:(1)需要大量的標記數據,(2)涉及廣泛的特徵工程或規則生成步驟,這需要人工進行。因此,這兩種技術都需要人工來設計功能和規則,而這些功能和規則僅限於單個領域,因此會有時間和成本。

■深度學習技術的引入有助於在無需任何人工干預的情況下學習有效的特徵,即不需要特徵工程,優點如下:

  1. 這些模型可以通過向量(Word Embedding)的形式逐字學習隱含的相關特徵。
  2. 這些Word Embedding是由其他hyperparameters聯合學習的,這些hyperparameters是隨機初始化的,或者可以在未標記的大型語料庫上進行事先訓練(pre-trained)

Word Embedding:概念是建立字詞向量(Word Vector),例如定義一個向量的每個維度對應到什麼字,並且將句子中每個字轉換為向量,最後結合起來變成矩陣。參考:https://reurl.cc/24km06

pre-trained:對於提高性能非常有幫助,因為它可以有效地抓取語言變化和模式。

3. 深度學習技術在解決各種自然語言處理任務方面取得了巨大成功,例如文本分類(Kim,2014),語言建模(Mikolov等,2010),機器翻譯(Bahdanau等。 (2014),口頭語言理解(Mesnil等,2013)以及命名實體識別(Collobert等,2011; Lample等,2016)。

4. 受深度學習技術的成功推動,本文用了特殊的遞歸神經網絡(RNN)(Mikolov等,2010)架構來抓取PHI術語。

5. RNN已顯示出優於其他機器學習和基於規則的技術的優勢

6. RNN不需要給分類式的學習提供明確的特徵。

7. 系統學習的優點是自己就可以使系統具有適應性和可擴展性

■ 將這次的挑戰是為序列標記問題(sequence labeling problem)

■ 利用監督式學習開發了baseline model:利用Conditional random field (CRF) (Lafferty et al., 2001) 和手動的特徵工程一起做於建構base classifier

■ 在目前的研究中,使用RNN網路模型的兩種不同變體進行了比較分析

  1. Elman型網絡(Elman,1990; Mikolov等,2011)
  2. Jordan型網絡(Jordan,1997)

■ 本文的一部分是將這兩種RNN變形(Elman,Jordan)與基於CRF的強基線(strong baseline based on CRF)進行徹底比較。

■ 結果顯示了RNN的有效性大於基於傳統CRF的模型上

■ 進一步將深度學習模型與去識別任務的最新結果進行了比較。我們已經證明使用機器學習技術,RNN可以與最新技術並駕齊驅。

2. Related work

i2b2組織了一些去識別的團隊任務(Coore-vits et al., 2013)

■ 2006年i2b2共享任務 (Uzuner et al., 2007)

  1. Wellner et al.(2007)通過採用CRF和SVM作為基本分類器及具有一些詞彙和語義特徵的機器學習方法,達到了卓越的表現
  2. Szarvas et al.(2007)使用基於機器學習的方法開發了一種迭代技術。他們設計了局部特徵,並使用字典來讓基於決策樹的分類器做學習。
  3. 提交的大多數係統使用條件隨機場(CRF)分類器(Wellneret al.2007; Ara-makiet al.2006),而一些系統也使用了SVM(Hara,2006)。
  4. 大多數論文集中在機器學習技術上,而一些系統(Guillen,2006)則使用基於規則的方法來解決這一任務。

■ 2014年I2b2任務比2006年任務嚴格。這次的挑戰是識別8個PHI類別以及相關的子類別。

  1. Yang等人(2015年)開發了最佳績效系統。他們採用混合技術,同時考慮了機器學習和基於規則的技術。他們開發了幾種特徵像是語言、句法以及具有不同的規則表達形式做出各種字面導向的特徵(word surface oriented features),以捕獲PHI術語(例如日期和ID)。
  2. Dehghan等人(2013年)使用基於知識和規則的方法以CRF作為分類器開發了系統。
  3. Xu等人(2010年)利用生物醫學詞典來識別PHI術語。
  4. 文獻調查表示,與基於規則和基於機器學習的技術相比,混合系統的性能更好。

--

--