Named Entity Recognition 命名實體識別

陳明佐
我就問一句,怎麼寫?
6 min readJul 10, 2019

NER又稱作專名識別,是自然語言處理中的一項基礎任務。

命名實體一般指的是文本中具有特定意義或者指代性強的實體,通常包括人名、地名、組織機構名、日期時間、專有名詞等

NER系統就是從非結構化的輸入文本中抽取出上述實體,並且可以按照業務需求識別出更多類別的實體,

比如產品名稱、型號、價格等。因此實體這個概念可以很廣,只要是業務需要的特殊文本片段都可以稱為實體。

陳明佐 即將參加 Google GCP 舉辦的 智能大展。

其中 陳明佐即為 PER, Google GCP為Org. 智能大展為others.

學術上NER所涉及的命名實體一般包括3大類

1.實體類

2.時間類

3.數字類

和7小類:人名、地名、組織機構名、時間、日期、貨幣、百分比

實際應用中,NER模型通常只要識別出人名、地名、組織機構名、日期時間即可

一些系統還會給出專有名詞結果(比如縮寫、會議名、產品名等)

貨幣、百分比等數字類實體可通過正則搞定

從自然語言處理的流程來看,NER可以看作詞法分析中未登錄詞識別的一種

是未登錄詞中數量最多、識別難度最大、對分詞效果影響最大問題

同時NER也是關係抽取、事件抽取、知識圖譜、機器翻譯、問答系統等諸多NLP任務的基礎

命名實體識別只是在有限的文本類型(主要是新聞語料中)和實體類別(主要是人名、地名、組織機構名)中取得了不錯的效果;

與其他信息檢索領域相比,實體命名評測預料較小,容易產生過擬合;

命名實體識別更側重高召回率(Recall Rate),但在信息檢索領域,高準確率更重要;通用的識別多種類型的命名實體的系統性能很差

NER被當作序列標註問題,利用大規模語料來學習出標註模型,從而對句子的各個位置進行標註。

NER任務中的常用模型包括生成式模型HMM、判別式模型CRF等。

條件隨機場(ConditionalRandom Field,CRF)是NER目前的主流模型。

它的目標函數不僅考慮輸入的狀態特徵函數,而且還包含了標籤轉移特徵函數。

在已知模型時,給輸入序列求預測輸出序列即求使目標函數最大化的最優序列,是一個動態規劃問題,可以使用Viterbi算法解碼來得到最優標籤序列。

CRF的優點在於其為一個位置進行標註的過程中可以利用豐富的內部及上下文特徵信息。

CRF Definition

隨著硬體計算能力的發展以及詞的特徵表示(word embedding)的提出,神經網絡可以有效處理許多NLP任務

這類方法對於序列標註任務(如CWS、POS、NER)的處理方式是類似的:

將token從離散one-hot表示映射到低維空間中成為稠密的embedding,隨後將句子的embedding序列輸入到RNN中,用神經網絡自動提取特徵,Softmax來預測每個token的標籤

這種方法使得模型的訓練成為一個端到端的過程,而非傳統的pipeline,不依賴於特徵工程,是一種數據驅動的方法,但網絡種類繁多、對參數設置依賴大,模型可解釋性差

這種方法的一個缺點是對每個token打標籤的過程是獨立的進行,不能直接利用上文已經預測的標籤(只能靠隱含狀態傳遞上文信息),進而導致預測出的標籤序列可能是無效的

學界提出了DL-CRF模型做序列標註。在神經網絡的輸出層接入CRF層(重點是利用標籤轉移概率)來做句子級別的標籤預測,使得標註過程不再是對各個token獨立分類

較為成功、經典的模型即為透過LSTM的 LSTM-CRF, BiLSTM-CRF或者是based on CNN的 dilated CNN-CRF

中文詞彙數劇集

中文維基百科語料庫
https://dumps.wikimedia.org/zhwiki/20190701/

壓縮包裡面存的是標題、正文部分,該目錄下還包括了其他類型的語料庫,如僅包含標題,摘要等

NER 的相關數據集

相關工具推薦

NER 標注方式

IOB標注法

IOB 標註法, 是CoNLL 2003 採用的標註法, I 表示inside, O 表示Outside, B 表示Begin

而標註的label是I-XXX , 表示這個字符, 在XXX類命名實體的內部(inside)

B用於標記一個命名實體的開始

比如:

Tom B-PER
Hanks I-PER
is O
my O
name O

BIOES

這是在IOB方法上,擴展出的一個更複雜,但更完備的標註方法

其中B表示這個詞處於一個實體的開始(Begin), I 表示內部(inside), O 表示外部(outside),

E 表示這個詞處於一個實體的結束為止, S 表示,這個詞是自己就可以組成一個實體(Single)

BIOES 是目前最通用的命名實體標註方法

文獻效能比較

--

--