31. ELMo (Embeddings from Language Models 嵌入式語言模型)

Published in

Programming with Data

Feb 4, 2021

在 ELMo 之前，自然語言上的預訓練模型一直停留在淺層的詞向量，一直無法取得突破進展，比詞向量更深層的預訓練無法取得跨任務的成果，直到 ELMo 出現，使用更多層的預訓練模型，並一舉突破 2017 年七項不同 NLP 任務的最佳表現(論文發表於 2018 年)，正式將 NLP 帶到預訓練模型的時代。

ELMo 突破的關鍵有二：

非監督語言模型：ELMo 選擇了最原始的語言模型(Language Model)，也就是不使用標籤，而是由目前已有的文句預測緊接而來的單字，這樣不僅訓練的文句量大(不須標籤，可直接採用 wiki 等文件庫)，並且也避免了前述標籤以及語意所造成的洩漏
雙向詞向量：詞向量就是使用非監督的語言模型訓練的模型，如果只是單純用語言模型訓練，必須要有其他方式突破預訓練的深度，而 ELMo 給的答案就是同時參考上下文的「雙向模型」