9. 詞性標註(Part-of-speech tagging)

Published in

Programming with Data

3 min readNov 29, 2020

每種語言都有許多詞類(Part of speech, POS)，例如動詞，名詞，副詞，形容詞等，而詞性標註(Part Of Speech Tagging)，簡單來說就是將文章、句子中，文字的詞類標註出來，為NLP 任務中相當重要的技術之一。

標註原理：POS 標註任務中，信息擴展是基於詞本身的內在信息和基於某些的外在信息，也就是說，當我們在決定單詞的詞性前，除了考慮單詞本身，也要考慮前後單詞與整句話。因此，通常一個單詞會包含多種詞性。
標註意義：詞性標註能在許多 NLP 的任務中提供低層次的語義信息。

POS-tagging 應用

POS-分類

主要可分為兩類：open class & closed class

POS Tagging 常見算法

在POS Tagging中，Probabilistic Methods 是最常見且效果相當好的一種方式，其中又以HMM最為常見。

HMM(隱藏式馬可夫模型 Hidden Markov Model)

HMM 主要可以用來解決三種經典的問題

將 HMM 應用在 Pos Tagging 中，符合解碼的問題，也就是當我們知道完整句子時，我們如何推論出最有可能的 Tagging 序列。

Written by 柯頌竹