YuuWay AI Lab
Published in

YuuWay AI Lab

[NLP 線上自學] D05 NLP 中文斷詞

本章節必須熟悉:

  1. 何謂斷詞

斷詞(Tokenize):這個動詞的意思就是希望可以將一個句子藉由工程方式,切割成一個一個的字元。

英文 (歐美語系) 和中文(東亞語系) 的斷詞有很大的差異,英文僅需利用空白自元就可輕易的將詞順利切割;但是中文無法這樣進行斷詞,又該如何進行切割?

目前常見的有三種斷詞方法:

  1. 基於辭典的分詞法:準備好詞典庫來匹配待訓練的文句。

目前最流行的中文斷詞是「結巴」,主要是基於傳統的機器學習來完成斷詞的。

結巴(Jieba)斷詞演算法,包含兩部分:

針對存在於字典的字詞:

  • 根據字典產生Trie樹 (字典樹、字首術、前綴樹)

針對不存在於字典的字詞:

  • 使用隱碼可夫模型 (HMM) 和維特比演算法 (Viterbi) 來進行分詞辨識

--

--

學習的路上,努力地開拓自己的視野、壯大自己的膽試。越是困難越是走出自己的this way,我是YuWayy,歡迎一起從0開始學習任何有關AI的知識與技術。

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store