正則表達式是用來檢查一個字串中是否含有某個字串,例如要找gmail的電子信箱,就要找含@gmail.com的字串,常用來進行以下工作:
當我們想到可口可樂的時候,可能會「聯想」到百事可樂(而不是珍珠奶茶),人們長期在學習累積語言後有判斷合不合理與聯想的能力。那 NLP 有沒有這樣判斷合不合理與聯想的能力呢?N-gram…
每種語言都有許多詞類(Part of speech, POS),例如動詞,名詞,副詞,形容詞等,而詞性標註(Part Of Speech…
英文斷詞基本上就是靠著標點符號跟空白,但中文每個詞跟詞之間沒有空白,所以中文斷詞不能用這個方法,這時我們就需要一些特別的方法幫助電腦學習如何將中文斷詞。
在上一篇中已經介紹了何謂N-Gram 語言模型,本文重點在於如何在Python中建立N-Gram 語言模型
N-Gram 語言模型
在Python中要使用正則表達式的話,就要使用一稱為re的package。在正則表達式中常常會用到反斜線(\)來表達依些特殊配對,例如\n是換行,但在Python中反斜線(\)是跳脫字元,所以原本的\n就要變成\\n才是原義,為了避免過多的反…
本文會使用中文斷詞工具結巴Jieba跟nltk分別完成中英文詞性標註,更多有關結巴的介紹,請看本文,詞性標註的介紹則看此文。
中文斷詞工具:結巴Jieba
本系列是基於「NLP經典機器學習馬拉松」之課程筆記。本文著重於在Python中處理文字時,常用的函數,會以”string”當成字串,若有多個字串則會加上數字。
字串長度