輕鬆理解文字探勘(上) — 從機器學習到資料探勘

你知道為什麼知名台劇《我們與惡的距離》台詞總能扣人心弦、替你說出你想說的話?其實這都得歸功於「文字探勘」的技術。上篇文章中,我們談到簡單的機器學習概念,而文字探勘正是機器學習中的一個領域實作。簡單來說,文字探勘就是利用關鍵字搜索,分析非結構的文本(ex:我們在網路上發表的貼文、社群媒體中的留言、評論…等等),再利用自然語言的處理,重複篩選出適合、並且符合條件的資料。

『我們與惡的距離』劇照

而在《我們與惡的距離》中,徐毓良首先利用編劇給的關鍵字,再藉由自然語言處理(語意分析)清洗資料,篩選出關鍵字、給與標籤,分別歸屬於哪些事件、人物、議題。除了依靠程式外,過程也需大量人工輔助。最後,徐毓良濃縮議題,並從中整理出 200 個關鍵字。

這些關鍵字幫助編劇發展劇情、提供每個角色的立場,也協助編劇設計對話。另外,徐毓良從資料中發現 — — 媒體往往是衝突導火線。因此建議編劇針對「媒體立場」分析,加深了此劇的深度與廣度。這樣的過程幫助編劇找出了隱藏訊息與專業術語,非常受用。

文章大綱

資料科學 vs 人工智慧 vs 文字探勘 vs 資料探勘 vs 自然語言處理

資料探勘會使用到的經典機器學習模型

在文章開始前,先問大家一個問題,大家知道人工智慧、機器學習、資料科學之間的關係嗎?讓我們帶大家一起認識吧!

資料科學 vs 人工智慧

資料科學 vs 人工智慧(機器學習與深度學習):

當我們談到「資料科學」領域,很多人下意識都會回答「機器學習」,但其實AI(包含機器學習與深度學習)為幫助資料分析的演算法。

如圖可以清楚看出,資料科學的「資料探勘」步驟中,只有在「資料分析」步驟才會使用到機器學習的演算法。

在這張圖內我們可以再更清楚的看出資料、資料科學、資料探勘與機器學習之間的關係!

2. 文字探勘 vs 資料探勘 vs 自然語言處理

資料探勘 vs 文字探勘

等等,那前面新聞中提到的「自然語言處理」又是什麼呢?

讓電腦擁有理解人類語言的能力,就是自然語言處理 (Natural Language Processing,縮寫 NLP)。然而,連人與人之間都會誤解彼此了,電腦又該如何理解語義?以中文來說,最基本的,就是必須要先教電腦學會「斷詞」和「理解詞的意思」。

文字分析的首要任務是「通過自然語言處理(NLP)和分析方法,將文字轉化為資料進行分析」。當我們透過 NLP 的過程將文字轉為資料再加上非文字資料後,就可以使用資料探勘與文字探勘,這些結構化與非結構化的資料才可以做分析喔!

3. 資料探勘 vs 文字探勘:

接下來,我們進入到資料探勘(Data mining),資料探勘就是使用自動或半自動的方式,從大量資料中發掘出隱藏在背後的價值資訊。

而文字探勘(Text mining)則是資料探勘的延伸,是進一步從非結構化的文字資料(textual data)中,提取出有意義的資訊。

傳統資料探勘所處理的資料,大多是數字,以「結構式」資料為主。就像一個固定結構的表格,每個欄位有明確的定義及數值。資料探勘以這些結構性的資料為輸入,經過極端值和遺漏值的處理,再透過演算法進行計算,就可得到一些預測模型。

文字探勘(Text Mining)則是進階版的資料探勘,原因在於它的原始輸入資料屬於文字型態,且大多由人類語言所構成,屬於非結構性的資料,像是新聞、臉書、IG、LINE、Twitter、微博上發表的近況、部落格文章…等,都是文字數據集的來源。儘管它們看似雜亂、沒有一定結構,在文字探勘中「資料前處理」這部分甚至會佔整個專案90%的時間,才能進到「使用各種機器模型演算法來優化預測模型」的步驟,從資料中預測出潛在價值,但是當這步熬過之後,就是萬里晴空啦!

4. 那麼資料探勘與文字探勘會使用到的機器學習又分為以下這些:

機器學習內會使用的各種演算法

經典機器學習通常分為兩類:有監督學習和無監督學習(不清楚監督式學習與無監督式學習的同學可以參考上一組的文章),而監督式學習裡面又分為回歸分析與分類分析,分類(classification),預測一個物件所屬的類別;迴歸(regression),預測數軸上的一個特定點。分類分析常用的演算法:樸素貝葉斯、決策樹、Logistic迴歸、K近鄰、支援向量機。常見的迴歸演算法有:線性迴歸、多項式迴歸、神經網路,而集群分析常見的演算法則有:K均值聚類、Mean-Shift、DBSC。文字探勘又較會著重在分類與集群分析。

介紹完 AI 、資料科學、NLP、資料探勘與文字探勘後,大家有對這些看似相仿但其實截然不同的概念清楚一點了嗎?

我們會在文章後半段部分更詳細說明文字探勘分類分析中會用到的其中一個機器學習模型:關於Naive Bayes Classifier的實作面。請大家拭目以待~

參考資料(對初學者的好文章)

台大1091Python機器學習課程-紀俊男老師之講義圖片

https://medium.com/%40yliasvdimension/%E6%88%91%E5%80%91%E8%88%87%E6%83%A1%E7%9A%84%E8%B7%9D%E9%9B%A2-%E5%A6%82%E6%AD%A4%E4%B9%8B%E8%BF%91-%E9%80%99%E5%B0%B1%E6%98%AF%E6%88%91%E5%80%91%E5%91%A8%E9%81%AD%E7%9A%84%E4%B8%96%E7%95%8C-17ae32c9b079

https://medium.com/marketingdatascience/資料探勘與文字探勘之比較-4410964ded2e

https://allaboutdataanalysis.medium.com/機器學習概念和經

典演算法-我用大白話給你講清楚了-入門必看-d6b0b500b021

--

--