資料探勘與文字探勘之比較

行銷資料科學
Marketingdatascience
3 min readSep 3, 2019

資料探勘(Data mining)的目的,在於使用自動或半自動的方式,從大量的資料中,發掘出隱藏在背後的有用資訊。企業透過資料探勘技術,能找出一些模式或規則,以協助進行商業決策,帶來更大的商業利益,而文字探勘(Text mining)則是資料探勘(Data mining)的延伸,要進一步從非結構化的文字資料(textual data)中,提取出有意義的資訊。

傳統資料探勘所處理的資料,大多都是數字,比較精確(可以算到小數點後面好幾位),並以「結構式」資料為主。就像是一個固定結構的表格,每個欄位有其明確的定義及數值。資料探勘以這些結構性的資料為輸入,並經過極端值和遺漏值的處理,再透過演算法進行計算,就可得到一些預測模型。

相對於資料探勘,文字探勘(Text Mining)可就複雜多了,原因在於它的原始輸入資料,屬於文字的型態,大多是由人類語言所構成,許多都沒有特定的結構。這些文字資料的來源,反映在日常生活當中,像是新聞、或是人們在臉書、LINE、Twitter和微博上所發表的近況、以及部落格文章…等。儘管它們看似雜亂,而且沒有一定的結構,但這些由自然語言構成的文字型資料中,一樣蘊藏著許多有價值的資訊。下表是資料探勘與文字探勘的比較表。

表1 資料探勘與文字探勘之比較

由於企業裡、外大部分的資料,以文字資料為大宗,因此,文字探勘也非常重要。文字探勘的重點在於從非結構文字資料中找到有用的議題或情緒。文字探勘能有系統地識別、擷取、管理、整合與應用文字資料背後所隱藏的知識。

儘管文意可能模糊,文意與背後隱藏的情緒可能完全相反或牴觸,加上有拼字寫法錯誤,或者翻譯品質不佳等問題,但現在拜文字探勘技術的進步與搜尋引擎的崛起,還是能在文字探勘中,做出文章的情緒與意見探勘。

有趣的是,中文文字本身的奧妙與隱藏的情緒,有時候也會讓人傷透腦筋,更遑論要電腦判讀出來。舉例來說:請判斷以下這篇短文中,美女究竟是同意還是不同意?

向一位認識的美女發了一段簡訊:「今晚滾床單嗎?」

美女回覆:「滾!」

接著又發:「那是去我家,還是去你家?」

美女回「去你的!」

…..真是開心!!

作者:羅凱揚(台科大企管系博士)、蘇宇暉(台科大管研所博士候選人)

歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

您可能有興趣:

--

--

行銷資料科學
Marketingdatascience

Marketing data science. 台灣第一個行銷資料科學(MDS)知識部落,本粉絲專頁在探討行銷資料科學之基礎概念、趨勢、新工具和實作,讓粉絲們瞭解資料科學的行銷運用,並開啟厚植數據分析能力之契機。粉絲專頁:https://www.facebook.com/MarketingDataScienceTMR