文字探勘者的入門心法

Jeane Lai
Manjeaneer
Published in
4 min readApr 23, 2017

Quick Tour of Text Mining 速談文字探勘,講師是清華大學陳宜欣教授(Yi-Shin Chen)。

老師開講前小做了調查,請大家舉手大致瞭解行業背景、對名詞的認識等,說課程的難易度,讓大家有心理準備,要帶走什麼。她將文字探勘的過程和要使用哪種方式探勘,說得很清楚。

對世界的觀察,哪些事情有興趣知道,利用不同感應器(Sensor)蒐集資料,將事物轉成客觀(Objcetive)且有明確的精準度的數據(Non-text)。而當人類作為文字傳遞者,所產出的文字(text)就參入情感,此時就變得主觀(Subjective),同一句話,會因為語氣聲調而有不同的意思。

Slide by Quick Tour of Text Mining 清華大學陳宜欣教授

處理文字的 NLP (Natural Language Processing),在於了解單字本身或句子的意思,可以拆分為:

1. 辭彙 Lexical analysis (Part-of Speech Tagging)
2. 句法 Syntactic analysis (Parsing)
3. 語意 Semantic Analysis
4. 推理 Inference (Emotion Analysis)

Slide by Quick Tour of Text Mining 清華大學陳宜欣教授

老師上課講了很多方法如何實作,而我覺得最重要的核心就是「問題定義」,你想解決的問題定義清楚嗎?

還沒有想清楚就喊著要探勘(Mining)、要做大數據(Big Data)、要做機器學習(Machine Learning),資料探勘最恐怖的是不知道要解決什麼問題,問題不清不楚就埋頭一直找技術找工具找資源。

資訊技術,應該是解決問題其中一種工具,而非唯一。

探勘前(Mining),要真的了解這個世界,途徑很多,多涉略各領域,多接觸各式各樣的人事物。探勘(Mining)是找出原本不知道是事情,結果必須令人驚艷,這才是探勘(Mining)。許多人有錯誤的迷思,小心掉入泥沼。

後記

就學時期非常享受上國文課,老師講些被貶的文豪心境,或是老師分享自己的人生觀,會把它記在筆記裡面,鼓勵自己。有一回理化課期末,老師要我們將筆記交給她看,她看完發回來時說:「你的筆記很有趣,昨天我給我自己的班級傳閱,同學看得很開心。」我其實跟大家抄得內容差不多,只是老師的人生觀常常在每一頁鼓勵著我。

而今天上課讓我有一樣的感覺,原本預期目標是從課堂帶走觀念和概要作法,而老師認真的教學態度,原超越預期,我被她從容應答和傳遞的觀念感動著。例如,有人發問文字探勘(Text Mining)學習後,未來工作發展?

每個人心中的價值,與社會上的價值不同,做事情別只想到就業發展性,人生應該更在乎過程,而非高薪。一個有趣的東西,本生就可以成為一個價值事。

問問題的人,可能一直有迷思,把資料丟進去就會發生神奇的魔法,所以有許多我聽不太懂的神奇問題,那些問題就是想要找魔法,而不是將問題定義清楚。有關自動回覆機器人的回答也耐人尋味,引用其他老師認為「真正懂得人,不會去處理這個問題;不懂的人覺得很炫,所以去做。」

跟人生一樣,文字探勘(Text Mining)和現下被炒紅的名詞等,本質都是在過程中嘗試錯誤(Trial and error),要有「知覺」知道自己在做什麼?對於自己為何換方法探勘,要知道原因。做每一步,都要知道自己為什麼要做。

真的很喜歡陳教授,回家到教授的部落格,近期《尋找自己》一文,讓我覺得是這一堂課的延伸,尋找,尋找問題。

--

--