周杰倫歌詞文字雲

以Python實作tf-idf算法,並以文字雲視覺化描述

以周杰倫、五月天、林俊傑歌詞文本為例

--

這篇文章會用周杰倫、五月天、林俊傑三者的歌詞文本作為資料集,以tf-idf加權技術萃取三者歌詞文本的關鍵字,並且以文字雲作為視覺化描述。

文本關鍵字

一個文本的關鍵字,應該具備何種性質?常理判斷該語詞倘若出現最多次,便越可能成為關鍵字,否則何必反覆在文中提起,語詞次數來衡量關鍵字,這是一個看似合理的方法,可惜會面臨到以下兩種缺失:

  1. 文本長度不一致,衡量便不再可靠,因為長篇幅的文章出現特定語詞的次數相對來說比較高。
  2. 如果一個詞語在大多數檔案都有出現,顯然這個語詞對該篇文章也不是那麼關鍵,比如說『我們』、『然後』,這類常見的語詞,雖然在一篇文章次數很高,但這…

--

--

邱秉誠
Carrot Cheng的數據分析

畢業於台大工業工程所,目前任職於台積電。