以Python實作tf-idf算法,並以文字雲視覺化描述
以周杰倫、五月天、林俊傑歌詞文本為例
Published in
Aug 1, 2020
這篇文章會用周杰倫、五月天、林俊傑三者的歌詞文本作為資料集,以tf-idf加權技術萃取三者歌詞文本的關鍵字,並且以文字雲作為視覺化描述。
文本關鍵字
一個文本的關鍵字,應該具備何種性質?常理判斷該語詞倘若出現最多次,便越可能成為關鍵字,否則何必反覆在文中提起,語詞次數來衡量關鍵字,這是一個看似合理的方法,可惜會面臨到以下兩種缺失:
- 文本長度不一致,衡量便不再可靠,因為長篇幅的文章出現特定語詞的次數相對來說比較高。
- 如果一個詞語在大多數檔案都有出現,顯然這個語詞對該篇文章也不是那麼關鍵,比如說『我們』、『然後』,這類常見的語詞,雖然在一篇文章次數很高,但這…