[第 11 屆 iT 邦幫忙鐵人賽] Day 27：第三招資料面改善

Chao-Hsuan Ke

Published in

小小實驗室

7 min readSep 25, 2019

上一篇想辦法去改善分類演算法但似乎改善幅度不高，正所謂山不轉路轉，如果分類器改善不了，那何不來改善一下資料面的問題呢？

針對資料的部分我們會用以下三種方式重新處理一下資料集，其中用兩個不同的方式重新把文字轉向量，最後是加入正規化的部分。方法依序是：

TF-IDF
word2vec model
data normalization

以下會針對這三個方式一一講解，之後再把重新編碼後的數值再進行一次分類計算，以便比較是否不同的編碼方式可以改善分類演算法？

為了公平起見，依然還是採用原先標記好的資料再來進行文字轉字詞

https://github.com/deternan/PTT_Stock/blob/master/source/tagging.txt

TF-IDF

有關 TF-IDF 的簡介可以直接連到 Wiki 的介紹，這邊就不多說了。

tf-idf

tf-idf（英語：）是一種用於資訊檢索與文本挖掘的常用加權技術。tf-idf是一種統計方法，用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成…

zh.wikipedia.org

主要公式如下，而原本公式上 documents 的數量就是原始資料 instances 的數量。

把文章轉成 TF-IDF 向量的程式碼可以從這逼邊下載：

https://github.com/deternan/PTT_Stock/tree/master/src/main/java/ptt/tf/idf

所以的變數存放在 Parameter 類別裡，如果要自行轉檔的話記得要換成自己的路徑。然後執行 TfIdfMain.java 類別即可。

轉換後的向量檔也可以從這邊下載：

https://github.com/deternan/PTT_Stock/blob/master/source/tagging_tfidf.arff

我們同樣測試之前提到的三個分類演算法，用此資料集來進行分類計算，得到的結果分別是：

支持向量機 (Support Vector Machine, SVM)：68.35 %
貝氏分類器 (Naïve-Bayes)：62.963 %
隨機森林（Random Forest)：63.2997 %

誒 … 結果好像有變好耶 !! 😆

不錯不錯 ~

word2vec model

我們原本將文字轉向量值是使用 fasttext 進行 (model也是)。這邊想嘗試看看如果使用 Google 的 word2vec 進行轉換，然後再來進行分類計算，看看結果是否可以改善？

利用 word2vec 轉向量值的 code 也幫大家準備好了，可以直接從下方網址，不過自己要記得改 model 位置就是了。

https://github.com/deternan/PTT_Stock/blob/master/src/main/java/ptt/arff/TaggingData_to_Arff_Word2Vec.java

轉換後的向量檔也可以從這邊下載，下載後也可以直接在 Weka 上執行。

https://github.com/deternan/PTT_Stock/blob/master/source/tagging_word2vec_txt.arff

一樣用 Weka 跑三個分類演算法，得到的結果分別是：

支持向量機 (Support Vector Machine, SVM)： 50.1684 %
貝氏分類器 (Naïve-Bayes)： 51.515 %
隨機森林（Random Forest)： 53.1987 %

結論：好像沒有比較好，怎麼反而好像更低了 😓

Normalization

為了讓資料的標準差不至於過大，通常在進分類等數學計算時資料都會先進行前處理的動作，最常見的就是 data normalization (資料正規化)了。資料正規化是將資料個數值的大小經過一些計算(例如：Standard Score)來將資料數值限縮在一定範圍內，通常範圍會定在 0 至 1 或是 -1 至 1 之間。

在 Weka 也可以先針對資料進行正規化，讀入檔案後進行分類計算前，只要在 Filter 中依照 “weka” → “filters” → “unsupervised” → “attribute” 選擇『Normalization』