資料降維其實對於分類計算還蠻用的,所以這一篇來講一下我們怎麼降低資料維度然後達到提升分類正確率提升。資料降維這個動作也可以被稱為特徵選取 (feature…
前面用三種分類計算得到的結果非常令我不甚滿意,於是只好想辦法怎麼修正這個問題。
前面我們已經將文字轉成數值,接下來就是要利用分類的計算方式來進行好壞文章的分類。
在上一篇提到的字詞轉向量,通常的做法一定是一整篇文章直接進行斷詞斷字的動作,然而為了降低一些運算量或是說想剃除掉一些比較無意義的字詞,例如:語助詞或是介系詞等 (“阿”、“哦”、“吼” 等);而這些字詞稱為為 stop words,中文稱:停用詞,目前網路上也有一些停用詞表可以直接使用,這邊我們也是直接用現有的 stop words :
https://github.com/deternan/PTT_Stock/blob/master/source/Chinese_Stop_Words_GB
These were the top 10 stories published by 小小實驗室 in September of 2019. You can also dive into daily archives for September of 2019 by using the calendar at the top of this page.