[第 11 屆 iT 邦幫忙鐵人賽] Day 29:發大財了沒 ?

Chao-Hsuan Ke
小小實驗室
Published in
3 min readSep 26, 2019

在前面四天我們依序提到了改善資料分類的方式,從最原始的資料處理到後來的分類演算法和資料降維,所有的目的當然是希望所有的結果可以驗證最原始提出概念:從 PTT 文章找出可能的股市走勢

這原始的觀念出自於 2 年前看 PTT 股市版後突然靈機一想的點子,之前有寫把它做成一份 PPT 簡報放在 SlideShare 上。

去年的實驗資料尚未收集夠多,所以正確率大約就是 六成左右,那當時也有思考了一下可以改善的方式,只是忙於白日上班的工作所以一直沒有再繼續做下去,又擱置了一年才又重新拿出來。經過這次一串的實驗後,發現其實正確率還是可以繼續被提升的,那就表示這結果似乎跟當初預期的目標是有可能接近的。

不過一個系統無法有一個最完美的產出,不斷的從中改進才是一個開發者該有的精神。

其實我自己心中還有列了一些可以改善的方式以及未來目標甚至是一些尚未被確認的假設問題,這都有待日後持續的修正。當然、希望有一天整個系統可以達到自動化的方式,最好每天乾脆都幫我操作股票好了,看看我會不會真的發大財 😂

改進

改寫程式碼與計算方式

未來改用 Python 重寫所有的程式碼,在編碼與分類方式導入 CNN 來實驗看看 [註 1]。這一次之所以沒直接使用 CNN 是因為我們的 training data (人工標記) 跟本太少,train 出來的 model 應該也好不到哪去,所以索性感脆先不用,這可以留待明天再來玩玩 😝

目標

釋放出標記的訓練資料集

這一次我們也花了一些時間做資料標記的動作,如果未來還有更多時間可以來做這件事情,我們有打算把所有標記好的資料公開出來,當作一個標準的資料集,讓有興趣研究的所有人都可以免費地使用。

但要標記一個完整又有用的資料集真的還蠻耗時間與人力,所以這也得等有時間再來做。

疑問

是否不用用數學來解釋?

其實我們自己也一直有個疑問,一直在想是不是工程師都喜歡把簡單的問題複雜化?例如說 明明選股的方式這麼多,為什麼要用那麼多演算法來處理?這世界真有這麼複雜嗎?(或是 真有這麼簡單嗎?)

有時候看經濟日報辦的選股比賽,都覺得這些分析師有些選得還不錯啊,幹嘛不跟著他們就好?這個問題 .. 我們現在也無解啊 😭

--

--

Chao-Hsuan Ke
小小實驗室

永遠熱愛自己的工作,總是找一堆事把自己的時間塞滿。喜歡接觸不同領域,像是 歷史、文化、金融和公共政策 等議題,期許著自己會什麼就分享什麼。