周目標:閱讀paper目前在機器學習的領域當中,有哪些提高預測正確率的方式。
周目標:閱讀CNN運用在股市預測、IF-IDF
任務:以CNN方式預測股價之模型
結論:
周目標:CNN運用於文字特徵相關paper閱讀
相信大家已經對CNN都有一些基本的認識了,在這周閱讀二篇CNN運用在文字攝取的文章。
Convolutional Neural Networks for Sentence Classification [ Link ]
A Convolutional Neural Network for Modelling Sentences [ Link ]
周目標:持續解決遇到的問題:
Q1. 抓取每天的蘋果新聞 從2004年07月訓練到2006年03月的資料random選擇50個文字特徵搭配上收盤價下去訓練疑似有overfitting現象,初步推測訓練的天數太少,需增加訓練資料量
A1: 已解決,原因是code裡面,training data 結果的部分被我覆蓋掉了,變成只有0 or 1的資料,把他改完之後,testing data 在55~56%
周目標:測試文字特徵(Bag of word、TF、TF-IDF)、閱讀融合訓練模型
A: 文字特徵測試結果:
測試三種文字特徵轉換成數字矩陣模型,Bag of word、TF、TF-IDF
測試再不一樣的模型下測試結果
周目標:BOT建立以及測試
我們在預測的時候,假設每天只的漲跌訊號可以參考,那勢必策略只能簡單化,像是微笑曲線策略的買賣,因此我先想了幾種簡單的策略,以及如果之後要模擬時的假設
在模擬交易時的假設
期初資產總額為新臺幣一千萬元(可改變金額 )
模擬成交價格是以該交易日的加權指數開盤指數為準
考慮交易成本,其中證券交易稅率為0.3%,買賣手續費率為0.14…
周目標:輸出word vector
有用到wordvector的套件 先安裝一下
1. 首先升级一下easy_install工具。easy_install -U setuptools
2. 安裝套件。easy install -U gensim