07/30 機器學習筆記

和台大蔡教授討論重點如下:

現今研究此題目的類型大致分成二類:1. 資工電資類型 2. 商學院類型

在資工電子類型中,會探討機器學習的模型,變化各種的模型來增強最後的結果。

商學院類型,是會重視最後投資的效益,如果效益不好,就都沒什麼意義。

蔡教授實驗室目前重視的偏向是商學院類型,因為他們已經把線上熱門的機器學習模型訓練過一輪,performance都不是很好,因此會把重點放在解釋模型中,訓練完成後的特徵,抽取出來是觀察否有意義。

Ex : 把股市time-series 的資訊轉換成高頻訊號,再用CNN訓練。 Reference

從投資的角度來看的訓練出來的正確率沒有意義,要看投資報酬率,他們展示了正確率約6成的模型但投資籌率很好,中間賠錢的狀態不會超過5%(這邊有個名詞可是我沒記錄到)。

實驗室曾經做過的一些技術:

1. 利用初始股市的形象學,用機器學習提早找出hint,並且做出動作。

2. 分析並解析出新聞有用的資訊,整理給Trader。

以下是有問的問題:

  1. 丟進去模型訓練的輸入是什麼?
    → 實驗室目前適用CNN搭配一些高頻訊號,加上實驗室有財經背景的人,因此會加入一些指標,得到輸入。
  2. 做過哪些失敗的測試跟嘗試?
    → 模型的變換包含LSTM、ANN、DNN etc…,單股市數值time-series的訓練。
  3. Testing訓練到最高的數值是?
    → 81%,但拿去實際回測還有投資還是無法使用,狀態是小賠。
  4. 有可能繼續的方向?
    → 從策略面出發,再來設計模型,了解自己要分析的是什麼,模型裡面的東西是否有意義,策略的重點在勝率?投資次數?還是賠率?
    → 文字特徵中需要大量人工label,可以創立平台,用大數據的方式收集新聞正負向字的部分ex: Twitter 
    → 在目前比較熱門的計畫中,許多團隊在使用新聞以及探討文字來輔助預測股市模型。