[書中自有黃金屋] 【多模型思維】一書與資料科學

大約三年前,跟一位投入醫療AI領域的先進聊天,他提到多模型或Ensemble這種"技巧"只有Kaggle競賽才會用上,當下想說你應該搞錯了,但當時沒有太多文獻闡述多模型是很重要的。AI發展至今,在追求準確度的領域上,不只是醫療AI,工業檢測和股市預測等領域,多模型甚至多模已經成為落地重要的方法之一,今天要介紹的就是天下文化出版的多模型思維,其中提到一些跟機器學習相關的模型,我就幾個在投資領域有使用的部分跟大家分享。

多樣性預測定理

本書第3章節就有提到多模型的理論基礎是來自於多樣性預測定理,多樣性預測定理是基於不同模型的誤差相關性較低的關係,誤差會互相抵消,這數學上都是有證明的,通訊中降低雜訊最簡單的方式就是利用多次取樣或不同天線的訊號來源做平均。因此多個模型的平均值,通常比單一最佳模型更好,書中提到陪審團制度就這樣的概念。當然若數據存在有偏差,任何模型得到的結果都是偏差的。

常態分佈與長尾分布

本書分為第 5 章和第6張兩個章節敘述這兩個分布,很多統計都是假設在常態分佈上,股票投資中知名的布林通道就是在這個假設上面。(布林通道介紹https://www.cmoney.tw/learn/course/technicals/topic/1216)

但是實際上股市的報酬率長時間統計下,並不是呈現常態分佈,常常有長尾分布的現象,而且常常是厚尾分布。尤其是當群體越小時,越容易出現極端現象。加上股市其實容易出現馬太效應,就是大漲時漲非常多,反之,大跌也是。

這種效應其實反映在選股上,以下圖來看,若選到年報酬超過10%為成功選股,任意選股的成功率僅為45%,連一半都不到,但平均報酬率有近20%,主因就是來自於大漲個股的報酬率可以抵好幾檔不動的個股,這也是為何ETF買一籃子股票比較容易獲利的原因之一。

資料來源: https://www.findbillion.com/twstock/picking?type=0

然而一般人選股是看新聞或電視,通常是漲了一波才進場,常常選到高於合理價的股票,成功機率往往比隨機買進還差(如下圖),這就是為何說找猩猩或射飛鏢選股,都比看新聞選股績效來得好的原因之一。

資料來源: https://www.findbillion.com/twstock/picking?type=0

因為長尾分布的特性,可以過濾掉股價偏離合理價太多的個股,選擇低於合理價的進場,可以提高選股的成功率,大幅增加選股的報酬率(如下圖)。

資料來源: https://www.findbillion.com/twstock/picking?type=0

線性模型: 迴歸分析

書中第 7 章提到線性模型是一個最直觀的模型,也十分容易解釋。例如台灣50的走勢跟台灣前500大總營收(做季節調整後)呈現很好的線性關係,當台灣上市櫃公司整體營收上漲時,元大台灣50(0050)也會上漲,同理當台灣上市櫃公司整體營收下跌時,元大台灣50(0050)也很難逃脫下跌的命運。

資料來源: https://www.findbillion.com/twstock/0050/revenue#regressionblock

線性迴歸是一項初步分析資料數據的強力工具,但股價實際的影響應該是多變數是非線性的,因此線性迴歸的結果背後需要進一步探討其現象,而且迴歸只揭露變數間的相關性,而非因果關係。例如,元大台灣50(0050)和台灣前500大總營收相關高是因為台股是長期成長的,例如萬一台灣經濟停滯不前,但有大量資金資金流入台灣,台股依舊會有大漲的現象,股價和成長因果關係就沒有了。

貢獻度模型

本書第 9 章前半部提到的夏普利值(Shapley Value),這是用來量化個人對團隊的貢獻度,團隊的產出等於每個人的貢獻度加總,個人的夏普利值就是該人的價值。例如幾場籃球比賽輸贏之後,可以透過量化測量出個人對球隊的貢獻度。而機器學習中利用夏普利值的方法做可解釋性,稱為SHAP (SHapley Additive exPlanations),即為分析每一項特徵值對預測結果的貢獻度

舉例來說,影響股市漲跌的因素很多,總經基本面可能有利率、失業率、整體庫存等,個股基本面可能有營收、EPS,殖利率等,原物料有金、銀、銅、鐵、黃豆、玉米、小麥等,籌碼面有三大法人和融資券等影響,最後影響到股市的漲跌。我們用SHAP的方法,根據未來一年的報酬率找出其關鍵因素跟其貢獻度,以0050為例,如下圖,美國高收益指數選擇權調整利率、美國整體庫存、季節調整後月營收都是影響漲跌的關鍵因素。下下圖中顯示銅價跟未來一年報酬率成反比,因此通膨對於股市漲跌有很大的影響。

資料來源: https://www.findbillion.com/twstock/0050/leading
資料來源: https://www.findbillion.com/twstock/0050/leading/key_feature_6?target_holding=1y

更進一步可以分析出目前對漲勢有影響(貢獻度為正)的幾個關鍵因素,如下圖,例如美國整體庫存的季節成長等等。

資料來源: https://www.findbillion.com/twstock/0050/leading

同樣的可以分析出目前對跌勢有影響(貢獻度為負)的幾個關鍵因素,例如上述的銅價因為偏高,對股市後市有負面的貢獻

資料來源: https://www.findbillion.com/twstock/0050/leading

投資的多模型思維

本書最後第29章中提到用多模型思維分析貧富不均與美國鴉片氾濫的問題 (鴉片問題可以看老高的影片 https://www.youtube.com/watch?v=37bIDXBGvEs),我們用在投資上也是類似需要用多模型思維,每一種模型都有限制,也有各自的優勢,透過多樣性預測定理,只要這些模型的準確度不要太低,則多模型結合後會有更佳的結果

上而下的選股方式選股也是這樣的概念,分為三個步驟如下

  • 步驟一: 判斷目前景氣位置
    大盤及0050的月營收及關鍵因素分析判斷景氣循環的位置,其中月營收屬於同步指標的模型,關鍵因素是領先指標的模型,兩者互相參考
  • 步驟二: 判斷產業走向
    類股以及產業月營收分析,確認該產業是否成長、衰退或停滯不前 。
  • 步驟三: 透過關鍵因素判斷股價目前是否合理
    依據個股分析的股價營收比、本益比、現金殖利率等不同的關鍵因素,分析是否為影響個股漲跌的重要因素,並判斷目前股價是否合理。

多模型思維的資料科學方式投資架構必定成為未來投資的主流之一,投資模型最困難的地方是過去準確的模型未來不一定準確,單一模型容易在某個時段出現偏頗的問題,多模型思維從不同的面向去分析,更能提升投資的準確度。

--

--