【TEJ財金研究院】TEJ投資用資料庫在量化投資分析上的應用

運用TEJ投資用資料庫建立多因子模型進行預測與選股

前言

自馬克維茲(Markowitz)發表投資組合理論、夏普(Sharpe)修改提出了資本資產定價模型(CAPM),與羅斯(Ross)進一步發展出的套利定價理論(APT)後,學者們逐漸發現股票的特徵對其期望報酬率具有一定的解釋能力,這也成為量化投資分析之先河。後續隨電腦與演算法迅速進步下,機器學習與人工智慧應用到數據挖掘上也取得良好的成果,使量化投資分析在金融領域成為重要的一環。與此同時,投資市場對數據需求也同步增溫,當研究者進行量化投資分析時,往往需要大量的數據支持。

台股市場每日產生了許多交易的資訊,如價量、信用與借貸交易…等,也公告了很多公司的重大訊息,如營收、盈餘和股利政策…等。若要每日蒐集取得這些資訊並整理是相當困難的。而且,資料的品質也是個問題,雖然坊間許多網站提供了免費的數據,研究者可以透過網路爬蟲方法抓取資料,但這些免費的數據普遍均存在缺失與錯誤的問題,若要每日對這些數據作清洗與維護,可能需要耗費另一筆高額的成本。因此,為了解決上述問題,滿足量化投資分析者對數據分析的需求,一個數據齊全且高品質的資料庫是必備的。有鑑於此,TEJ投資用資料庫因此孕育而生。

TEJ投資用資料庫收集了大量的台股資料,且研究員也會定期清洗、校閱,以維護資料的品質。資料庫內容涵蓋三種不同類別的資料庫分別為市場交易資料(market data) 、財務會計資料(financial accounting data)與公司活動事件(corporate action event)資料。市場交易資料的資料庫包含了股票的價量、籌碼資料;財務會計資料的資料庫包含了公司營收、盈餘資料;公司活動事件資料包含了公司經營層重大決策的資料。整體資料庫的內容除了非常豐富與對台股市場資訊覆蓋度高外,也具備了量化分析必備的point in time的特色。在本文後續將對內容與特色再作進一步的詳細說明。
由於市場的效率性不足與投資人不理性的行為等因素影響,股價往往對資訊反應不足或過度反應,也因此提供了良好的投資機會。Fama(1993)研究指出股票的三因子可以解釋股票的期望報酬率,使多因子模型之後成為量化投資領域中選股的重要模型之一。因此,本文後續將探討如何運用TEJ投資用資料庫,建立多因子模型進行預測與選股。

本文關鍵字:投資用資料庫point-in-time多因子模型

重點概要

📍TEJ投資用資料庫三大類別
📍Point-in-time資料特色
📍多因子模型介紹
📍投組建立選股回測

TEJ投資用資料庫三大類別

TEJ投資用資料庫的主要架構是以市場交易資料(market data) 、財務會計資料(financial accounting data)與公司活動事件(corporate action event)三大類別的資料庫所組成,其中各自的資料庫又包含不同種類的資料,以下將分別做說明:

(1) 市場交易資料庫:
其涵蓋了股票價量、信用與借貸交易,以及法人的買賣超。另外亦有屬性資料,可用以判斷股票當時的上下市狀況與所屬的產業別,亦可用以確認當日股票是否有受到處置、暫停交易或是列為全額交割股。另外也包含了過去曾經上下市櫃的股票、每日不同指數成分股和ETF成分股的資訊,利用此資料作量化分析可避免生存者偏差的產生。

(2) 財務會計資料庫:
其收錄了月營收資料、經會計師核閱的財報與未經會計師核閱的公司自結損益。月營收與未經會計師核閱的自結財報資訊公布較早,可幫助投資人在公司營運發生變化時,及早進行投資決策的調整。此外經會計師核閱的財報和公司的自結損益均包含了三種資料型態,分別為單季、累計與移動四季的資料,讓分析者可依照自己的需求取用,省去資料整理繁瑣的程序。

(3) 公司活動事件資料庫:
其內容包含管理階層的人事異動、內部人持股申報轉讓、企業合併收購、資本形成(包含增減資、私募等影響股本的重要訊息)、固定資產異動、股利與庫藏股政策,以及公司的重大訊息等。其中每一類別的事件均包含其宣告日、相關的重要訊息,很適合作事件宣告效果的研究,或搭配其他資訊作更進一步的探討。

Point-in-time資料特色

1.生存者偏誤:
如果上市公司的股價資料,因為破產、下市、併購等因素,或像期貨合約到期,而消失於歷史資料庫中,我們一般直覺用現在的上市公司POOL抓取歷史資料,就會漏掉這群當時存在市場的投資標的,將無法反應市場當時現況,造成策略績效高估或低估。而TEJ提供完整上下市資料,讓使用者開發策略時,可以避免生存者偏誤。

2.窺視未來:
窺視未來(Look ahead Bias)是實驗過程中,採用到未來資料,而非當時點能採集的資料,將導致實驗結果偏差。例如財務報表有重編後或者去年同期修正資料,就是未來的資料,若採用該資料做為選股條件,策略將無法精準地反映真實交易情況。

TEJ獨家提供使用者重編前的財報資料,做成投資用財務資料庫提高策略開發的精準度。當然也保留了該資訊公告日的日期,像前面所說的宣告日當天消息反應的價格最真實,因此公告日在量化策略上是必要的資訊。

3.前視偏差:
財報公布的時間點若未加留意,誤將財報結束日作為資訊採用的時間點,例如年度財務報表結束日期為當年12月31日,而該筆財報資訊在隔年3月底前才公告,若誤用為當年12月31日的日期,則容易造成前視偏差,以能預測未來的前提去進行統計分析。TEJ資料庫除了提供財報日期,同樣提供該筆財報公告的日期,以公告日來推了解股價反應,才避免策略誤判。

4.歷史股價調整:
而在進行股價分析時,價格資訊是否有經過公司派發股利股息以及增減資的時間點,也會大幅影響到報酬率分析的結果,而且避免以上四個PIT資料的重點特色,在TEJ的API資料庫,提供給使用者前,就已將上述的問題都處理完畢,讓研究者可以直接取用已清洗過的資訊,大幅節省分析前資料處理的時間。

價格經過除權息節點的不尋常波動,且要將現在價格與過去價格放在同一個基準上比較,我們一定要使用TEJ調整後股價,作為回測的資料。

多因子模型介紹

Fama(1993)實證股票的三因子:市場、市值與股價淨值比能解釋股票的期望報酬,之後學術界的研究也陸續發現。許多股票的特徵可用以預測股價的變化,其中以財務會計相關的特徵表現好且穩定,如成長因子的營收、盈餘成長率,與質量因子的毛利率、ROA與ROE。此外動量因子在海內外文獻也被實證有效,如過去6和12個月的股票報酬率。因此,本文將運用上述的成長、質量和動能因子的特徵作為模型的變數,建構多因子模型進行預測選股,並等權配置建立投資組合。

多因子模型是由Ross(1976)提出的套利定價理論發展而來,其運用多元線性回歸(以下稱Linear回歸)來建立模型進行預測。然而,模型的特徵間可能有共線性問題存在,且隨特徵數量的增加也可能使模型產生過擬合的現象,因此帶有正則懲罰項的模型也陸續被提出,如Ridge回歸、Lasso回歸與ElasticNet回歸。本節將以上述四種回歸來建立多因子模型。相關模型方法的具體說明如下。

(1) Linear回歸:
利用最小平方法擬合模型,使股票實際報酬率與運用特徵值預測的報酬率之誤差最小化,進而估計出模型的回歸係數,目標函數如式2.1。

(2) Ridge回歸:
由於股票的特徵間有時候會有共線性存在,會使估計的回歸係數其變異數膨脹,降低預測的精準度。因此Ridge回歸在目標函數(如式2.2)上加入了L2正則懲罰項

降低特徵的高度相關性所造成的影響。

(3) Lasso回歸:
模型特徵數量的增加可提高模型的解釋能力,但也提升了模型的複雜度,易使模型發生過擬合的狀況。雖Ridge回歸加入了L2正則懲罰項,但仍保留了模型中所有的特徵,無法降低模型的複雜度。而LASSO回歸在目標函數(如式2.3)將L2改為L1的正則懲罰項

可使回歸模型在縮減過程中,將一些不重要的回歸係數縮減為0。所以Lasso回歸亦有特徵篩選的功能。

(4) ElasticNet回歸:
混合了Ridge回歸和Lasso回歸的特性,在目標函數同時加入了L1和L2的正則懲罰項,並用一個控制比率θ配置L1、L2的權重,目標函數如式2.4。

以上是對4種常用於建構多因子模型的方法作簡單說明,接著將進一步說明投資組合的建立步驟。

投組建立選股回測

選定成長、質量與動能因子的特徵作為模型的變量,以及了解多因子模型的方法後,接著將著手建構多因子模型,進行預測與選股,並建立投資組合。整體流程包含三個步驟,具體說明如下。

1. 數據處理:
主要將不同頻率的特徵轉換成月頻月底值的資料。如將季頻的財報資料升為月頻資料,或將日頻的過去6、12個月股票累積報酬率降頻為月頻資料。待資料頻率統一後,接著對特徵的上下1%作縮尾與進行標準化處理。

2. 模型建立:
利用下一個月股票報酬率對過去n個月的特徵值作回歸,並運用上一小節提到的4種模型的方法分別估計出其各自的回歸係數建立模型。一般n值文獻建議採用2–5年的資料,本文折衷採用30個月。

3. 模型選股:
將最新一期的特徵值帶入建立好的模型,固定每月底預測下個月每檔股票的期望報酬率,並依照個股的期望報酬率由大到小排序,選出前20%的股票等權配置建立投資組合,並用移動窗格方式在每月底重複上述3個步驟。

待4個多因子模型的投資組合建立後,再加入一個簡單等權投資組合(Equal)用以作為績效比對,建構的方式為每月底對特徵等權加總,由大到小排序選出前20%股票、等權配置形成投資組合。下一節將對以4種多因子模型方法所建立的投資組合、簡單等權投資組合與大盤作績效比較分析。

績效分析
本文以2015年1月1日到2022年3月30日間,台股上市市值前150大公司為樣本,運用成長因子的營收、盈餘成長率,與質量因子的毛利率、ROA與ROE,以及動量因子的過去6和12個月的股票報酬率共7個特徵作為模型的變量,建構多因子模型進行預測選股,並分別建立Lasso、Ridge、Linear、Elastic、Equal 五個等權配置的投資組合作績效分析。

表3.1、圖3.1、圖3.2統計2017年7月到2022年3月間,5個投資組合的績效。整體顯示5個投資組合的績效表現均優於加權指數,累積報酬率以Lasso投組表現最好為155.9%,Equal投組最低為114%;雖5個投資組合的標準差約為24%,投組的波動度相對加權指數高,但從衡量每單位風險獲利指標的夏普值觀察,5個投資組合均較加權指數高,尤其以Lasso投組表現最佳為1.58,其他的Ridge、Linear、Elastic投組表現差異不大,Equal表現較差為1.17;風險分析方面,4個多因子模型建立的投組最大回撤差異不大約16.5%,相對Equal和加權指數而言,所承受的風險相對較低。綜合上述歸納出以下3點:1.利用成長、質量與動能因子建立的投資組合,不論在獲利能力或風險承受度均優於加權指數,顯示這些特徵對股價確實有預測能力,與國內外文獻研究結果一致。2.利用多因子模型方法建立的投資組合優於簡單等權投資組合,代表多因子模型可以增強特徵的選股能力。3.多因子投組中以Lasso投組表現最好,代表透過Lasso回歸對特徵縮減可提升模型預測的精確度,也隱含在高維資料下,Lasso回歸能篩選出預測力強的特徵,並降低模型的複雜度與提升模型預測的準確率。

投資組合績效分析表(資料期間:2017/7–2022/3)
▲ 表3.1 投資組合績效分析表(資料期間:2017/7–2022/3)
投資組合每年報酬率
▲ 圖3.1 投資組合每年報酬率
投資組合累積報酬率
▲ 圖3.2 投資組合累積報酬率

結論

本文說明了TEJ投資用資料庫的內容與其特色,與運用財務會計資料庫,建立多因子模型進行預測與選股。綜合全文總結以下兩點:

1. 資料庫均包含資料的公告日,具有point-in-time精神。利用公告日整併的資料可使分析時避免前視偏差的產生。

2. 利用財務特徵建立的4種多因子模型,其選股形成的投資組合績效優於大盤與簡單等權投資組合。其中多因子投資組合中以Lasso投組表現最好,顯示在高維資料下,其具有篩選特徵的能力。

欲了解更完整資訊,歡迎訂閱 E-Shop 閱讀完整內容。
TEJ投資用資料庫在量化投資分析上的應用
資料來源:TEJ 資料庫

如果各位讀者對於本文、TEJ 資料庫有任何問題,或是想進一步獲取關於 TEJ 資料庫的操作權限,歡迎留言、來電或來信詢問。

關於我們
⭐️ TEJ 官網
⭐️ TEJ E Journal
⭐️ TEJ 企業評價網站
⭐️ TEJ Instagram
⭐️ TEJ Facebook
⭐️ TEJ LINE
⭐️ TEJ LinkedIn

✉️ 信箱:tej@tej.com.tw
☎️ 電話:02–87681088

你們的鼓勵推動我們持續分享更多實用的知識集
如果你覺得今天的文章不錯,可以點擊下面的拍手
如果覺得超讚,可以按住拍手不放直到 50 下
有任何想法歡迎留言和我們討論

--

--

TEJ 台灣經濟新報
TEJ 財金研究院

TEJ 為台灣本土第一大財經資訊公司,成立於 1990 年,提供金融市場基本分析所需資訊,以及信用風險、法遵科技、資產評價、量化分析及 ESG 等解決方案及顧問服務。鑒於財務金融領域日趨多元與複雜,TEJ 結合實務與學術界的精英人才,致力於開發機器學習、人工智慧 AI 及自然語言處理 NLP 等新技術,持續提供創新服務