淺談機器學習在金融數量領域的運用

修完經統財 + 投資學,用ML觀點看財務數量方法

因為自己一開始接觸AI就是在做資財,所以對這方面比較多關注一些,尤其這學期又修了財管系吳啟銘教授的投資學,選書則是全世界商學院都在使用的:

Bodie — Essentials of Investments

真的全世界修投資學基本上都看這本

尤其教授又是個很認真的老師,用一學期教到期貨定價QwQ 真的…蠻重的XD,每篇還有預習要繳交,不過對投資又更加認識了,其中對data mining 在finance的應用也有了不少啟發。

本篇主要是探討「金融交易」,而非金融服務,金融服務是對人的,是一般商業銀行的範疇,目前的Fintech主要都是在更新商業銀行的金融服務,而投資交易則是面對市場的,主要是投資、證券業的領域。金融市場長久下來累積了大量的數字,琳瑯滿目的金融工具與衍生性商品、tick data(每秒成交資料)造成了金融巨量資料時代,儼如一座金礦。

就我目前所知,在AI這個領域裡面基本上可以分成:

  • 學術派:目的是「了解」,挖一些有趣的insight,然後推導出另外一派理論
  • 實務派:商業應用,舉凡FANG四大巨頭、微軟、Tesla都著重於「預測」,不管black box

學術派的本意並不是催生一個金融預言家,著重於分析數據,有點像是金融分析師,我們在分析上建立知識、提煉以及總結成資訊、理論,但是預測系統則著重在獲益、商業模式上的可套用性。是獲利的直接或者間接手段。那麼,機器學習在金融計量上其實, 有些不小的問題。

第一:特徵工程難以進行

有了簡單的學術、實務派簡單分類之後,我們又可以想想金融資料長什麼樣子。

電影中、手機、新聞上,只要想到金融商品,大家通常會聯想到黑壓壓、紅綠色的K棒跟各式各樣的技術指標,K棒是有助於理解以及拆解訊號的圖像。

「k棒」的圖片搜尋結果
圖片來源:https://www.blocktempo.com/technical-analysis-what-is-candle-stick/

也有人後來發展技術指標為「形狀學」,一堆名詞就被發明出來了,但是本質上,金融資料就是非常龐大的「時間序列」。而金融資料有個比較不當的地方是,它的自變量之間通常充滿高度共相關,使得預測不容易,但是解釋起來倒是比較容易些,各式各樣的宏觀經濟數據利用移動平均的方式來擬合目前的曲線,就是很古早的「預測」方法。所以到這裡,其實我們也可以發現說金融資料的特徵非常難定,因為許多經濟指標的源頭是牽連在一起的,也就是基本的經濟學原理所提到的供需法則,而宏觀經濟數據在金融市場上往往都是落後指標,所以說:

拿股票市場預測經濟可行,但是拿經濟數據預測金融市場會很微妙。因為經濟數據有太多屬於落後金融市場的指標了。

第二:非平穩時間序列

剛剛做的SVM股價分類模型

這個知識點就比較吃統計跟計量經濟一點,不熟的人可以跳過XD

ML algorithm常常依賴於一種假設,但是碰到金融序列就像是碰到一個頑皮的小孩,經常屬於非平穩序列,也就是說,我們的資料並不是常態分佈,那麼當訓練AI的時候,經常會讓它不知所措,就好像老師上課都只講A,但是考試只考B,學不太到什麼東西,準備無效。

(如果是常態分佈,可以預期老師上課講A ,考試考難一點的A或者A的變化,可以這樣理解)

平穩時間序列一直是計量經濟學的重要假設,但是我們不應該利用假設檢驗的方式來確定是否序列平穩,是用來確保假設的嚴謹性,而非有效度。

直白的說,我今天想要證明我敢吃辣,如果大家公認敢點大汗(一家政大旁邊的麻辣鴨血)的大辣口味,那我就能證明說我是敢吃辣的人,但它不一定能夠確保我的吃辣是有效的,好比我可以忍幾千次、衝幾千波來通過檢驗,但是說不定我每次都很痛苦,並不能說明我真的是個可以吃辣的人。然而金融資料很吵(一堆噪音),導致model不容易學到特徵。

第三:無套利機會下的資料不平衡

投資學前半主要是在聊「買ETF吧買ETF吧」XD,主要是認識效率市場假說,證券分析是不可行的,試圖創造超額收益是辦不到的(因為股價已經反映了所有的資訊),但是呢,實證上的結果是市場是非理性的,近幾年的經濟學諾貝爾獎也主要表彰行為財務學的研究,可以參考兩本經濟學獎得主大神的書:

  1. 不當行為 — — 理查.塞勒
  2. 快思慢想 — — 康納曼

不過讀起來很硬,舉例蠻多但是還是…..很硬!到後面看到那個厚度都有種莫名的排斥感(X

而投資學後半基本上都是在講定價,也就是所謂的「證券分析」

人們可以創造超額報酬,也就是alpha

在金融商品的定價中,我們主要強調在無套利機會下為前提,為什麼呢?其實這麼文鄒鄒的文字意思不過是:「我們假定不存在價格上的偏差ㄛ!」

好比打完球看到體育館門口有兩台販賣機,但是某台販賣機的飲料全部都比另外一台便宜五塊,那麼,就存在「套利機會」。我們可以把便宜的販賣機全部投光,在旁邊的販賣機加個4.99元賺取4.99元的價差,而別人也會貪圖0.01的折扣而向我們購買。

那麼,套利機會會怎麼影響機器學習呢?就是「我們學習的對象,基本上都是已經不存在濳在套利機會的資料。」有些看錯機會的對手已經提早出場,有些提早看到機會的對手早早買入,造成市場上的資料難以辨認,訊號不夠明確,因為有人看多、有人看空(除非炒作、利空指標明確)

小心財務上的倖存者偏誤!

老師上課的時候提到,資料探勘在財務上要絕對小心「倖存者偏誤」,或許我們的AI只看到那些賺錢的股票,但是沒有學到好的時機,終究不是一支「替自己」賺錢的商品。

第四:實驗室下的理論,太過理想

學術派的假設在現實都是不可能的,經濟、金融所討論的理想情況,只會在實驗室的沙盒中出現,有助於理論推導的假設並非沒有價值,而是他不能輕易套用到現實場景中。

至於我怎麼想?

在資料科學上,我目前其實覺得經濟商管還是很適合走ML的,也有一些標準動作,好比數據經常右偏斜、需要用差分來平滑時間序列…….

然而,財經理論始終來自人,而人組成了社會,整個世界的經濟體系創造於人的貨幣系統,貨幣就發展出了IS/LM model,又可以連接到交易行為的AD/AS model。

市場結構的組成都可以經由經濟曲線的移動來推敲,我們對於自然世界多用「法則」的角度,但是經濟多用「觀察」,因為它可以帶入人的感覺、人的解讀,而自然比較不容易,需要經過重重的推理以及測試。

光這一個先天優勢,金融經濟的特徵工程說起來也不是那麼沒有sense,只是人們缺乏對交易對手的理解,說不定在未來的AI投顧下,金融領域的paper可以發得越來越順利XD 畢竟交易對手是誰反而更清楚了。

經濟理論限制了ML的overfit,ML則解釋了經濟變量間互相箝制的複雜關係,幫助經濟學家發展更好的理論,理論改進預測,互相優化!

所以投顧有那麼多的分析師、研究團隊,都是希望優化自己的理論,與AI優化的本質到底是一致的,這的確是個很有趣的領域,最後,目前的Wall Street還分為Q宗與P宗,比較data的是P宗,可以再寫一篇文章作介紹,也是一個我很有興趣的領域,歡迎與我交流!

學了Bodie的投資學,也對股價預測這道難題有了不一樣的見解、見識到華爾街目前的做法、財務專家可以怎麼配合ML,之後有機會會介紹!

Reference:

1.Stationary financial time series paper : https://archivefda.dlib.nyu.edu/bitstream/2451/27019/2/S-FI-03-06.pdf

2. JPMorgan report :https://bigdatafinance.tw/index.php/finance/fintech/396-12

3.Coursera — reinforcement learning in finance : https://www.coursera.org/specializations/machine-learning-reinforcement-finance

4.Financial market paper :https://www.nber.org/papers/w17719

這邊也想做個實驗,好讓我知道你/妳喜不喜歡這篇文章:
拍 10 下:簽個到,表示支持(謝謝鼓勵!)
拍 20 下:想要我多寫「商管相關」
拍 30 下:想要我多寫「資科相關」
拍 40 下:想要我多寫「金融相關」
拍 50 下:我有你這讀者寫這篇也心滿意足了!

--

--

戴士翔 | Dennis Dai
Finformation當資料科學遇上財務金融

外商分析顧問,Ex- Apple Data Scientist,曾在FMCG巨頭/日商管顧/MBB管顧/高成長電商從事商業分析與數位轉型,專注分享管顧、商業、數據分析的思考。分析/演講/合作歡迎來信:dennis.dai.1011@gmail.com