資料科學可以創造金融市場的Alpha(超額收益)嗎?續談AI在金融業的現況

事實上最近幾年的市場還是頗有效率的,ETF成功打敗了無數的基金

超額收益(Alpha),其實就是投資經理的能力高低,好的經理人能夠協助投資人創造高額Alpha,比如Soros、Dalio、Simons等等……..

投資是門藝術,所以他們與其說是數學家、金融學家,不如說是哲學家或者藝術家比較貼切一點。

這一篇文章主要是釐清財務專家與資料科學家看待金融市場的方式,機器學習的觀念則在上一篇文章:機器學習怎麼用在金融市場?

在著名財務教科書 — 博迪投資學的前半本書中,除了複習財務管理的觀念,我們也深刻認知:

「Alpha是死的,想要人為戰勝股市是不可行的。」

而經濟學原理中也提到,在完全競爭市場中,沒有利潤,受益人是消費者,這點可從數位獨角獸們的價格補貼戰中可見一斑,但是,金融市場的常勝冠軍們依舊穩定獲利、賺取令人信服的高額報酬(除了龐氏騙局的馬多伕醜聞…….)

而巨頭們也意圖開創一片壟斷性的藍海,奪得先機,進而打造生態系經濟,比如Amazon、Microsoft…….

其實這些大公司看待新技術的觀點也非常具有商業思維,比如MS看待區塊鏈的觀點就很有趣,沒有Token、沒有幣圈,但是有一些區塊鏈的屬性就足夠了,有機會可以細講。

而雪球越滾越大,除了金融市場的複利,科技業的獨大也不停放大價值,議價能力提高,邊際成本概念受到質疑,一切都是破壞式創新,以及再投資的結果。

那麼,投資金融市場怎麼創新?

資料科學是一種創新的方式嗎?好比,我們可以試著調整一個構建好的模型,計算參數、閱讀研究報告建立特徵、多納入一些總體經濟學的、或者技術指標來優化模型,但是,這是一個創新嗎?

投資錯誤的方向有兩種,正好可以對應到資料科學的建模。

做沒用的事情(比如沒有正則化的複雜迴歸 = 投資不會漲、成交量低的股票)

不做本來該做的事情(把自由現金拿去放定存 = 永遠不讀入外部資料表)

在資料探勘中,財務專家的觀點是資料挖掘有一種倖存者偏誤,也忽略了被放大的複利效應。

而這也是第一個錯誤,做沒用的事情,比如我們挖出了一個「現象」,但只是湊巧的「數據湊巧出現了這樣的情況」,捕捉沒用的Pattern。

之前就在某論壇看到一家外商大量徵求Quant,而這家外商公司所做的事情,就是非常暴力地做資料探勘,幾乎不管財務上的正規性,也就是完全忽略domain knowledge的資料科學,而我們知道資料科學:數理、領域、coding 三者缺一不可,所以這是非常危險的。就連我目前在資料科學的工作中,也深深感受到好的domain knowledge可以影響決策面很大的部分。

三者缺一不可

但是也有人認為,第二種偏誤更加危險,沒有做那些應該做的事情,會讓每臺電腦中的模型平庸、沒有明顯的差別,難以制定策略。

(所以這裡其實稍微提到了一個AI的悖論:當市場上充滿AI的時候,所有人都有最佳解(不考慮模型是否為凸函數),真的是看誰的網路好(下單快速)來獲利嗎?可以思考看看!)

做沒用的事情相當於一個聰明人做笨蛋的事情,不停地重新刷一個模型出來,但是第二種:不做本來該做的事情,就是叫一個笨蛋做聰明的事情,會搞砸的。

那麼,如果我們看到一個湊巧的、隨機現象,會付出什麼樣的代價?

這點可以從時間序列直觀思考,將它視為random、noise的買入訊號的報酬率是多少,就可以簡單驗證了。但是為什麼我們可以一直刷模型出來呢?驗證方式中,有人提到p-hacking,有興趣的人可以看看統計學上的P值陷阱,推薦這篇文章:

作者臺大統計所畢業,也是一位很厲害的資料科學家:P-value,你是無辜的!

p-hacking簡單來說,造成的影響就是財務上、經濟的論文其實某方面來說沒那麼嚴謹,因為我們可以「看我們想看的」,只要調整到一個不那麼被排斥的參數就可以了。當然自然科學領域的論文也是有參數操弄的可能,不過因為金融市場的action可以從公開的data驗證,成本少了許多,所以…嗯XD

不過目前也有學者提倡不同於P-value的檢定方式,但是P-value的自訂檢定域確實不能很好解釋Hyper parameter該怎麼訂比較好,頂多是可接受的層面罷了。

而第二種可能就是,高估自己的能力,在行為財務學上,這叫做overconfidence,過度自信,在博迪投資學的第九章中有細講這個金融、心理交叉的有趣理論。(這學期投資學期末考考完真的對這本書印象很深刻XDD)

白話總結,資料探勘可以用,但是好的產學環境難以建立:

資料科學還是可以發現很多有趣的模式!

犯下第二類錯誤的代價就是後悔,行為財務學中也提到一個現象叫做Regret avoidance ,當你做了一件不同以往的事情導致損失,後悔感會更加強烈。(比如去一家沒吃過的店踩到雷,就會覺得這家店真的超爆雷,但是可以忍受平常愛吃的店突然的不完美),而這樣的現象會濳意識增加第一類錯誤的機會。

但是金融模型的建立,目前沒有一個好的機制可以促發創新。

當Fama-french發布三因子模型的時候,大家慢慢以之作為Baseline,研究更好的ß,那麼,我們還要再等一個Fama出來才能改進財務上的模型嗎?

畢竟金融市場上,銀行的一個model就是非常大的資本額流動,自己賺都賺不夠了,還開放給別人用咧XD

不會像科技產業的開源經濟,少有共享的科研環境、大家各做各的,在相同的數據上試圖挖出金礦,就好像美國早期的舊金山淘金熱,我們不知道資料濳藏的金礦還有多少,但是缺乏共享研究成果(即使這是金融產業存在的機制)、類似P-hacking的參數調整,都使得量化分析在金融市場上的進展加倍困難。

不過隨著Fintech中的open banking趨勢,即使在投資、證券業上,財務模型必須咬緊牙關測試不同的feature,未來在數位金融服務上應該會更開放才對,也就是資料科學應用到商業銀行上會是一個很棒的領域(畢竟金融業的資料實在太大囉!),壽險業也得以結合區塊鏈發展智能合約、AI核保等加速業務流程,強化客戶體驗的技術創新。

數位金融的成熟度還有服務、支付環境或許都能有不錯的成長,達到更普惠的金融環境(尤其強烈希望留學貸款的恩賜XD)。

我也會持續關注Fintech的趨勢,未來也會產出各式各樣的Fintech相關文章,以一個喜歡資料科學、研究過區塊鏈的商學院學生觀點怎麼看待這些Fintech?比如最近令人興奮的臉書幣Libra。看到它被各國央行極力排斥真的覺得很可憐,雖然自己學過金融理解央行的立場,但還是會想看看臉書率先發起的社群金融模式嗚嗚。

--

--

戴士翔 | Dennis Dai
Finformation當資料科學遇上財務金融

外商分析顧問,Ex- Apple Data Scientist,曾在FMCG巨頭/日商管顧/MBB管顧/高成長電商從事商業分析與數位轉型,專注分享管顧、商業、數據分析的思考。分析/演講/合作歡迎來信:dennis.dai.1011@gmail.com