如何用數據分析賽馬? (入門篇)

Horsorion
馬筆停題
Published in
Dec 3, 2021

引言

相信各位對賽馬亦不會太陌生,有人認為賽馬就是賭博,如同過大海玩大細一般;亦有人認為賽馬其實是一門統計學,只需要量化數據,加以分析,即能以小博大,賺取數之不盡的金錢。兩種說法看似極度矛盾、不可共存,到底哪個才是真?事實上它們也是正確的,無可否認,有些人因賽馬而傾家蕩產,同時間亦有些人透過賽馬賺取第一桶金,甚至半個億。而分別就在於他們有沒有「系統性的選馬策略」,亦即是通俗所謂的「刨馬」。這次入門篇將會由淺入深分享,看完本文,你會明白到

  1. 何為有系統的選馬策略以及量化的方法?
  2. 如何利用數據進行驗證
  3. 獲取數據的方法。

系統性量化選馬策略

量化

所謂的「量化」,其實就是指以數字去表達一件事情的方法,透過量化,你可以更清楚更具體地解釋事情的經過。舉例來說,若有人說「潘頓真係勁過何澤堯好多」,你可能會提出一個疑問「咁姐係勁幾多?」,單單一個「勁」字,並不能清楚解釋兩名騎師的差異,同時間亦帶有主觀的看法。相反,透過量化,則可以利用數字去說話,例如

  1. 「截至2021年12月1日,潘頓贏左44次冠軍,何澤堯就得18次。」
  2. 「截至2021年12月1日,潘頓袋左5000幾萬獎金,何澤堯少成倍。」
  3. 「截至2021年12月1日,潘頓上名率有五成幾,何澤堯得三成左右。」

總的來說,量化就是一種將主觀想法以客觀數字去呈現表達的方法。

選馬六大因素

選出勝出的馬匹就等同選出賺錢的股票,離不開都是從基本面和技術面的分析。換句話而言,基本面指的就是馬匹內在的實力,騎士的騎功,練馬師的訓練配合;技術面則可理解為賽道、路程、檔位等外在因素對賽果的影響。為了簡單讓讀者理解,我們可分為六大因素去判斷和選擇,然後以分數去量化,分為不同等級,最低分為 –3 分,最高分則是 +3 分,最後將分數相加,總和越高則代表勝出的機會越大。

1. 近績表現:馬匹最近三個月所有往績的名次。

2. 賽道與路程熟練度:馬匹最近三個月在相同賽道與路程往績的名次。

3. 騎練合拍度:騎練最近十場往績的名次。

4. 檔位優勢:檔位於該賽道與路程往績的名次。

5. 班次:馬匹該場與上一場的班次分別。

6. 負磅:馬匹該場與上一場的負磅差別。

讀者應以可量化的方法作為判斷的標準,以近績表現為例,透過下圖準則的分法,則可將馬匹的近績表現以 +3 至 –3 的分數作為歸類。

系統性的選馬策略指的就是如何量化六大因素,從而製定一套獨一無二的選馬標準,客觀地分析每場賽馬比賽各隻馬匹勝出的可能性。

以過往數據進行驗證

測試方法

當設計了一套選馬準則後,想必大家一定急不及待打算實戰測試一番希望有所斬獲,但切忌這樣做!系統化選馬程序只是第一步,接下來的第二步才是重中之重,就是利用過往的賽馬數據進行測試和驗證。

簡單而言,就是將選馬策略應用在過往的賽馬日上,然後紀錄低系統預測的結果,再與實際馬匹名次作比對,從而得出系統預測的準確度,甚至可以加入賠率作考量,計出投資的盈利率。

首先將評分總分按大小排序,然後找出系統認為最大機會勝出的馬匹,以上圖為例則是動力飛鷹,然後與實際名次比較,則能得出是否能準確預測賽果,但是只有一場,或是一天的數據是遠遠不足夠的,讀者應以季作為單位,比較理想的是驗證三至五年的場次,如果能確保每季亦能賺錢,才可當作成功,反之則應重新製定策略,反覆進行測試。

數據來源

至於如何獲取過往賽馬數據作分析之用,方法有兩個。

  1. 直接從香港賽馬會網站進行網絡爬蟲
    此方法適用於有豐富編程知識的開發者,好處是所有數據亦是免費,但是需要付出時間收集數據,以及極大量的工作去處理數據,例如有機會遇到非結構式類型的數據、賽事數據遺留、賽事數據錯誤等,問題少則令分析缺乏完整性,大則影響整個測試結果導致虧蝕。
  2. 向專業數據供應商購買數據
    此方法適用於一般普羅大眾,直接購買數據可省卻大量收集和處理的工序,亦可確保數據的準確性和完整性,這亦是 Horsorion 成立的初衷,好讓各位可以把所有的心機和時間全用作系統的開發和測試。Horsorion 提供所有你需要的數據,由馬匹資訊、過往賽事結果,去到天氣數據,場地讀數等亦有提供,讓各位能從各方面分析賽事,建立專屬的預測系統。若你有興趣了解更多 Horsorion 的數據計劃,可參考以下網址:

結論

賽馬到底是賭博還是通往財務自由的道路?關鍵掌握在你手中,與其每個賽馬日投機看命運,不如把握機會,盡早建立屬於你獨有的有系統選馬策略!

--

--

Horsorion
馬筆停題

Horsorion 是一個集賽馬大數據、人工智能和機器學習的平台,由各式各樣的產品和服務所組成,功能完善且具有彈性,可讓開發人員輕鬆分析數據及研發不同的應用程式,並讓市民大眾以數據分析賽事。