Lebron個人數據對球隊勝場數的影響(Final)

Published in

Jacky’s blog

Sep 18, 2018

在這個project最後的篇章裡, 我將向各位介紹, 我們如何走過Data Scientist最重要的階段, 不僅藉由這個預測的結果, 我可以很有自信的說只要我有這一些features, 我就有超過8成5的機率能夠預測球隊的輸贏, 而面對哪個球隊會有如何的勝率我也能了然於胸, 更可以藉由這些features我也可以知道我應該如何安排Lebron的出賽我也將告訴各位,在這個project我學到了些什麼, 再次感謝各位前幾次的閱讀

首先,在這文章中,經過features間的多次廝殺, 我找出了這些features總和對模型貢獻度會超過99%,

'進攻籃板', '火鍋', '正負值', '罰球投球數', '防守籃板', '三分球命中率', '三分球命中數', '三分球投球數','上場時間', '二分球投球數', '主客場', '二分球命中率', '得分', '抄截', '二分球命中數', '罰球命中率','季賽場次', '助攻', '失誤', '犯規', 'YEAR(比賽時間)', 'MONTH(比賽時間)', 'DAY(比賽時間)','WEEKDAY(比賽時間)', 'belong_team.MODE(opp_team.對手_CHI)','belong_team.MODE(opp_team.對手_UTA)','belong_team.MODE(opp_team.對手_BOS)'

所以我現在知道了,依據這些數據我所建成的model高達了9成的預測機率,再來, 我也必須看看這些feature分別對‘輸贏’的重要程度是多少,

再給各位看看, features與target相關係數,是屬於,正相關, 負相關, 還是最慘的無相關

透過上面兩張圖可以看到影響最大的就是Lebron James個人的正負值, 正負值是Lebron James在場上的比分變化, 如果是隊友或他得2分, Lebron的正負值就會+2, 如果是對方得2分,Lebron的正負值就會-2,尤’正負值‘對模型的重要性是0.225和與’輸贏’的相關性-0.724,可以得知Lebron 在場上的表現是多麽的重要, 如果在沒上場時,只要撐住比賽,Lebron當天如果比賽狀況佳的話,就勇敢地放他在上面打,因為沒有他,’輸贏’基本上是無法掌控的,如果狀況不佳的話,教練要考慮是否需要讓他在場上繼續比賽, 你可能會好奇,為什麼’正負值’和’輸贏’的相關性是負的,因為我將’贏’設定為0,’輸‘則為1, 所以表示只要’正負值‘增加越多,就越有可能贏

再來把目標轉到’主客場’,可以看到重要程度僅為0.012,但與’輸贏’相關程度的是0.249, 我們可以知道雖然Lebrony在主客場對輸贏稍微有點相關,但在預測模型是, 在主客場對’輸贏’影響沒那麼大,至少只佔了整個預測模型的0.012, 我列出超過0.05重要性的features,

正負值:0.225
上場時間:0.074
二分球命中率:0.065
Day(比賽時間):0.062
季賽場次:0.059
罰球命中率:0.052

大家也可以依序透過這些來解釋特徵對於target的重要性。

你一定會這樣想,為什麼明明相關性就蠻大的,但為什麼對模型的重要卻沒有這麼大,就是因為有著’訊息增益’(Information gain), 這是決策樹的一個透過features 來區分每一筆資料是屬於哪個target, 用這個feature分類的數據會使這個決策樹更清楚辨識target,我舉’正負值’當作例子, 當正負值很高且為正下,Lebron的球隊贏的機會就越大, 而當正負值為負而且負的很誇張的話,就會被有更大的機會被判定為負,當然還可以不僅僅只區分為正負會導致’輸贏’,在下一層的決策樹也許會更加精確的區分出在負的情況下,是不是還有可能在-3的時候是個區分點,-3到0時有很大的機會贏,而-3以下會是輸的,這就是Information gain,能夠更佳的區分出資料屬於哪個target,讓這個node(節點)存在的更有價值,而correlation(相關性)僅表示當該features,targets有較大的機會偏向哪個target,並沒有更佳區分出features真正的幫助

你們認為這樣就結束了嗎,之後我會用time series來對Lebron James下季的數據做個預測,對!你有想到嗎? 有了相關的數據後, 我就可以對Lebron下季的勝場數和勝率做一個預測,之後也會開給各位看看如果你要買運彩的話要如何針對Lebron James所待的湖人隊做購買

學到的技能

在這次的project裡, 我個人學到了automated feature engineering ,automated feature selection 和最後我會再開一篇介紹 automated hyperparameter tuning, 我還學到了如何將一個完整的project透過文章的方式發表出來,相信我,如果你也是想從事資料科學相關工作的話,將自己會的分享出來吧,在分享的過程中,你也會了解到其實你很多的觀念你也是只有知道皮毛, 你為了想更了解這些觀念因為你要想打文章給很多人看,你就會花時間去研讀不同的paper和書,所以,這就是我所獲得的龐大收穫

結論

我之後會將代碼上傳到我的個人github, 一樣,歡迎你寄email來跟我討論我,我的email是jacky308082@gmail.com

Lebron個人數據對球隊勝場數的影響(Final)

學到的技能

結論

Written by yuwei