資料前處理 — 資料探索 (EDA)

Chang_Zai_Wang
數據領航員
Published in
9 min readJun 27, 2022

目錄

什麼是 EDA?
EDA 流程
實作 — FIFA World Cup 2022

什麼是 EDA?

Exploratory Data Analysis,探索式資料分析,簡稱 EDA,是在資料前處理中很重要的一環。簡單來說 EDA 就是透過視覺化或統計表格幫助我們認識資料,以利後續整理或更近一步的分析應用,透過 EDA 可以幫助我們了解資料的結構、偵測異常值以及分析欄位的相關性等。除了通過 EDA 認識資料以外,也可能是本身對於資料的樣貌有預先的猜想,而通過 EDA 來驗證這個想像,這樣的過程更能發揮 EDA 的價值,產生對資料的洞見。

如果說 Python 中的 matplotlib, seaborn 是繪圖工具,那麼 EDA 則是要發揮圖表的功能,在適當的時機與不同資料類型間,使用不同的圖表來呈現,才能夠讓人理解。

EDA 的技術雖然不難,卻時常被資料科學新手給忽略,可能由於缺乏對於資料所屬領域的背景知識而不知從何著手,EDA 不僅能認識資料、驗證我們對資料的猜想,還能夠提供更明確的分析方向,所以當不知從何著手時,不仿先學習領域的背景知識吧!

EDA 流程

從我們數據科學領航員先前的文章:資料分析的流程中我們了解到數據分析的流程大致可為:定義問題 > 蒐集資料 > 資料處理 > 資料視覺化 > 資料應用。而這個流程可能不會是一個完全線性的過程,我們會在資料處理資料視覺化的階段交替迭代,EDA 就屬於這樣的過程,透過視覺化觀察資料的樣貌,再進行資料處理。

資料分析的流程,圖片來源:How to ace Exploratory Data Analysis

實作 — FIFA World Cup 2022 隊伍分析

今年11月~12月將在卡達舉辦的世界盃足球賽,接下來的實作使用 Kaggle 上的 FIFA22 遊戲球員資料集來作為示範,讓大家提前預習一下世界盃熱血沸騰的氛圍!

圖片來源:juvefc.com

首先我們要先篩選資料。目前世界盃 32 強的隊伍尚未完全出線,僅有 29 支隊伍出線,所以要先篩選出來自這 29 支隊伍的選手。欄位的部分則直接篩選出後續會使用到的 19 個欄位。最後篩選出的資料包含19個欄位以及來自 27 支隊伍的 12135 名球員,而缺少兩支隊伍球員的原因是在 FIFA22 遊戲中並沒有登陸他們的資料。

觀察整體資料

首先使用 Pandas 的技巧簡單的觀察一下資料的樣貌與基本資訊。

年齡

Idea: 第一個想要觀察的是參賽隊伍的年齡分布狀況。在運動競賽中,體力是影響致勝的要素之一,時常會看到在比賽的後期,因運動員體力衰減影響表現的狀況發生,所以體力愈好的運動員愈能夠穩定的發揮。一般而言平均年齡愈低,體力愈好,在比賽中獲得好成績的機會也就愈高。

先計算各隊伍的平均年齡,挑選最低的三支來觀察分佈情形。

平均年齡最低的三支隊伍

接下來我們可以分別看這三支隊伍的年齡分佈。

首先是荷蘭:

荷蘭年齡分佈

人數最多落在 20–21 歲之間。

比利時:

比利時年齡分佈

人數最多落在 18–19 左右,相當年輕。

丹麥:

丹麥年齡分佈

人數最多落在 19–20 之間。

Insight: 三支隊伍人數最多的年齡區間都很低,都很有機會在今年的世界杯獲得好成績,而其中我覺得比利時在未來的可能性又更大,因為其人數最多的年齡區段竟然是最年輕的18–19歲,表示這群人還有很多機會可以在世界杯展露鋒芒,所以十分看好未來他們的表現。

身價 & 評分

Idea: 球員身價來自於其能力、合約價格與廣告盈利等經過一系列計算而來,基本上球員的身價愈高,表示賽場表現愈好,也愈能吸引觀眾的關注與支持,但也可能發生一些例外,可能是因為廣告的收益太好了導致身價蒸蒸日上;而評分則是由遊戲公司根據球員的歷史數據表現給予的評價,其直接反應了球員的強度。所以球員不僅身價愈高愈厲害,評分也是一個很好的參考指標。

透過長條圖來觀察平均身價。

每支隊伍平均身價

平均身價最高的三支隊伍分別為:葡萄牙西班牙巴西

觀察三支隊伍的身價與評分散佈圖

葡萄牙、西班牙、巴西身價與評分散佈圖

Insight: 比較三張散佈圖,巴西葡萄牙雖然擁有大於90分的球員,但西班牙在評分 80–90 這個區間相較於其他兩支隊伍較為密集,所以巴西葡萄牙更傾向為以單一個人為核心來組織整支隊伍的球隊,尤其巴西更為明顯,因為在巴西隊內該名球員不僅身價最高,且評分也最高;而西班牙則更像是一隻實力平均分散的隊伍,雖然沒有特別突出的頂級球星,但更可能是透過大家團隊合作的力量,來獲取勝利的隊伍。

葡萄牙、西班牙、巴西身價與評分相關係數

而三支隊伍的身價與評分相關係數差不多,呈現中度正相關。

球員位置 & 身價

Idea: 在球類運動中,每位球員在場上的職責都不盡相同,有的負責進攻,有的防守,大家各司其職,才能發揮團隊的力量,進而獲得比賽勝利。而身價雖然可以部份表示球員的能力,但負責不同工作的球員,即便表現都很好,卻有可能身價大不同。一般而言負責組織進攻的球員,身價會比較高,因為比賽是透過組織進攻得分來取的勝利,且在組織進攻的過程中更有可能產生 highlight 吸引更多眼球的關注。那麼我們就來看看剛才的六支隊伍球員位置與平均身價的關係,透過這樣的觀察,可以讓我們了解,隊伍的組成更傾向於哪個面向。

在足球這個項目中,雖然場上是 11 個人在進行比賽,但位置卻超過 25 種,雖然可以很直接的按照主要的站位來分成前鋒、中場、後衛以及守門員四種,然而這樣的分法不夠完美,因為有特定的非前鋒球員會參與進攻的行列,舉例來說:WB, Wing-back 邊翼後衛,顧名思義其就是站在靠近長邊的後衛,他們的工作不僅要防守對方邊鋒的進攻,也會參與進攻將球盤過中場甚至是角落,跑動的距離總長是整個足球場的長度。因此我選擇將球員的位置用其主要的任務進行分類,分為進攻(ATK)、組織(ORG)、防守(DEF)、守門員(GK)四種,觀看這四種任務的球員其平均身價在隊伍的占比為多少。

經過整理資料後繪製出百分比累加長條圖:

Insight: 從各支隊伍側重的面向來看,葡萄牙西班牙傾向進攻,很有可能會看到他們運用強大的進攻火力與華麗的個人技巧,來取得勝利;比利時荷蘭傾向組織,他們可能更擅長透過團隊合作,透過傳導的方式,打出破口,進而取得分數;丹麥最側重防守,或許他們更希望在防守的過程中,找到機會,發起反攻的機會;而巴西則相當平均,這或許不枉費巴西「足球王國」的稱號,期待可以看到他們的球員各司其職,並且互相搭配,甚至展現個人球技,贏得完美比賽。

從位置的角度出發,我們可以發現防守型的球員和守門員,他們的平均身價相對進攻組織而言來的較低,這算是可以預見的情況,因為他們並不是獲得勝利的關鍵,且鏡頭較少,較不容易產生 highlight;但令我意外的是,本以為進攻型的球員他們的平均身價至少會超過 30%,但除了西班牙和葡萄牙以外的四支隊伍,並沒有特別的突出。

經過了一系列的 EDA 後我想和大家分享我最終的看法。在球類賽事上,年輕就是本錢、進攻就是勝利,我想這是大多數人都能認同的邏輯,而這六支隊伍中,符合年輕、進攻強的這個特質那非比利時莫屬了。你可能會反問我,明明西班牙葡萄牙的進攻感覺更厲害呀,為什麼不選他們兩個?原因很簡單,雖然雙牙隊伍進攻火力強,但比利時也僅僅是略遜於一籌,從"球員其平均身價的百分比累積長條圖"來看,比利時進攻球員的身價也有 27% 的占比,僅次於組織,而且擁有更多年輕的新血,從"年齡分布圖"來看,人數最多的區間在 18–19 歲左右,除了年輕體力佳這個因素,擁有的是更久更長遠的未來,所以我十分看好這次世界賽比利時能夠打進四強,也期待他們的表現!

結語

看完這篇文章後是否對 EDA 的內容有更深入的了解呢?除了視覺化以外,更多的是來自視覺化後的洞察。後面的實作與一系列分析,希望也能夠讓各位感到熱血沸騰,等不及要進入世界盃的旋風之中!不過這邊提醒大家看比賽要感性,買運彩要理性,因為大部分隊伍的出戰名單還尚未公布,所以未來還會有很多變數,千萬不要盲目的跟從這次結果。那麼就預祝大家看比賽開心,串關都過關!!

參考資料

教育部補助大專院校STEM領域及女性研發人才培育計畫目標為建構一個「以智慧物聯技術與實務應用為基礎的教育環境和實作場域」,並規劃出符合此STEM教育領域的創新特色課程,以畢業前進入企業實習的方式,讓學生了解相關產業界所面對的問題,再輔以業界實作場域的教育訓練活動,共同帶領學生發展出動手做、判斷與解決問題的相關技能;本計畫也規劃讓學生以專題實作的組隊方式,跟業界協力領導學生對外參與智慧物聯技術的應用競賽,不僅可以累積學生實務開發的能力,更能激發其潛能來幫助企業解決所面臨的難題。

Data Science Meetup 台灣資料科學社群的使命是「為資料科學人士與企業創建經濟機會」。我們相信大數據蘊藏著巨量的信息和價值,如何處理好大數據並發掘其潛藏的商業價值,就要靠資料科學有效的應用。21世紀是資料科學決勝時代,我們社群將為大家提供與資料科學相關的最新技術和資訊實戰攻略,並透過全球業界人士和學者幫助相關職業規劃與挑戰,社群活動包含

  • 台北實體版聚
  • 線上版聚
  • Mentorship Program

歡迎加入我們社團瞭解更多資訊: https://www.facebook.com/groups/datasciencemeetup/

--

--

Chang_Zai_Wang
數據領航員

東吳大學資料科學系|Machine Learning & Deep Learning|喜歡瞭解科技相關的資訊,在學習的路上持續前進~|📩️ Email : xs950179@gmail.com