[PyLadies] 場邊側寫:資料視覺化Workshop — 用圖表說出好故事

Mars Weng
PyLadies Taiwan
Published in
6 min readMay 26, 2018

2018–05–25 是與 AIC 合作的「Python 資料視覺化應用」系列的最後一堂,
系列課程剛開始由 米卡 介紹Python基本語法,
然後是 Ichi 帶領大家,從探討許多視覺化案例、
該如何挑選各式各樣的圖表類型,來呈現自己的資料、
以Python配合Matplotlib、Seaborn、Bokeh、Plotly套件實作視覺化、
到在Redash串連各種資料源即產生圖表。

而最後的活動是分組Workshop:
研究從資料找出有趣的故事並以圖片搭配解說

[第1組] 鐵達尼號 (Data Source)

這組從討論開始每階段進度都很快,
主要是以PlotDB作圖,最後也產生了好多張圖表,敘述了精彩的故事:

雖然座位不是在搖滾區,但討論異常熱烈!
  1. 很特別先利用稱謂(Mr., Miss, …) 來區分存活率,而後才直接用性別來分析,皆是男性的死亡率都比女性高
  2. 以年紀區分,嬰兒存活率很高,但離奇的是反倒青年、學生比成人還要低
  3. 艙等越高,存活率越高
    以上三點基本上驗證了當年船長下令的逃生順序:
    婦女>小孩>頭等艙男性>二等艙男性>三等艙男性
(左)名字中有Mr.稱謂的,死亡率很高 |(右)各年齡層的死亡與存活數量

後續更進一步探討在其他變數影響下,嬰兒存活率的變化

  1. 艙等越高,不影響嬰兒存活率
  2. 嬰兒存活率,女稍高於男(這在華人社會一定相反xDD
  3. 有攜家帶眷的存活率高,但帶了太多反倒存活率會降低
    (難怪電影會有演偷抱別人小孩搶上救生船的片段
(左)頭等艙與三等艙嬰兒存活率差不多|(右)有家眷可增加存活率,但帶太多就不是這麼回事了xDD

[第2組] Hacker Rank (Data Source)

這組也算很快就開始討論,殊不知遇到不少狀況xDDD:本來想探討台灣的自學程式狀況,但發現資料量太少,只好轉研究印度,又因資料筆數過多,無法順利以PlotDB開啟,改以R做圖。
雖然花了不少時間,但也發現很特別的故事:

  1. 印度的自學程式性別比嚴重失衡,
    但很幸運的在某些年齡層女還是有稍高於男
  2. 30歲後的印度人幾乎沒有人嘗試開始學習程式!

[第3組] 神奇寶貝 (Data Source)

這組雖然在剛開始討論的時候,都是各自為政,也摸索了一段時間找交集,但後來一個Moment,就進入了密集討論模式,先後嘗試了PlotDB,後來主要以Seaborn做圖,最後的發表,更是細心的先介紹資料有哪些內容,敘述的故事也非常精彩:

著重在Generation(不同世代的神奇寶貝),
想知道最新一代的Pokemon是否能力有比較強:

  1. HP(血量) 平均起來有比較強
  2. Defence(防禦力)、Attack (攻擊力)、Total (總體素質)
    其實差不多,但新一代比較集中
左上、右上、左下、右下 分別是血量、防禦、攻擊、總體的數值分析圖表

最後更說道,覺得一切因該都是廠商的陰謀:
血量是最明顯的數字,故意在新一代調比較高,讓小朋友覺得好像很厲害,也比較不容易被打死,但其實不見得強 (◣∀◢)ψ

--

--