[PyLadies] 場邊側寫:資料視覺化Workshop — 用圖表說出好故事
Published in
6 min readMay 26, 2018
2018–05–25 是與 AIC 合作的「Python 資料視覺化應用」系列的最後一堂,
系列課程剛開始由 米卡 介紹Python基本語法,
然後是 Ichi 帶領大家,從探討許多視覺化案例、
該如何挑選各式各樣的圖表類型,來呈現自己的資料、
以Python配合Matplotlib、Seaborn、Bokeh、Plotly套件實作視覺化、
到在Redash串連各種資料源即產生圖表。
而最後的活動是分組Workshop:
研究從資料找出有趣的故事並以圖片搭配解說
[第1組] 鐵達尼號 (Data Source)
這組從討論開始每階段進度都很快,
主要是以PlotDB作圖,最後也產生了好多張圖表,敘述了精彩的故事:
- 很特別先利用稱謂(Mr., Miss, …) 來區分存活率,而後才直接用性別來分析,皆是男性的死亡率都比女性高
- 以年紀區分,嬰兒存活率很高,但離奇的是反倒青年、學生比成人還要低
- 艙等越高,存活率越高
以上三點基本上驗證了當年船長下令的逃生順序:
婦女>小孩>頭等艙男性>二等艙男性>三等艙男性
後續更進一步探討在其他變數影響下,嬰兒存活率的變化
- 艙等越高,不影響嬰兒存活率
- 嬰兒存活率,女稍高於男(這在華人社會一定相反xDD
- 有攜家帶眷的存活率高,但帶了太多反倒存活率會降低
(難怪電影會有演偷抱別人小孩搶上救生船的片段
[第2組] Hacker Rank (Data Source)
這組也算很快就開始討論,殊不知遇到不少狀況xDDD:本來想探討台灣的自學程式狀況,但發現資料量太少,只好轉研究印度,又因資料筆數過多,無法順利以PlotDB開啟,改以R做圖。
雖然花了不少時間,但也發現很特別的故事:
- 印度的自學程式性別比嚴重失衡,
但很幸運的在某些年齡層女還是有稍高於男 - 30歲後的印度人幾乎沒有人嘗試開始學習程式!
[第3組] 神奇寶貝 (Data Source)
這組雖然在剛開始討論的時候,都是各自為政,也摸索了一段時間找交集,但後來一個Moment,就進入了密集討論模式,先後嘗試了PlotDB,後來主要以Seaborn做圖,最後的發表,更是細心的先介紹資料有哪些內容,敘述的故事也非常精彩:
著重在Generation(不同世代的神奇寶貝),
想知道最新一代的Pokemon是否能力有比較強:
- HP(血量) 平均起來有比較強
- Defence(防禦力)、Attack (攻擊力)、Total (總體素質)
其實差不多,但新一代比較集中
最後更說道,覺得一切因該都是廠商的陰謀:
血量是最明顯的數字,故意在新一代調比較高,讓小朋友覺得好像很厲害,也比較不容易被打死,但其實不見得強 (◣∀◢)ψ
課程投影片與資源:
- 2018–05–04 投影片 https://imatcha.github.io/PyLadies/DV_Day1_PyBasic_20180504.html
- 2018–05-11 投影片
https://docs.google.com/presentation/d/1s_O_pRD2kjpFMaRDbM6v25eYU1HmMTwnjpcrwCEER5g/edit#slide=id.g38500ce0e8_0_324 - 2018–05–18 投影片
https://docs.google.com/presentation/d/1j--dKdexmcxnXmCOJ5nX3lYqClNZ2eK9xNfMxNg5bRc - 2018–05–18 Azure Notebooks
https://notebooks.azure.com/tsaiichi/libraries/ichi-datavis-2018 - 2018–05–18 3D 資料視覺化
https://medium.com/@ichitsai/vis-plot-ly-offline-python-%E8%B3%87%E6%96%99%E8%A6%96%E8%A6%BA%E5%8C%96-f4b540c130f8 - 2018–05–25 投影片 https://docs.google.com/presentation/d/1xtJRorBNv9VdDrNLgLK0SqjZiuFcsyFubcTDklVF3Hk/
- PlotDB
https://plotdb.com/