資料分析師技能樹 (1) — 統計圖表
因為我是統計背景,了解的東西偏向統計而非電腦科學。我這篇文章討論的偏向資料分析師,也就是 A 型資料科學家 (analyst),而不是 B 型資料科學家 (builder, data engineer)。
除了產業知識以外,資料分析需要培養通泛的技能。厲害的人才不一定要每個都會。想要進入這塊領域的人,可以擇一或多。
- 策略思考 — 接近有物報告、Ben Evans、Stratechery 的文字分析。重於結合質化的、有現實應用的商業分析或政策評論。
- 量化溝通力 — 製作統計圖表、寫短文,解釋分析結果。不局限於解讀自己的分析,也可以是把別人的分析、現有的技術解釋得更清楚。
- 開發新統計主題/data project — 鳥瞰的發想,設計問題、實驗、研究流程。這部分的技能接近好的研究員或科學家。
- 分析實作(data cleaning/演算法/統計模型) — 不只是概括/方法討論, 而是 actually crunch data、建模型。任何可以放在 github 作為 code sample 的。也不只是統計分析,會跑 t test 建 regression model 就夠,也包括其他 computational task。
- 程式設計 — 學習寫優雅的 code。
以下針對第二點中的製作統計圖表,分享學習資源。
視覺化的統計圖表
視覺化屬於第二項。視覺化部分,我先討論比較極簡的統計圖表,而非酷炫的 infographics。我也跟 illustrator 不熟。
學做好的統計圖表也可分為兩方面,一是抽象的設計原理、二是實作的工具。
設計原理
避免垃圾圖 (chartjunk)。用最少的墨水來顯示最多的資料。- Edward Tufte
William Cleveland http://www.amazon.com/Visualizing-Data-William-S-Cleveland/dp/0963488406
Jefferey Heer
統計圖表工具:
R 與 d3 是主流。我只會 R ,所以就只包括 R 的 ggplot2 的教學資源。
先安裝 R,再安裝 Rstudio ,再安裝 ggplot2 package後,就可以開始做圖了。
初學可參照這堂課程的進度
http://www.r-bloggers.com/statistical-graphics-and-visualization-course-materials/
裡面有 slides, homework code 跟 output 。可以跟著做。
這兩個網站也有入門的 tutorial
http://blog.echen.me/2012/01/17/quick-introduction-to-ggplot2/
http://zevross.com/blog/2014/08/04/beautiful-plotting-in-r-a-ggplot2-cheatsheet-3/#a-default-plot-in-ggplot2
當你熟悉作基本的統計圖表後,如果要更系統、細節了解 ggplot2 ,可以參考 ggplot2 package 作者 Hadley 的書。http://amzn.to/1fZMXVd
或是你也可以就 google 很特定的問題。像是 how to make a boxplot in ggplot2
其他資源:
http://datasciencemasters.org/
這個網站上有整理好的學習資源。有書籍、MOOC、資料科學常用的packages。不只是統計方面,也有數學、程式、電腦科學。語言包括 R 和 Python。