資料分析師技能樹 (1) — 統計圖表

因為我是統計背景,了解的東西偏向統計而非電腦科學。我這篇文章討論的偏向資料分析師,也就是 A 型資料科學家 (analyst),而不是 B 型資料科學家 (builder, data engineer)。

除了產業知識以外,資料分析需要培養通泛的技能。厲害的人才不一定要每個都會。想要進入這塊領域的人,可以擇一或多。

  1. 策略思考 — 接近有物報告、Ben Evans、Stratechery 的文字分析。重於結合質化的、有現實應用的商業分析或政策評論。
  2. 量化溝通力 — 製作統計圖表、寫短文,解釋分析結果。不局限於解讀自己的分析,也可以是把別人的分析、現有的技術解釋得更清楚。
  3. 開發新統計主題/data project — 鳥瞰的發想,設計問題、實驗、研究流程。這部分的技能接近好的研究員或科學家。
  4. 分析實作(data cleaning/演算法/統計模型) — 不只是概括/方法討論, 而是 actually crunch data、建模型。任何可以放在 github 作為 code sample 的。也不只是統計分析,會跑 t test 建 regression model 就夠,也包括其他 computational task。
  5. 程式設計 — 學習寫優雅的 code。

以下針對第二點中的製作統計圖表,分享學習資源。

視覺化的統計圖表

視覺化屬於第二項。視覺化部分,我先討論比較極簡的統計圖表,而非酷炫的 infographics。我也跟 illustrator 不熟。

學做好的統計圖表也可分為兩方面,一是抽象的設計原理、二是實作的工具。

設計原理

避免垃圾圖 (chartjunk)。用最少的墨水來顯示最多的資料。- Edward Tufte

William Cleveland http://www.amazon.com/Visualizing-Data-William-S-Cleveland/dp/0963488406

Jefferey Heer

統計圖表工具:

R 與 d3 是主流。我只會 R ,所以就只包括 R 的 ggplot2 的教學資源。

先安裝 R,再安裝 Rstudio ,再安裝 ggplot2 package後,就可以開始做圖了。

初學可參照這堂課程的進度

http://www.r-bloggers.com/statistical-graphics-and-visualization-course-materials/

裡面有 slides, homework code 跟 output 。可以跟著做。

這兩個網站也有入門的 tutorial

http://blog.echen.me/2012/01/17/quick-introduction-to-ggplot2/

http://zevross.com/blog/2014/08/04/beautiful-plotting-in-r-a-ggplot2-cheatsheet-3/#a-default-plot-in-ggplot2

當你熟悉作基本的統計圖表後,如果要更系統、細節了解 ggplot2 ,可以參考 ggplot2 package 作者 Hadley 的書。http://amzn.to/1fZMXVd

或是你也可以就 google 很特定的問題。像是 how to make a boxplot in ggplot2

其他資源:

http://datasciencemasters.org/

這個網站上有整理好的學習資源。有書籍、MOOC、資料科學常用的packages。不只是統計方面,也有數學、程式、電腦科學。語言包括 R 和 Python。