如何成為資料分析師:環境設定

將電腦設定到適合寫程式的狀態

Yao-Jen Kuo
數聚點文摘
Published in
8 min readNov 22, 2019

--

It is an unfortunate reality that one of the most frustrating and confusing barriers to working with code is getting your machine properly set up.

Programming Skills for Data Science

TL; DR 摘要

資料分析師習慣以「語言」處理資料科學的相關應用,學習撰寫程式來處理資料科學的相關應用成為了不可或缺的技能;我們可以透過安裝文字編輯器、直譯器、編譯器與整合開發環境等軟體將電腦設定到適合寫程式的狀態。

如果您或者身邊的友人對「如何成為資料分析師」感興趣,現在就前往好學校加入「如何成為資料分析師:從問題解決到行動方案」!

環境設定的兩個要素

在「資料分析師」這個職稱誕生以前,於公司組織中擔任類似角色的職稱可能被稱作「商業分析師」,兩者在資料科學蓬勃發展並且為人津津樂道之前其實並不具有鮮明的區隔,不過在現代團隊組成中大概就是差別在擅長使用的分析工具:

  • 商業分析師以「圖形使用者介面」處理資料科學的相關應用,像是微軟 Excel、Google 試算表、Tableau、Power BI、SPSS 或者 Weka 等
  • 資料分析師以「語言」處理資料科學的相關應用,像是 SQL、Python、R、Julia、Scala、Matlab 或者 SAS 等

使用「語言」處理應用相對於「圖形使用者介面」的優勢在於彈性、自動化與規模化;劣勢則在於處理即時且特定(ad hoc)需求時可能速度會較慢。因此假使以成為「資料分析師」作目標,勢必得要學習撰寫程式去處理資料科學的相關應用(包含獲取、探索、清理、預測以及溝通等);在學習以前得先暸解我們身邊的電腦是否已經設定至妥當狀態,一般來說適合寫程式的電腦需要具備兩個要素:

  1. 撰寫程式碼的軟體:文字編輯器(Text editor)
  2. 執行程式碼的軟體:依據程式語言的特性稱為直譯器(Interpreter)以及編譯器(Compiler)

另外有一種軟體同時具備撰寫和執行程式碼的功能,它們被稱作整合開發環境(Integrated Development Environment。)我推薦用來撰寫程式碼的文字編輯器有兩個:Visual Studio Code(簡稱 VSCode)與 Notepad++;資料分析師慣常執行程式碼的軟體主要有三個:Bash shell、Python 與 R;而在整合開發環境的選擇則是 Jupyter Notebook 與 RStudio。

--

--