資料科學入門工具大補帖!

Vickie Chu
Taiwanese in Data Science
5 min readJul 22, 2020

文/Y.C. Chen、Vickie Chu

「資料科學家」在2012年,被知名的哈佛商業周刊譽為「二十一世紀最性感的工作」,爆紅後,市場上數以萬計的和「資料科學」相關職缺需求大增,迅速成為當今最火紅的職業。

source: Luke Chesser/Unsplash

以下內容集結了 TWiDS 志工群們的實戰經驗,整理資料科學常用的工具與技能,希望藉由提供初心者必備工具,協助初入「資料科學領域」的新鮮人。

內容將不定期更新,也歡迎大家互相交流。

1.資料平台介紹

前期因為與各大公司合作舉辦資料科學競賽,並且提供高額的競賽獎金而出名,在2017年時被Google收購,這平台有很多適合初學者學習的資料集可以使用,也有許多熱心的網友在平台的討論區寫下解題技巧。

依據行政院為提倡施政透明,以及提升民眾參與公共政策議題的風氣,政府期待與民間組織的合作,減少民眾與政府間的資訊落差,產生加值的效益為公務機關應用,提升政府治理能力。

2018年Google所建立資料系統,期待有更多熱愛資料科學的同好,應用此系統發揮更大的影響力,有助於推動資料科學產業的發展。

為學術界常用於機器學習的標準資料集,由加州大學爾灣分校(University of California Irvine)所管理,資料科學研究者新編的機器學習程式,可透用採用UCI資料集進行測試,與類似的機器學習程式一較高下。

2. 分析工具應用

為實務界最基礎的分析工具,早期的資料分析工作者常使用 Excel作為資料分析、提供資料等用途,現在仍然被廣泛使用在工作實務上,建議資料科學的初學者,可以了解一下 Excel 的操作,訓練邏輯思維,像是建立函式、圖表篩選、樞紐分析…等功能。

是免費開源的程式語言,作為開發統計、資料分析的應用工具,R的特點是擁有強大的繪圖功能,以及擁有許多物件導向的Packages可以使用,常用於概率估計、迴歸分析、資料探勘等領域。

業界資料分析常用基本套件如下:dplyr: 常用於處理基本的資料運作功能,像是選擇、排序、新增資料,或是將資料進行分組作業,使得處理資料篩選的流程變得更簡單。tidyr: 常用於處理表格資料,可以快速串接、分割或合併資料集,促使資料前置作業處理流程更順暢。data.table: 為二維數據結構,可透過類別變數進行資料新增、修改、刪除、合併等資料整合作業,且能快速處理大量資料。ggplot2: 提供豐富的繪圖的功能,是開發者進行資料視覺化時的好幫手,是 R 語言中非常受歡迎的套件。

屬於通用行程式語言,支援多種編程情境,例如: 物件導向、命令式、函數式與程序式編程,因 Python 語言強調對程式語句易讀、易懂、易學的簡潔語法,可加快程式開發的時效,受到很多開發者喜愛,業界實務上的應用情境與 R 相比也較廣泛。

業界資料分析常用基本套件如下:numpy: 著重在數值計算,提供高效能矩陣運算。多數 python 資料科學相關套件都是基於numpy,因此學會numpy是基本中的基本。pandas: 基於 numpy 衍生出來分析結構化資料的工具,也具備資料清理的功能,相比於傳統 excel,能以更有效率的方式處理更大量的資料,主要資料結構為 DataFrame, Series。matplotlib: numpy 在視覺化衍生出來的套件,是 python當中用來繪圖、圖表呈現及數據表示非常常用的套件。seaborn: 在 matplotlib 上衍生出來的高級繪圖工具,使繪圖更佳容易。seaborn 包含了絕大多數視覺化所需要的圖表,而 matplotlib 相對於 seaborn 則更能夠客製化圖表。

全名是Structured Query Language直譯為結構化查詢語言,這是一個資料庫程式查詢設計的語言,實務業界常使用這類系統管理、儲存龐大的資料量,並架設一套屬於組織內的關聯式資料庫,建議所有的資料科學初學者,一定要了解 SQL的基礎知識,會對後續資料分析的學習很有幫助。市面上有不少供應商提供SQL的服務,常聽到的資料庫有: ORACLE、SQL Server、MySQL、PostgreSQL、MongoDB等。

是微軟Office 365提供的服務之一,作為視覺化報表的工具,常被應用於分享數據分析、資料洞察的平台,其軟體可連接數以百計的資料來源,可簡化資料工作者前期的資料準備作業流程。

為專門提供資料視覺化的軟體服務,主要業務有三大項服務 Tableau Desktop、Tableau Server、Tableau Prep 提供從資料前置作業、數據分析、開發報表等一條龍的服務,不過完整的功能需付費使用,另外Tableau公司也有提供簡單版(免費)的平台Tableau Public提供初期開發者試用,不妨可以下載來玩玩看。

3. 其他相關工具

為分散式版本控制軟體。隨著資料科學領域越來越成熟,難免在分析資料的時候需要跟他人一起合作,透過程式與他人合作時就會需要做版本控制,記錄檔案編輯的時間、版本、異動內容,方便團隊開發的專案進行共同開發。因此熟悉基本 git 指令也是必須的。

以 Git 為核心技術基礎的「雲端版本控制服務平台」,類似的平台如 gitlab、bitbucket。github 是目前全球最大的 Git Server,適合拿來放共同開發的原始程式碼或是一些作品集。另外也可以透過其平台與其他厲害的分析師和開發者交朋友。

內容將不定期更新,也歡迎大家互相交流。

如果喜歡這篇文章,可以幫我們拍手 👏 👏👏 50下,並且follow我們的最新文章,支持我們繼續努力! (找找左側或左下角 “拍手符號👏”,長按可以連拍50下喔)

--

--