Women in Data Science (WiDS)系列工作坊《給初學者的機器學習101》:建立資料科學基礎知識

譚竹雯 Stephanie Tan
Taiwanese in Data Science
5 min readApr 18, 2018

作者 / 譚竹雯

Women in Data Science (WiDS)系列工作坊第一場《給初學者的機器學習101》,聚焦資料科學的概念與資料分析流程,並透過實作示範,由講者Sidney與紹婷帶領台下學員嘗試建立資料分析模型。

什麼是資料科學?

近年,從Google AlphaGo 戰勝世界棋王的新聞,再到 Chatbot 聊天機器人、智慧理專、精準醫療、機器翻譯等技術發展,人工智慧、機器學習等相關消息經常成為媒體注目的焦點。對於初學者來說,第一步在於理解資料科學各領域的差異。

➔ 資料探勘 (Data Mining) :從資料中找出關聯性或特徵,並獲取有用的訊息。

➔ 人工智慧 (Artificial Intelligence) :如何以電腦解決問題,廣義名詞。

➔ 機器學習 (Machine Learning) :實現人工智慧的其中一種方式,透過歷史資料學習找出規則進而預測。

➔ 深度學習 (Deep Learning) :機器學習的一種,電腦可以自行分析資料。

資料科學透過龐大資料尋找隱含其中的洞見,並進一步提供決策者資訊、做出決定。

資料分析流程

機器學習的使用情境,經常是從真實世界裡的疑惑 (real world questions) 開始,當分析人員心中存有疑惑、開始問問題時,便有透過資料分析流程取得解答的想法,進一步取得真實世界解決方式 (real world solutions) 。

資料分析流程概分為三階段:資料整理、建立模型分析,以及機器學習應用。

資料整理階段包含資料搜集、資料整理、資料儲存與資料整合。

資料搜集時,可透過最簡易的下載、他人提供,或是公開資料 (Download / Someone provides it / Open Data) 取得資料,接著是困難程度略高的API (Application Programming Interface)

再到需要自行撰寫程式、爬梳資料的「爬蟲」 (Web Scraping) 。

真實世界中,原始資料的樣貌不一定井然有序,有時可能會有拼字錯誤 (Spelling error) 、資料遺漏 (Missing data) 、資料重複 (Duplication) 、資料類型不連貫 (Inconsistent data types) 等,進而影響到資料分析的結果。因此,在資料分析流程中,資料整理經常是耗費最多時間的階段。

奠基於已整合的資料,接著進一步為資料建立模型並分析。此階段包含探索性數據分析 (Exploratory Data Analysis, EDA) 、視覺化 (Visualization) 與建立模型 (Modeling) 。

EDA的作用在於對資料進行初步分析時,分析人員能先掌握資料的特性,搭配視覺化圖表,援引合適的分析模型。

第三階段機器學習的應用,包含將資料分析結果呈現,以及實踐資料分析的結果。

機器學習的自我修煉

Kaggle實戰練習題目:Titanic: Machine Learning from Disaster https://www.kaggle.com/c/titanic

透過艙等、船票票價、性別、年齡、是否有兄弟姊妹等資料,預測船上人員的存活機率。藉由視覺化呈現資料分析結果,直觀地表達資料背後的意義。

講者建議,對於機器學習的入門者,可透過以下連結,培養初步技能,持續朝機器學習的領域提升自我能力。

步驟一:學習Python 或 R

步驟二:建立機器學習基本知識

步驟三:熟悉工具包

  1. NumPy — — Python 的一個重要模組,支援高階大量的維度陣列與矩陣運算 http://www. numpy.org/
  2. Pandas — — Pandas 提供兩種主要的資料結構,Series 以及 DataFrame,處理時間序列相關資料與結構化資料 http:// pandas.pydata.org/
  3. matplotlib — — 繪圖庫, http:// matplotlib.org/
  4. scikit-learn — — 用於數據分析和數據挖掘人物的機器學習算法 http:// scikit-learn.org/stable /

步驟四:以Python實作簡單機器學習演算法 (k-means, Decision Tree, Linear Regression等)

步驟五:練習實戰題目

步驟六:進階──深度學習

Women in Data Science (WiDS)系列工作坊第二場《第一次用Tensorflow就上手》將介紹開源軟體庫TensorFlow,學習處理感知及語言處理相關的機器學習議題。

--

--

譚竹雯 Stephanie Tan
Taiwanese in Data Science

藉由文字的持續書寫,記錄所看所思,並期許能夠推動一點社會的改變,過無悔的人生。