[資料分析&機器學習] 第2.1講: 如何獲取資料? Sklearn內建資料集

Yeh James
JamesLearningNote
Published in
6 min readSep 22, 2017

接下來一系列的文章我們會開始說明要如何在Jupyter notebook裡面做簡單的資料分析。

分為:

第2.1講: 如何獲取資料? Sklearn內建資料集

第2.2講: 如何獲取資料? Google Map API

第2.3講:Pandas 基本function介紹(Series, DataFrame, Selection, Grouping)

第2.4講:資料前處理(Missing data, One-hot encoding, Feature Scaling)

第2.5講:資料視覺化(Matplotlib, Seaborn, Plotly)

如果你是一個完全的新手,你一開始可能不知道要去哪裡拿資料來做分析,有許多的第三方網站會提供許多資料,比如說像是先前提到的Kaggle Dataset

Kaggle資料集網頁

裡面提供許多已經整理好的資料集,讓資料科學家可以不需要花太多時間去做資料的前處理才開始分析,包含像是電影資訊的資料集、歐洲足球比賽的資料、信用卡盜刷偵測、人力資源分析資料等等、Iris資料集(未來的課程都會以Iris dataset作為示範)…這些資料都是非常具有高度分析價值的,而且也可以在上面跟其他的資料科學家做交流以及分享。

Kaggle 資料集種類

或是使用scikit-learn內建的資料,scikit-learn 內建的資料集用起來非常簡單,只要一行指令就可以載入資料,scikit-learn 提供的dataset可點此參考sklearn-datasets

SkiKit-learn套件所提供的dataset

以Iris dataset為例,鳶尾花資料集是非常著名的生物資訊資料集之一,取自美國加州大學歐文分校的機器學習資料庫http://archive.ics.uci.edu/ml/datasets/Iris,資料的筆數為150筆,共有五個欄位:
1. 花萼長度(Sepal Length):計算單位是公分。
2. 花萼寬度(Sepal Width):計算單位是公分。
3. 花瓣長度(Petal Length) :計算單位是公分。
4. 花瓣寬度(Petal Width):計算單位是公分。
5. 類別(Class):可分為Setosa,Versicolor和Virginica三個品種。

Iris 資料集算是最入門的機器學習演算法資料,透過花瓣以及花萼的長與寬來預測是屬於哪一種類的Iris花(Setosa, Virginica, Versicolour),因為特徵數目不多,只有四個,並且類別項目只有三個,因此對於初學者來說非常好理解。若要載入Iris 資料集只要import sklearn的datasets之後,使用load_iris()就可以獲得資料,回傳的資料格式為dictionary,因此需要做一些資料處理才能變為表格的形式,在python只要有關表格的處理主要都使用pandas為主。

發現iris的資料為dictionary的格式

首先將dictionary將key印出來發現有data, target, target name, DESCR, feature_names

先將資料一一列印出來看看裡面是什麼,會發現DESCR為該資料的描述文字

Iris資料集的information

發現data就是資料內容,feature_names就是欄位名稱,不過目前的資料都是arrary或是list的type,可輸入type(變數)來check 是何種type

由於二維陣列對於初學者來說較不好直接使用,因此先用pandas將資料變成表格的形式

由於原始資料是將類別的結果分開存放,因此針對類別的結果再做一次相同的處理

將資料以及結果(通常會稱為x, y或是feature, target)合併起來,使用pandas的concat函數即可,axis則是指合併的方向,因於採用左右合併因此參數設為1即可,若是垂直合併則設為0

這樣我們就拿到第一筆的分析資料了!

程式碼:

感謝你閱讀完這篇文章,如果你覺得這些文章對你有幫助請在底下幫我拍個手(長按最多可以拍50下手)。

[Python資料分析&機器學習]這系列文章是我在Hahow上面所開設課程的講義,如果你是新手想著看影片一步一步學習,可以參考這門課:https://hahow.in/cr/pydataml

如果你對什麼主題的文章有興趣的話,歡迎透過這個連結告訴我:https://yehjames.typeform.com/to/XIIVQC
有任何問題也歡迎在底下留言或是來信告訴我: yehjames23@gmail.com

參考閱讀:

  1. R統計分析與資料探勘入門 — 以鳶尾花資料集為例
    http://www.cc.ntu.edu.tw/chinese/epaper/0031/20141220_3105.html

--

--