如何掌控資料:認識常見的資料結構
探索陣列、向量、矩陣、張量、資料框以及清單的化零為整與化整為零
Published in
18 min readJun 10, 2018
Tidy datasets are all alike, but every messy dataset is messy in its own way.
Hadley Wickham
透過一系列如何獲取資料(包含載入常見檔案格式、向資料庫查詢、擷取網頁內容(上)以及擷取網頁內容(下))文章的探討之後,我們已經暸解如何將常見的三個資料來源載入分析環境 Python 與 R 語言,接著要面對的課題是以適當的結構處理來源資料與轉換資料樣式,這兩類型的課題被總稱為 Data Wrangling(或者 Data Munging),Wrangling 或者 Munging 這兩個難以翻譯的動詞,傳達之意義就是掌控資料的能力,而掌控資料的能力建構在對資料結構的理解程度與操控資料框的技巧。
摘要
本文簡介 Python 與 R 語言中常見的陣列、向量、矩陣、張量、資料框與清單,並依照資料結構特性適時探索如何應用化零為整(建立資料結構)、化整為零(選擇資料結構中的元素)、更新、刪除與迭代等操作技巧。
陣列
在科學計算中的運算單位往往不是單一數值(純量)而是一組數值,資料科學的陣列應用通常具備幾個特性:
- 可以進行元素級別運算(element-wise operation)
- 能夠不規則地選擇片段(slicing)
- 能夠以判斷條件篩選
- 僅容納單一型別
使用 Python 的 numpy.array()
方法與 R 語言的 c()
函數是最簡單建立陣列的方法,首先在終端機安裝 numpy 模組。
接著建立一個陣列,包含 11, 12, 13, 14, 15 這五個數字。