如何掌控資料:資料框的操作技巧(上)

基礎資料框操作技巧

Yao-Jen Kuo
數聚點文摘
Published in
16 min readJun 18, 2018

--

Tidy datasets are all alike, but every messy dataset is messy in its own way.

Hadley Wickham

掌控資料的能力被總稱為 Data Wrangling(或者 Data Munging),這樣的能力建構在對資料結構的理解與資料框的操作技巧;在面對未來的課題,不論是探索性資料分析(Exploratory Data Analysis,EDA)、統計分析、機器學習或者溝通呈現之前,有極大比例的時間花費在清理並重組資料,在如何掌控資料:認識常見的資料結構之中我們簡介了資料科學團隊常面對的資料結構,其中佔有主流地位的是表格式資料(Tabular Data),在 Python 與 R 語言中,都是以資料框(Data Frame)來處理表格式資料。

拜 Excel 試算表廣受歡迎之賜,資料框對我們並不如陣列或者清單那般陌生,這樣的二維資料結構,每列代表一個觀測值,每欄代表一個變數,就像是增強了列索引值與欄索引值的矩陣,並容許每一個欄位(變數)具有自己的型別。

摘要

本文簡介 Python pandas 與 R 語言中的基本資料框操作技巧,包含建立、檢視、篩選、選擇、排序、新增變數、新增觀測值、摘要與分組。

建立

建立資料框的方式有兩個,一為手動輸入資料,二為載入表格式資料(CSV、TXT 或者試算表)。我們可以分別在 Python 與 R 語言中利用 pandas.DataFrame()data.frame() 函數手動輸入資料框的資料。

手動輸入一個 1995 至 1996 年球季芝加哥公牛隊先發陣容的資料框,這是一個 5 x 2 的資料框,紀錄五個先發球員的背號與姓名。

--

--