Pandas 101:資料分析的基石

Python 處理表格式資料的核心套件

Yao-Jen Kuo
數聚點文摘

--

Flexible and powerful data analysis / manipulation library for Python, providing labeled data structures similar to R data.frame objects, statistical functions, and much more.

https://github.com/pandas-dev/pandas

TL; DR 摘要

Pandas 套件是 Python 用來處理表格型態資料的核心套件,利用 DataFrame 類別實踐了資料分析師熟悉的試算表(Excel Spreadsheet)與資料集(Datasets)操作處理;在這個小節中包含了簡介、描述她所因應的痛點以及如何創建Pandas重要的類別:SeriesDataFrameIndex

關於 Pandas

Python 語言一直都以擅長資料處理著名,在網頁資料擷取與資料庫串接上被資料工程師廣泛使用,但由於欠缺 Excel、R、SAS、SPSS 或 Stata 等普遍具有「列索引」以及「欄標籤」的資料集類別,在資料流程中必須將分析的階段外包給更專精於統計分析的軟體(像是 Excel 與 SPSS)或程式語言(R、SAS 與 Stata)。

Pandas 扮演著 Python 資料科學應用的最後一塊拼圖,她是構建於 NumPy 之上的套件,將 R 語言中廣受歡迎的資料框結構納入,除了儲存異質資料的基礎功能和敘述統計的方法,也提供多數資料庫系統與試算表使用者都熟悉的功能,像是變數選擇、觀測值篩選、資料排序、變數衍生加工、遺漏值處理、分組摘要以及樞紐分析等;Pandas 對表格式資料的支援不但很全面,甚至連基礎輸入輸出和視覺化功能都有涵蓋。

除了廣為人知的 DataFrame 類別,Pandas 亦創建了 SeriesPanel 兩種類別,其中 Series 是附加標籤的一維陣列,而 Panel 是附加通常表現為時間軸的資料框;事實上 PanelDataFrameSeries 正是 Pandas 套件命名的緣由,而非與熊貓有著什麼瓜葛。

起步走

執行 Python 的載入指令確認環境中是否安裝了 Pandas 可供使用。

--

--