Pandas 101：資料分析的基石

Python 處理表格式資料的核心套件

Published in

數聚點文摘

12 min readSep 3, 2019

Flexible and powerful data analysis / manipulation library for Python, providing labeled data structures similar to R data.frame objects, statistical functions, and much more.
https://github.com/pandas-dev/pandas

TL; DR 摘要

Pandas 套件是 Python 用來處理表格型態資料的核心套件，利用 DataFrame 類別實踐了資料分析師熟悉的試算表（Excel Spreadsheet）與資料集（Datasets）操作處理；在這個小節中包含了簡介、描述她所因應的痛點以及如何創建Pandas重要的類別：Series 、DataFrame 與 Index 。

關於 Pandas

Python 語言一直都以擅長資料處理著名，在網頁資料擷取與資料庫串接上被資料工程師廣泛使用，但由於欠缺 Excel、R、SAS、SPSS 或 Stata 等普遍具有「列索引」以及「欄標籤」的資料集類別，在資料流程中必須將分析的階段外包給更專精於統計分析的軟體（像是 Excel 與 SPSS）或程式語言（R、SAS 與 Stata）。

Pandas 扮演著 Python 資料科學應用的最後一塊拼圖，她是構建於 NumPy 之上的套件，將 R 語言中廣受歡迎的資料框結構納入，除了儲存異質資料的基礎功能和敘述統計的方法，也提供多數資料庫系統與試算表使用者都熟悉的功能，像是變數選擇、觀測值篩選、資料排序、變數衍生加工、遺漏值處理、分組摘要以及樞紐分析等；Pandas 對表格式資料的支援不但很全面，甚至連基礎輸入輸出和視覺化功能都有涵蓋。

除了廣為人知的 DataFrame 類別，Pandas 亦創建了 Series 與 Panel 兩種類別，其中 Series 是附加標籤的一維陣列，而 Panel 是附加通常表現為時間軸的資料框；事實上 Panel 、DataFrame 與 Series 正是 Pandas 套件命名的緣由，而非與熊貓有著什麼瓜葛。

起步走

執行 Python 的載入指令確認環境中是否安裝了 Pandas 可供使用。

Pandas 101：資料分析的基石

Python 處理表格式資料的核心套件

TL; DR 摘要

關於 Pandas

起步走

Written by Yao-Jen Kuo