Pandas 101:資料分析的基石
Python 處理表格式資料的核心套件
Flexible and powerful data analysis / manipulation library for Python, providing labeled data structures similar to R data.frame objects, statistical functions, and much more.
TL; DR 摘要
Pandas 套件是 Python 用來處理表格型態資料的核心套件,利用 DataFrame
類別實踐了資料分析師熟悉的試算表(Excel Spreadsheet)與資料集(Datasets)操作處理;在這個小節中包含了簡介、描述她所因應的痛點以及如何創建Pandas重要的類別:Series
、DataFrame
與 Index
。
關於 Pandas
Python 語言一直都以擅長資料處理著名,在網頁資料擷取與資料庫串接上被資料工程師廣泛使用,但由於欠缺 Excel、R、SAS、SPSS 或 Stata 等普遍具有「列索引」以及「欄標籤」的資料集類別,在資料流程中必須將分析的階段外包給更專精於統計分析的軟體(像是 Excel 與 SPSS)或程式語言(R、SAS 與 Stata)。
Pandas 扮演著 Python 資料科學應用的最後一塊拼圖,她是構建於 NumPy 之上的套件,將 R 語言中廣受歡迎的資料框結構納入,除了儲存異質資料的基礎功能和敘述統計的方法,也提供多數資料庫系統與試算表使用者都熟悉的功能,像是變數選擇、觀測值篩選、資料排序、變數衍生加工、遺漏值處理、分組摘要以及樞紐分析等;Pandas 對表格式資料的支援不但很全面,甚至連基礎輸入輸出和視覺化功能都有涵蓋。
除了廣為人知的 DataFrame
類別,Pandas 亦創建了 Series
與 Panel
兩種類別,其中 Series
是附加標籤的一維陣列,而 Panel
是附加通常表現為時間軸的資料框;事實上 Panel
、DataFrame
與 Series
正是 Pandas 套件命名的緣由,而非與熊貓有著什麼瓜葛。
起步走
執行 Python 的載入指令確認環境中是否安裝了 Pandas 可供使用。