分析師必學 Python 套件:Pandas

Excel 之外你有更好的選擇!(內附教學投影片)

BooksandCareer
Views from BI & PM
Apr 15, 2020

--

你都怎麼處理巨量資料呢?

淺談 Excel、Power BI、Tableau

在我過去的分析工作中,我們所遇到數據處理都還是使用 Excel 為主。回顧工作介紹可點底下連結:

當時主要是因為大部分要做的分析報告資料量不大、入門協作也簡單,同時也是因為大部分的同事不會 Excel 以外的工具。

然而,遇到巨量資料,達到十幾萬、百萬筆數的資料,導致 Excel 無法讀取、編輯時,我們則會轉而使用 Tableau 或者是 Power BI 這種 BI Tools。

雖然 Power BI 與 Tableau 在編輯或查找 Raw Data 不即 Excel 直觀,但是在面對這種資料量體而言,也是我們僅存的少數選擇了。

不過,相當然爾,這些 BI Tools 也是有所極限。這也是為什麼我到後期更決心要專精 Pandas 的主要原因。

為什麼要學 Python Pandas 套件?

對於需要對巨量資料做分析、處理的分析師而言,BI Tools 往往也只是輔助。不論你是寫 R 還是 Python,資料量體過於龐大時,一定會在讀取就遇到難關,更不用說是接續的清理、分析,又或是視覺化工作。所以,在拿到 Raw Data 的一開始就以程式語言起頭,會讓後面的一切順利許多。

不過,這裡還是要再重申:

每個資料處理工具都有適合的使用場景,因此 Python 也不見得是每個分析報告的最佳解

倘若你的工作只會處理到數百、千筆資料,而且經常需要編輯 Raw Data,那使用 Excel 其實會比 Python Pandas 來得更有效率喔!

Pandas 入門:實務上的常用功能有哪些?

Pandas 的介紹相信大家爬文都能找到,這邊簡單說明:

Pandas 是讓使用者能夠在 Python 建築資料結構(Data Structure)進而做到清理與分析的工具。

--

--