Pandas 106:文字處理函數

如何處理資料框中的文字欄位

Yao-Jen Kuo
數聚點文摘

--

These are accessed via the str attribute and generally have names matching the equivalent (scalar) built-in string methods.

https://pandas.pydata.org/pandas-docs/stable/

TL; DR 摘要

資料科學團隊選擇 Python 程式語言進行資料科學應用的優勢之一,是處理和操作文字的需求在 Python 內建函數、標準套件組和第三方套件組的強力支援下顯得容易而高效率,包含 restring 等。Pandas 以 Python 處理文字的強項作為基礎,提供了一套完整的向量化文字操作處理方法,並以 str 作為這個系列的方法主要命名,例如我們想要對一串存儲在 Series 中的文字應用和字串內建方法 .upper() 的相同操作時,就呼叫這個 Seriesstr.upper() 方法即可。

## 0           IRON MAN
## 1 CAPTAIN AMERICA
## 2 THE HULK
## 3 THOR
## 4 BLACK WIDOW
## 5 HAWKEYE
## dtype: object

Pandas 的文字處理方法

在 Python 的互動編程環境中創建 Series 後輸入 str 主要命名再按下 tab 鍵,可以獲得 Pandas 的文字處理方法提示。

ser.str.<tab>
獲得 Pandas 的文字處理方法提示

--

--