如何掌控資料:關於文字

在 Python 與 R 語言處理文字

Yao-Jen Kuo
數聚點文摘
Published in
14 min readJul 1, 2018

--

Tidy datasets are all alike, but every messy dataset is messy in its own way.

Hadley Wickham

學習程式語言的第一個章節通常是認識變數型別,這個名詞聽起來陌生,簡單的想法是將它視為一種純量(scalar)的資料樣式,如果匯集了多個純量就能夠組合成為我們先前在如何掌控資料:認識常見的資料結構中所介紹的各種資料結構;不論是寫作 Python、R 語言或其他程式語言,或多或少都必須要暸解三個大類:

  • 數值:可再細分為整數、浮點數或複數等的值
  • 文字:以單引號或雙引號包括起來的值
  • 布林:僅包含真、假判斷的二元值

對多數資料科學團隊來說面對以及處理文字是工作中非常重要的一環,因為不論是清理從網路上擷取而得的資料(從 html 擷取的資料都為文字)、合併從資料庫查詢所得的表格或者整備要進行探勘的文本,我們處理許多包含文字的資料結構。

摘要

本文簡介在 Python 與 R 語言中如何處理文字,包含建立、量測長度、調整大小寫、去除多餘空格、格式化輸出、擷取部分文字、轉換為日期時間格式、根據特徵分隔、判斷特徵存在與否及存在位置、根據特徵取代、正規表達特徵以及應用文字處理函數至陣列上。

建立

使用單引號或雙引號將值包括起來,不論是在引號中放置數值、文字或者布林,都會以文字型別儲存。在 Python 文字的型別稱為 str ,是 string 的簡寫。

## <class 'str'>
## <class 'str'>
## <class 'str'>

在 R 語言文字的型別稱為 character

--

--