如何探索資料:基礎視覺化

利用基礎視覺化探索不同資料型別的特徵

Yao-Jen Kuo
數聚點文摘
Published in
14 min readJul 8, 2018

--

The simple graph has brought more information to the data analyst’s mind than any other device.

John Tukey

暸解如何獲取資料、如何掌控資料之後,接著可以利用視覺化的技能深入探索與查看資料,這樣的技能被資料科學團隊稱為探索性資料分析(Exploratory Data Analysis,EDA)。透過探索性資料分析將會大大加深我們對資料分佈、相關與組成等的理解程度,進而協助資料科學團隊開展出富含價值的資訊,像是:

  • 發想撈取資料(Extract)、資料轉換(Transformation)與資料載入(Load)的流程優化設計
  • 直觀回答業務問題的資料樣態(明顯的趨勢增減、組成比例落差或者絕對數值差距)
  • 建立待驗證的統計檢定假說與機器學習模型預測目標

探索性資料分析包含但不僅限於視覺化,有時候在如何掌控資料:資料框的操作技巧(上)一文中介紹的簡單摘要、分組或者排序,亦能提供對業務有助益的高附加價值資訊。

摘要

本文簡介如何在 Python 與 R 語言使用視覺化套件,探索不同資料型別的特徵,包含視覺化的基本單位速記、一組文字資料的相異觀測值數量、一組數值資料依類別分組摘要排序、一組數值資料的分佈、一組數值資料依類別分組的分佈、兩組數值資料的相關以及數值資料隨著日期時間的變動趨勢。

視覺化的基本單位速記

Python 與 R 語言中常為資料科學團隊採用來進行探索性資料分析的視覺化套件,包括 matplotlib 中的 pyplot 模組、seaborn 模組、pandas 模組、base plotting system 與 ggplot2。不同的視覺化套件在生成圖形的單位上也有所差異,主要分兩類型:

  • 以一維陣列作為圖形的基本單位,像是 Python matplotlib 中的 pyplot 模組、R 語言的 base plotting system
  • 以資料框(DataFrames)作為圖形的基本單位,像是 Python pandas 模組、R 語言的 ggplot2

一組文字資料的相異觀測值數量

長條圖(bar chart)是資料科學團隊慣常用作探索一組文字資料相異觀測值組成與數量排名的圖形,例如想知道 1995 至 1996 年球季中的芝加哥公牛隊球員陣容,各個鋒衛位置的人數,就能用長條圖探索。

--

--