輕鬆學習 R 語言:基礎探索資料分析
以內建繪圖系統 Base Plotting System 作資料視覺化
The simple graph has brought more information to the data analyst’s mind than any other device.
John Tukey
在成功將資料輸入 R 語言開發環境,並成功將載入資料框處理完畢以後之後,下一步要進行的會是探索資料分析(Exploratory Data Analysis,EDA),透過這個步驟可以幫助資料科學團隊暸解資料的外觀、維度以及變數的分佈等資訊,我們可以透過 R 語言的函數與內建繪圖系統:Base Plotting System 來輔助完成探索資料分析的任務。其中常用的內建函數包含像是 nrow()
、 ncol()
、 dim()
、 summary()
、 str()
、 head()
以及 tail()
在輕鬆學習 R 語言:基礎資料框處理章節中已經有了詳盡介紹與範例。
Base Plotting System
這個章節我們要聚焦的是 Base Plotting System,她是 R 語言內建的繪圖系統,提供系列函數各自負責繪製一種圖形,在檢視之前我們先用以清單羅列這些函數藉此獲得清晰的概觀。
hist()
:直方圖boxplot()
:盒鬚圖plot()
:散佈圖plot(..., type = "l")
:線圖curve()
:曲線圖barplot()
:長條圖
關於示範資料:Gapminder
被 Bill Gates 大力推薦、譽為是他「人生中閱讀過最重要的作品之一,帶領讀者清晰認識世界的指南」,Factfulness 一書是由瑞典 Karolinska 醫學院的國際衛生學教授 Hans Rosling(1948–2017) 所著,Hans Rosling 創辦 Gapminder 基金會,他最著名的 TED Talk: The Best Stats You’ve Ever Seen 被資料科學愛好者奉為視覺化溝通的典範;利用 4 分鐘、使用 1 張互動式圖表、援引超過 12 萬列資料、清晰傳達全世界 200 多個國家、近 200 年的財富及健康演變趨勢。