輕鬆學習 R 語言:基礎探索資料分析

以內建繪圖系統 Base Plotting System 作資料視覺化

Yao-Jen Kuo
數聚點文摘
Published in
19 min readMar 13, 2019

--

Photo by Joshua Ness on Unsplash

The simple graph has brought more information to the data analyst’s mind than any other device.

John Tukey

在成功將資料輸入 R 語言開發環境,並成功將載入資料框處理完畢以後之後,下一步要進行的會是探索資料分析(Exploratory Data Analysis,EDA),透過這個步驟可以幫助資料科學團隊暸解資料的外觀、維度以及變數的分佈等資訊,我們可以透過 R 語言的函數與內建繪圖系統:Base Plotting System 來輔助完成探索資料分析的任務。其中常用的內建函數包含像是 nrow()ncol()dim()summary()str()head() 以及 tail()輕鬆學習 R 語言:基礎資料框處理章節中已經有了詳盡介紹與範例。

Base Plotting System

這個章節我們要聚焦的是 Base Plotting System,她是 R 語言內建的繪圖系統,提供系列函數各自負責繪製一種圖形,在檢視之前我們先用以清單羅列這些函數藉此獲得清晰的概觀。

  • hist() :直方圖
  • boxplot() :盒鬚圖
  • plot() :散佈圖
  • plot(..., type = "l") :線圖
  • curve() :曲線圖
  • barplot() :長條圖

關於示範資料:Gapminder

被 Bill Gates 大力推薦、譽為是他「人生中閱讀過最重要的作品之一,帶領讀者清晰認識世界的指南」,Factfulness 一書是由瑞典 Karolinska 醫學院的國際衛生學教授 Hans Rosling(1948–2017) 所著,Hans Rosling 創辦 Gapminder 基金會,他最著名的 TED Talk: The Best Stats You’ve Ever Seen 被資料科學愛好者奉為視覺化溝通的典範;利用 4 分鐘、使用 1 張互動式圖表、援引超過 12 萬列資料、清晰傳達全世界 200 多個國家、近 200 年的財富及健康演變趨勢。

--

--