如何獲取資料:載入常見檔案格式
CSV、TXT、Excel 試算表與 JSON
The world’s most valuable resource is no longer oil, but data.
The Economist — May 6th, 2017
獲取資料在資料科學專案中扮演發起點,如果這個資料科學專案目的是協助我們制定資料驅動的策略(data-driven strategy),而非倚賴直覺,那麼為專案細心盤點資料來源與整理獲取方法,可以為將來的決策奠基穩固的基礎。資料常見的來源包含三種:
- 檔案
- 資料庫
- 網頁資料擷取
摘要
本文專注在檔案這個類型,簡介如何將四種常見的檔案格式:CSV、TXT、Excel 試算表與 JSON 載入 Python 與 R 語言,Python 我們會應用 pandas、requests 與 json 等模組,R 語言我們則應用內建函數、readxl 與 jsonlite 等套件;文章所有的程式與資料都可以在這個 GitHub Repository 找到。
文字編輯器
在四種常見檔案格式中,除了 Excel 試算表,CSV、TXT 與 JSON 其實就是副檔名分別為 .csv、.txt 與 .json 的純文字檔案,在個人電腦中可以使用任意文字編輯器開啟以便檢視,通常系統內建的文字編輯器(例如筆記本)由於功能陽春不太推薦使用,較常被推薦適合一般使用者的文字編輯器有:
通常我們會使用文字編輯器開啟檢視預計要載入的純文字檔案,觀察是否具有變數名稱(header)或是分隔符號(separator)等注意事項。
檔案:CSV
副檔名為 .csv 純文字檔案指的是逗號分隔資料(comma separated values),如果我們將 1995 至 1996 年的芝加哥公牛隊球員名單與一些基本資訊以 CSV 檔案儲存,外觀長得像這樣: