如何獲取資料:擷取網頁內容(上)

Python 使用 pyquery、R 語言使用 rvest

Yao-Jen Kuo
數聚點文摘
Published in
14 min readJun 2, 2018

--

The world’s most valuable resource is no longer oil, but data.
The Economist — May 6th, 2017

摘要

如何獲取資料:載入常見檔案格式一文中我們提過資料常見的來源包含三種:檔案、資料庫與網頁,該文簡介了如何將第一種來源中常見的檔案 CSV、TXT、Excel 試算表與 JSON 載入 Python 與 R 語言;而如何獲取資料:向資料庫查詢一文簡介從 Python 與 R 語言向第二種來源 SQL 或 NoSQL 雲端資料庫服務查詢;接著我們要討論第三種資料來源:網頁,從網頁擷取資料的方法另外一個更為眾人耳熟能詳的名稱即是爬蟲

--

--