輕鬆學習 Python：透過操控瀏覽器擷取網站資料

以 selenium 套件實踐網站爬蟲

Yao-Jen Kuo

Published in

數聚點文摘

12 min readApr 28, 2019

The world’s most valuable resource is no longer oil, but data.
The Economist

這個小節延續輕鬆學習 Python：透過 API 擷取網站資料、輕鬆學習 Python：透過解析 HTML 擷取網站資料討論如何使用 Python 從第三種來源：網頁透過 selenium 套件操控瀏覽器來擷取 HTML（全名為 HyperText Markup Language）格式的資料源，selenium 除了具備操控瀏覽器的功能還內建有以 XPath（提供在 XML/HTML 資料中以 XML 節點找尋特定資料位置的定位方法）或 CSS Selector（提供在 HTML 資料中以層疊樣式表找尋特定資料位置的定位方法）為基礎的資料解析函數。

完整的 Jupyter Notebook 內容可以參考：

遭遇到的問題

我們將先前撰寫過的爬蟲程式修飾一番，將擷取 IMDB.com 指定電影的評分（rating）、劇情類型（genre）、上映日期（release date）、海報圖片連結（poster）和演員名單（cast）的程式碼包裝成 get_movie_info(movie_url) 函數，將這五個電影資訊儲存在一個 Python 的 dict 中。

## {'movieRating': 9.2, 'movieReleaseDate': '24 April 2019 (Taiwan)', 'movieGenre': ['Action', 'Adventure', 'Fantasy']…

輕鬆學習 Python：透過操控瀏覽器擷取網站資料

以 selenium 套件實踐網站爬蟲

遭遇到的問題

Written by Yao-Jen Kuo