輕鬆學習 Python:透過操控瀏覽器擷取網站資料

以 selenium 套件實踐網站爬蟲

Yao-Jen Kuo
數聚點文摘

--

The world’s most valuable resource is no longer oil, but data.

The Economist

這個小節延續輕鬆學習 Python:透過 API 擷取網站資料輕鬆學習 Python:透過解析 HTML 擷取網站資料討論如何使用 Python 從第三種來源:網頁透過 selenium 套件操控瀏覽器來擷取 HTML(全名為 HyperText Markup Language)格式的資料源,selenium 除了具備操控瀏覽器的功能還內建有以 XPath(提供在 XML/HTML 資料中以 XML 節點找尋特定資料位置的定位方法)或 CSS Selector(提供在 HTML 資料中以層疊樣式表找尋特定資料位置的定位方法)為基礎的資料解析函數。

完整的 Jupyter Notebook 內容可以參考:

遭遇到的問題

我們將先前撰寫過的爬蟲程式修飾一番,將擷取 IMDB.com 指定電影的評分(rating)、劇情類型(genre)、上映日期(release date)、海報圖片連結(poster)和演員名單(cast)的程式碼包裝成 get_movie_info(movie_url) 函數,將這五個電影資訊儲存在一個 Python 的 dict 中。

## {'movieRating': 9.2, 'movieReleaseDate': '24 April 2019 (Taiwan)', 'movieGenre': ['Action', 'Adventure', 'Fantasy']…

--

--