網路爬蟲實作

以博客來全站中文書訊為例

Published in

十百千實驗室

Jun 29, 2020

實作這隻網路爬蟲用到以下 Python 套件：

import requests
from bs4 import BeautifulSoup
import re
import pandas as pd
from time import sleep

Requests 是 Python 3 官方的 HTTP 函式庫，正如其 slogan: HTTP for Humans，寫給人用的，用過 Python 2 的 urllib 的人就懂。👨🏻‍💻

Beautiful Soup 是 HTML 解析器，名稱源自愛麗絲夢遊仙境，雖不懂其寓意，但服用過後，爬蟲程式碼真的變美了。👧

Regular Expression 簡稱 re，是字串搜尋必備技能，Python 內建函式庫。🔎

Pandas 是 Python 做資料分析及處理的第三方函式庫，名稱源自 Panel Data Software，不是貓熊或熊貓複數要加 s 的意思。🐼

Sleep 是 Python 內建 Time 函式庫的一個常用基本函數，竟是破解此題的關鍵！⌛

Open in Colab 按下去，
Web Crawler 爬起來！🕸️🕷️

果然沒有什麼問題是睡一覺不能解決的，如果有，那就再睡一覺！😴💤