網路爬蟲實作

以博客來全站中文書訊為例

PHIL
十百千實驗室
Jun 29, 2020

--

實作這隻網路爬蟲用到以下 Python 套件:

import requests
from bs4 import BeautifulSoup
import re
import pandas as pd
from time import sleep

Requests 是 Python 3 官方的 HTTP 函式庫,正如其 slogan: HTTP for Humans,寫給人用的,用過 Python 2 的 urllib 的人就懂。👨🏻‍💻

Beautiful Soup 是 HTML 解析器,名稱源自愛麗絲夢遊仙境,雖不懂其寓意,但服用過後,爬蟲程式碼真的變美了。👧

Regular Expression 簡稱 re,是字串搜尋必備技能,Python 內建函式庫。🔎

Pandas 是 Python 做資料分析及處理的第三方函式庫,名稱源自 Panel Data Software,不是貓熊或熊貓複數要加 s 的意思。🐼

Sleep 是 Python 內建 Time 函式庫的一個常用基本函數,竟是破解此題的關鍵!⌛

Open in Colab 按下去,

Web Crawler 爬起來!🕸️🕷️

x1001000/web_crawler.ipynb

果然沒有什麼問題是睡一覺不能解決的,如果有,那就再睡一覺!😴💤

--

--