【Python 爬蟲】從 Dcard 網站看爬蟲入門(I)

飛飛
PyLadies Taiwan
Published in
9 min readSep 25, 2017

--

一、事前準備

1. 目的

爬蟲程式是自動化抓取網頁內容的程式,在學習的過程中,總是會有需要從網頁複製貼上的動作,有時候十筆,但…如果是幾萬筆呢,就要透過爬蟲程式,去加快速度。
本系列旨於透過Dcard來學習爬蟲,此篇目的以「查看目前Dcard十大熱門文章標題」為例。

爬蟲步驟的拆解

2.環境準備

Python3與pip

> python --version #查看版本號
Python 3.6.0
> pip --version
pip 9.0.1
> pip install beautifulsoup4
> pip installrequests
#查看套件是安裝完成
> python -c "import requests; import bs4; import re"

二、取得資料

1. 進入目標網站(https://www.dcard.tw/f)

2. 擷取網站資訊

在我們進入目標網頁時,我們其實是對著伺服器送出「請求」,而使用網址就是利用get這種請求,如果想了解更深入的網路請求可見HTTP Methods

那我們如何透過程式取得網頁資訊

在requests套件中,有一個requests.get(目標網址)的方法,我們可以宣告一個變數,存放我們取得的網頁資訊。
我們宣告 url 此變數存放我們的目標網址,而我們要透過requests發送網路請求。
resp = requests.get(url) 透過 resp 這個變數存放我們利用 get 取得的資訊。

如何查看我們是否有成功取得網頁的資訊

我們可以印出resp.status_code 取得網頁的狀態碼,來得知此網頁是否有成功收到請求,並且是否為正常狀態。…

--

--

飛飛
PyLadies Taiwan

尋找自己的意義,在資訊圈努力打滾求生存。