【Python 爬蟲】從 Dcard 網站看爬蟲入門(I)

Published in

PyLadies Taiwan

9 min readSep 25, 2017

一、事前準備

1. 目的

爬蟲程式是自動化抓取網頁內容的程式，在學習的過程中，總是會有需要從網頁複製貼上的動作，有時候十筆，但…如果是幾萬筆呢，就要透過爬蟲程式，去加快速度。
本系列旨於透過Dcard來學習爬蟲，此篇目的以「查看目前Dcard十大熱門文章標題」為例。

2.環境準備

Python3與pip

> python --version #查看版本號
Python 3.6.0> pip --version 
pip 9.0.1> pip install beautifulsoup4 
> pip installrequests
#查看套件是安裝完成
> python -c "import requests; import bs4; import re"

二、取得資料

1. 進入目標網站(https://www.dcard.tw/f)

2. 擷取網站資訊

在我們進入目標網頁時，我們其實是對著伺服器送出「請求」，而使用網址就是利用get這種請求，如果想了解更深入的網路請求可見HTTP Methods。

那我們如何透過程式取得網頁資訊

在requests套件中，有一個requests.get(目標網址)的方法，我們可以宣告一個變數，存放我們取得的網頁資訊。
我們宣告 url 此變數存放我們的目標網址，而我們要透過requests發送網路請求。
resp = requests.get(url) 透過 resp 這個變數存放我們利用 get 取得的資訊。

如何查看我們是否有成功取得網頁的資訊

我們可以印出resp.status_code 取得網頁的狀態碼，來得知此網頁是否有成功收到請求，並且是否為正常狀態。…