【Python 爬蟲】從 Dcard 網站看爬蟲入門(II)
Published in
10 min readNov 19, 2017
一、事前準備
1.複習
在這個第二階段之前,我們可以先複習上一個階段 => 傳送門,從第一階段我們可以瞭解「爬蟲」的目的、Python環境的建置以及beautifulsoup4
、requests
、re
等Python函式庫的實例。
2.目的
本系列旨於透過Dcard來學習爬蟲,此篇目的以「透過Dcard API 擷取文章資訊並以圖表呈現」為例。
3.環境建置
Python3、pip與函式庫的安裝
> python --version #查看版本號
Python 3.6.0> pip --version
pip 9.0.1> pip install requests
> pip install matplotlib#查看套件是安裝完成
> python -c "import requests;"
4.何謂API
應用程式介面(英語:Application Programming Interface,簡稱:API), 又稱為應用編程介面,就是軟體系統不同組成部分銜接的約定。~維基百科
推薦影片:什麼是API。
5.爬蟲步驟拆解
二、取得資料
1. 進入目標網站(https://www.dcard.tw)
以Dcard為例
2. 擷取網頁資訊
開啟開發人員工具之快捷鍵
Windows 與 Linux - Ctrl + Shift + I鍵或 F12 鍵
Mac- command( ⌘) + Option + I 鍵