爬蟲4 x Scrapy 框架介紹及實作

YM Chiu
2 min readJul 1, 2019

--

Scrapy框架介紹 及 透過官網範例進行爬蟲實作

爬蟲 x 自由時報爬蟲實戰
爬蟲2 x 自由時報網站結構分析
爬蟲3 x XPath 工具介紹
爬蟲4 x Scrapy 框架介紹及實作
爬蟲5 x Scrapy 自由時報新聞實戰
爬蟲6 x Scrapy 自由時報新聞實戰2

Scrapy是一個以Python撰寫的爬蟲框架,透過這個框架,我們可以用簡潔及易懂的方式撰寫一個爬蟲程式,以下將會透過實作並比較一般爬蟲及Scrapy的爬蟲程式。

以Scrapy官網範例為例[1],本次爬蟲目標為這個網站 http://quotes.toscrape.com/

Scrapy範例程式
(為了方便比較以下都改使用XPath)

一般撰寫的話…

由上可以看出來,程式碼在parse_quotes的部分都沒有太多的差異

但我們在一般寫法中還需要自己去處理資料存儲的問題(將資料寫入csv 或 json)

還有程式在執行時實際要呼叫程式碼的部分,而在scrapy中則因為框架本身實作所以我們不需要寫太多的程式碼即可撰寫一隻簡潔及易懂的爬蟲程式。

本次程式碼實作同時放在我的Github repo中 連結點此

Reference

  1. Scrapy docs, Scrapy at a glance

--

--

YM Chiu

Software Engineer, 難道我是因為喜歡錢,才在金融業嗎