爬蟲 x 自由時報爬蟲實戰

YM Chiu
2 min readJun 29, 2019

--

第一站基本介紹

爬蟲 x 自由時報爬蟲實戰
爬蟲2 x 自由時報網站結構分析
爬蟲3 x XPath 工具介紹
爬蟲4 x Scrapy 框架介紹及實作
爬蟲5 x Scrapy 自由時報新聞實戰
爬蟲6 x Scrapy 自由時報新聞實戰2

網路爬蟲(Web Crawler)[1],普遍用作對目標網站進行請求(request)後,將回應(response)的資料儲存下來,是常見的資料收集手段。

寫這支爬蟲是因為我要實作Deep learning的新聞分類器(news classification),需要大量的資料來輔助我做這件事情,剛好透過這次機會來分享一下爬蟲撰寫的實作方式。

撰寫爬蟲前,有幾件非常重要的事情如下

  1. 分析目標網站的資料結構(DOM tree)
  2. 決定要爬取的資料內容,如:標題、內文、摘要…等等
  3. 選擇適當的方式解析返回(response)的靜態網頁資源,如: XPath,CSS selector,正規表示式
  4. 擷取出來的資料要如何保存,如: DB、Local stroage

以本次自由時報爬蟲為例,依照上述的格式整理後,本次的實施內容會是

  1. 爬取新聞標題、摘要、發布時間、新聞網址
  2. 使用Xpath[2]進行資源檢索
  3. 將爬取回來的資料存入本機,以CSV格式[3]儲存

依照上述實施內容,整理後繪製成圖片可參考下圖1,爬蟲循序圖。
下一篇就來分析自由時報的網站結構吧~

圖1. 爬蟲循序圖
  1. 維基百科,網路爬蟲(Web Crawler)
  2. 維基百科,XPath
  3. 維基百科,CSV格式

--

--

YM Chiu

Software Engineer, 難道我是因為喜歡錢,才在金融業嗎