第一站基本介紹
爬蟲 x 自由時報爬蟲實戰
爬蟲2 x 自由時報網站結構分析
爬蟲3 x XPath 工具介紹
爬蟲4 x Scrapy 框架介紹及實作
爬蟲5 x Scrapy 自由時報新聞實戰
爬蟲6 x Scrapy 自由時報新聞實戰2
網路爬蟲(Web Crawler)[1],普遍用作對目標網站進行請求(request)後,將回應(response)的資料儲存下來,是常見的資料收集手段。
寫這支爬蟲是因為我要實作Deep learning的新聞分類器(news classification),需要大量的資料來輔助我做這件事情,剛好透過這次機會來分享一下爬蟲撰寫的實作方式。
撰寫爬蟲前,有幾件非常重要的事情如下
- 分析目標網站的資料結構(DOM tree)
- 決定要爬取的資料內容,如:標題、內文、摘要…等等
- 選擇適當的方式解析返回(response)的靜態網頁資源,如: XPath,CSS selector,正規表示式
- 擷取出來的資料要如何保存,如: DB、Local stroage
以本次自由時報爬蟲為例,依照上述的格式整理後,本次的實施內容會是
- 爬取新聞標題、摘要、發布時間、新聞網址
- 使用Xpath[2]進行資源檢索
- 將爬取回來的資料存入本機,以CSV格式[3]儲存
依照上述實施內容,整理後繪製成圖片可參考下圖1,爬蟲循序圖。
下一篇就來分析自由時報的網站結構吧~
- 維基百科,網路爬蟲(Web Crawler)
- 維基百科,XPath
- 維基百科,CSV格式