爬蟲2 x 自由時報網站結構分析

2 min readJun 30, 2019

--

爬蟲 x 自由時報爬蟲實戰 part2 網站結構分析

爬蟲 x 自由時報爬蟲實戰
 爬蟲2 x 自由時報網站結構分析
 爬蟲3 x XPath 工具介紹
 爬蟲4 x Scrapy 框架介紹及實作
 爬蟲5 x Scrapy 自由時報新聞實戰
 爬蟲6 x Scrapy 自由時報新聞實戰2

最重要的當然就是分析自由時報網站的結構拉，如果不分析結構或者找到哪頁最符合爬取效益的話，就會浪費一堆時間在做無用功囉

如圖1所示，自由時報首頁本身有著大量的新聞資訊，可是卻是各種分類的大雜燴，通常這邊都是屬於即時新聞(最近)因此你沒有辦法爬到歷史資料(過去的新聞)。

為節省時間我們直接使用右上角的搜尋進行關鍵字搜索，搜索結果如圖2圖3所示，可看出這是很適合進行資料爬取的地方

資料呈清單樣式(list)，沒有分散各處，有利爬蟲撰寫
底下有頁數導覽，爬取這頁可再透過程式往下頁爬取直到結束

圖1. 自由時報網站首頁

圖2. 網站搜尋結果

圖3. 結果及頁碼

Reference

維基百科，麵包屑導航

Structure Analysis

YM Chiu

Written by YM Chiu

Software Engineer, 難道我是因為喜歡錢，才在金融業嗎

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams