爬蟲 x 自由時報爬蟲實戰 part2 網站結構分析
爬蟲 x 自由時報爬蟲實戰
爬蟲2 x 自由時報網站結構分析
爬蟲3 x XPath 工具介紹
爬蟲4 x Scrapy 框架介紹及實作
爬蟲5 x Scrapy 自由時報新聞實戰
爬蟲6 x Scrapy 自由時報新聞實戰2
最重要的當然就是分析自由時報網站的結構拉,如果不分析結構或者找到哪頁最符合爬取效益的話,就會浪費一堆時間在做無用功囉
如圖1所示,自由時報首頁本身有著大量的新聞資訊,可是卻是各種分類的大雜燴,通常這邊都是屬於即時新聞(最近)因此你沒有辦法爬到歷史資料(過去的新聞)。
為節省時間我們直接使用右上角的搜尋進行關鍵字搜索,搜索結果如圖2圖3所示,可看出這是很適合進行資料爬取的地方
- 資料呈清單樣式(list),沒有分散各處,有利爬蟲撰寫
- 底下有頁數導覽,爬取這頁可再透過程式往下頁爬取直到結束
Reference
- 維基百科,麵包屑導航