爬蟲2 x 自由時報網站結構分析

YM Chiu
2 min readJun 30, 2019

--

爬蟲 x 自由時報爬蟲實戰 part2 網站結構分析

爬蟲 x 自由時報爬蟲實戰
爬蟲2 x 自由時報網站結構分析
爬蟲3 x XPath 工具介紹
爬蟲4 x Scrapy 框架介紹及實作
爬蟲5 x Scrapy 自由時報新聞實戰
爬蟲6 x Scrapy 自由時報新聞實戰2

最重要的當然就是分析自由時報網站的結構拉,如果不分析結構或者找到哪頁最符合爬取效益的話,就會浪費一堆時間在做無用功囉

如圖1所示,自由時報首頁本身有著大量的新聞資訊,可是卻是各種分類的大雜燴,通常這邊都是屬於即時新聞(最近)因此你沒有辦法爬到歷史資料(過去的新聞)。

為節省時間我們直接使用右上角的搜尋進行關鍵字搜索,搜索結果如圖2圖3所示,可看出這是很適合進行資料爬取的地方

  1. 資料呈清單樣式(list),沒有分散各處,有利爬蟲撰寫
  2. 底下有頁數導覽,爬取這頁可再透過程式往下頁爬取直到結束
圖1. 自由時報網站首頁
圖2. 網站搜尋結果
圖3. 結果及頁碼

Reference

  1. 維基百科,麵包屑導航

--

--

YM Chiu

Software Engineer, 難道我是因為喜歡錢,才在金融業嗎