網路爬蟲淺談

Bing Kuo
5 min readJun 1, 2019

--

適合本篇閱讀的人:

想概略了解爬蟲的人、想寫爬蟲的人

本篇架構:

  1. 什麼是爬蟲?為什麼要學爬蟲?
  2. 爬蟲是怎麼辦到的?
  3. 想要學爬蟲,我該怎麼做?
  4. 開始學爬蟲前的注意事項
  5. 後語

什麼是爬蟲?為什麼要學爬蟲?

網路爬蟲是可以自動化替你蒐集網頁上資訊的程式。

試著想想看,如果你需要各公司的財報資訊來做股市的研究,該怎麼做呢?打開瀏覽器,輸入「公開資訊觀測站」的網址,下條件篩選出想找的財報,在下載成CSV檔…,不,這只有一間公司,但上市上櫃公司好幾百間,加上不同年份、不同季,下載起來可是很費力的!換個生活化的例子,假如想在PTT上找租屋,一般來說,只能下關鍵字,然後一篇一篇的找,時間是很寶貴的,但如果有爬蟲能日復一日的幫你抓取每一篇的資訊,並幫你做過濾,再把你可能喜歡的租屋資訊推薦給你呢?

藉由以上的案例,我們知道爬蟲可以自動化收集資料,重複性高的事情只要寫一次程式,之後就交給程式幫你處理就行了!我們可以更專注在其他事情上,這麼好的東西,怎麼不學呢?各行各業的可以從中得到好處(笑)。

爬蟲是怎麼辦到的?

平常我們瀏覽網站,其實就是對遠方的伺服器提出一個請求(Request),這時候遠方伺服器就會收到資訊,並且回傳(Response)給你html, css, javascript等資訊,接著你的瀏覽器會把這些檔案組成你現在看到的網頁。

同樣的爬蟲原理就是,藉由你的爬蟲程式去進行Request,在跟你的程式說接收到Response後,該怎麼解析出你想要的資訊,最後再把他們存起來。

簡易的架構如下,以下以爬取論壇網站為例,凡事都要有個開始,我們需要有個初始URL,也有人稱作種子網址,好比論壇的首頁,接著解析論壇首頁,把每一篇文章都加入倒任務佇列當中,從中取出一篇解析,並寫入資料庫,若是需要在更深入一層,我們就會將這URL加入到柱列當中,等待下一次處理。

想要學爬蟲,我該怎麼做?

你得先選一個語言,目前主流是Java跟Python,在網路上能找的資源也比較豐富,我個人比較喜歡Python,以下就以Python為例,依我個人經驗,分為三個方案。

方案一:最直接的作法

Requests + 解析器(PyQuery或Beautifulsoup)

這是最簡單的做法,Requests是Python的一個套件,它可以建立HTTP請求,也就是上面提到的Request,接著我們收到的HTML在使用解析器去擷取出想要的資訊,比較常用的套件是PyQuery跟BeautifulSoup,這種方式好處在於你不用裝太多東西,若是符合以下條件,建議你可以選擇這個方案:

  1. 剛接觸爬蟲的人
  2. 需求不是太複雜(爬取的層數1~2層)
  3. 一次性的任務

方案二:使用爬蟲框架

有些網站對於資料的保護意識比較高,會對於爬蟲做一些防護,稱作為反爬蟲。這種網站可不是那麼好對付,框架通常都會幫你想到些解決方案,你可以用框架提供的函示或是參數的調整來輕鬆達成,就不用什麼都自己寫了,最常聽到的Scrapy跟Pyspider,兩者各有各的優缺點,有機會後續會在做文章來做介紹,簡單來說,Scrapy自訂程度較高,而Pyspider則是有監控介面、易維護的優勢。若是符合以下條件,建議你可以選擇這個方案:

  1. 需要短時間完成爬蟲程式
  2. 需要長時間維護(在框架下,多人合作跟後續維護都會比較方便,並在某種規範之下)
  3. 有特殊需求者(像我很喜歡Pyspider的監控介面)

方案三:使用Selenium

Selenium是瀏覽器自動化(automates browsers)的工具,他支援 Java、C#、Ruby、Python 多種語言,瀏覽器也可以選擇Chrome、FireFox等多個選擇,官方定位他在「網頁應用程式的自動化測試」,但就因為功能太強大,所以也被應用在爬蟲上,你可以想像你的爬蟲程式操作的瀏覽器,模仿使用者在瀏覽網頁,像是輸入帳號密碼,點擊按鈕…等。

這方案好處在於簡單暴力,若你遇到需要登入才能抓取的資料,你就模仿使用者登入方式,若你遇到滾輪下滑才能載入的資烙,你就模仿使用者滑滾輪,以上都有其他繞過去的方式,但就需要點經驗,相對的,Selenium程式語法很單純,更有小工具能紀錄你的操作,並且匯出程式碼,更加速開發的速度。當然也不是萬靈藥,也是存在著缺點,比如說,因為要模擬使用者的行為,導致速度慢,較適合規模小的爬蟲。若是符合以下條件,建議你可以選擇這個方案:

  1. 爬蟲規模不大
  2. 想要爬反爬蟲的網站,但又繞不過登入、找不到網站載入資料的方式

開始學爬蟲前的注意事項

換個角度思考,如果你是架設網站那方,遇到每秒就拜訪一次的機器人,那真的是很臉很綠,這可能會對伺服器造成延遲(因為拜訪網站的人變多了),嚴重一點就是伺服器癱瘓(人滿到動彈不得),所以呢,我們在撰寫爬蟲程式時,一定要設置停頓的時間,也盡量不要重複拜訪相同頁面。

後語

這是我的第一篇文章,希望不是最後一篇(笑),希望能把自己所知的知識整理整理,提供那些想了解的網友了解,之後確定會寫Pyspider的文章,也會寫些機器學習的文章,覺得寫不錯給我拍手一下,我會很開心的,以上。

延伸閱讀

--

--