[實作] 第一次用 Python做網路爬蟲就上手-用 PTT 的 Food 版為例
適合閱讀者 : 想學網路爬蟲的新手、馬上就看到成果的新手
閱讀時間 : 十分鐘
如果環境準備好了,其實大概就完成80%的工作,因為環境的設定和安裝是比較複雜的,接下來只要學會 COPY & PASTE,然後再慢慢自行摸索和延伸應用,基本上應該可以有一點小小的成果可以見人
這邊目前都是使用 ipython notebook 這個方式來做實作,主要是他可以馬上產生執行的結果,不用再打一堆指令,所以我會暫時用這個為主
首先,一樣先打開命令提示字元,輸入 ipython notebook,這時候除了會跑一堆東西之外,同時也會打開瀏覽器,別驚慌,這是正常的出現,我們就是要透過這個來實作網路爬蟲的範例檔
點開右上角的New > Python3,會再打開一個分頁,我們要把程式碼放在這邊,詳細的原始碼可以在這邊取到 >> Python1
貼上之後,就可以按下工具列中的 RUN,除了會打開一個網頁之外,同時我們也會在這邊看到一行 取的頁數 :
這邊可以輸入 5,然後按下Enter
然後就會立馬看到結果了,這樣子就會完成一次 PTT的Food版網路爬蟲
這個只是一個非常基礎的範例檔,讓我們可以很快看到結果,並透過這個範例檔來作延伸和應用,例如 :
本來都要輸入5,我可以設定固定數字讓python抓固定頁數?
甚至可以存成檔案,固定每天某個時段自己跑?
只有 Food版,那其他版可以嗎?
只有日期、作者和標題,我可以獲得更多資訊嗎…諸如此類的
接下來,則是要將我們找到的這些資訊塞進去 SQL 資料庫,方便歸類和整理,如果可以的話,最好可以做成自動排程,設定關鍵字後自動發信之類的,理想上是這樣啦…XDD