[實作] 第一次用 Python做網路爬蟲就上手-用 PTT 的 Food 版為例

MIS | 系統日誌
MIS 日記
Published in
3 min readJul 31, 2018

適合閱讀者 : 想學網路爬蟲的新手、馬上就看到成果的新手

閱讀時間 : 十分鐘

如果環境準備好了,其實大概就完成80%的工作,因為環境的設定和安裝是比較複雜的,接下來只要學會 COPY & PASTE,然後再慢慢自行摸索和延伸應用,基本上應該可以有一點小小的成果可以見人

這邊目前都是使用 ipython notebook 這個方式來做實作,主要是他可以馬上產生執行的結果,不用再打一堆指令,所以我會暫時用這個為主

首先,一樣先打開命令提示字元,輸入 ipython notebook,這時候除了會跑一堆東西之外,同時也會打開瀏覽器,別驚慌,這是正常的出現,我們就是要透過這個來實作網路爬蟲的範例檔

點開右上角的New > Python3,會再打開一個分頁,我們要把程式碼放在這邊,詳細的原始碼可以在這邊取到 >> Python1

貼上之後,就可以按下工具列中的 RUN,除了會打開一個網頁之外,同時我們也會在這邊看到一行 取的頁數 :
這邊可以輸入 5,然後按下Enter

然後就會立馬看到結果了,這樣子就會完成一次 PTT的Food版網路爬蟲

這個只是一個非常基礎的範例檔,讓我們可以很快看到結果,並透過這個範例檔來作延伸和應用,例如 :
本來都要輸入5,我可以設定固定數字讓python抓固定頁數?
甚至可以存成檔案,固定每天某個時段自己跑?
只有 Food版,那其他版可以嗎?
只有日期、作者和標題,我可以獲得更多資訊嗎…諸如此類的

接下來,則是要將我們找到的這些資訊塞進去 SQL 資料庫,方便歸類和整理,如果可以的話,最好可以做成自動排程,設定關鍵字後自動發信之類的,理想上是這樣啦…XDD

--

--

MIS | 系統日誌
MIS 日記

專注於服務業POS與ERP的系統專案導入,熟悉鼎新COSMOS/鼎新HR/金旭/德安/一等一 FLOW / Traiwan OTA訂房/大賀票券系統/宣揚BSMS&POS等,現為百貨商場小雜工