[實作] 第一次用 Python做網路爬蟲就上手-用 PTT 的 Food 版為例

Published in

MIS 日記

3 min readJul 31, 2018

適合閱讀者 : 想學網路爬蟲的新手、馬上就看到成果的新手

閱讀時間 : 十分鐘

如果環境準備好了，其實大概就完成80%的工作，因為環境的設定和安裝是比較複雜的，接下來只要學會 COPY & PASTE，然後再慢慢自行摸索和延伸應用，基本上應該可以有一點小小的成果可以見人

這邊目前都是使用 ipython notebook 這個方式來做實作，主要是他可以馬上產生執行的結果，不用再打一堆指令，所以我會暫時用這個為主

首先，一樣先打開命令提示字元，輸入 ipython notebook，這時候除了會跑一堆東西之外，同時也會打開瀏覽器，別驚慌，這是正常的出現，我們就是要透過這個來實作網路爬蟲的範例檔

點開右上角的New > Python3，會再打開一個分頁，我們要把程式碼放在這邊，詳細的原始碼可以在這邊取到 >> Python1

貼上之後，就可以按下工具列中的 RUN，除了會打開一個網頁之外，同時我們也會在這邊看到一行取的頁數 :
這邊可以輸入 5，然後按下Enter

然後就會立馬看到結果了，這樣子就會完成一次 PTT的Food版網路爬蟲

這個只是一個非常基礎的範例檔，讓我們可以很快看到結果，並透過這個範例檔來作延伸和應用，例如 :
本來都要輸入5，我可以設定固定數字讓python抓固定頁數?
甚至可以存成檔案，固定每天某個時段自己跑?
只有 Food版，那其他版可以嗎?
只有日期、作者和標題，我可以獲得更多資訊嗎…諸如此類的

接下來，則是要將我們找到的這些資訊塞進去 SQL 資料庫，方便歸類和整理，如果可以的話，最好可以做成自動排程，設定關鍵字後自動發信之類的，理想上是這樣啦…XDD

Written by MIS | 系統日誌