當STP「行銷策略」遇到資料科學— 【資料蒐集】PTT貼文抓取模組教學(附Python程式碼)

Published in

Marketingdatascience

Jan 1, 2021

我們知曉了基本的Python爬蟲方法，並且深度講解了如何爬取PTT的標題、文章網址、作者等爬蟲方法，那該如何文章內容整合成一個讀者可以爬取PTT資料的Python模組程式，讓爬取PTT外部輿情變得更簡單！

幫讀者複習一下之前的文章，回憶一下前面爬取的文章內容及方法

當STP「行銷策略」遇到資料科學 — — 案例分享與Python分析規劃
當STP「行銷策略」遇到資料科學 — 【資料蒐集】 Python網路爬蟲專案導向教學

作者在此直接附上寫好的PTT貼文模組教學，讓您一次可依照自己的需求爬取！

論模組使用方式，我們特別設定了一個crawl_ptt_page_auto函數，讓讀者能自由操作想要爬取的看板與頁，如圖2所示：

看板：在此稱為Board_Name，讀者可以輸入自己想要爬取的看板執行爬蟲作業。讀者可以至https://www.ptt.cc/cls/1 PTT分類看板中搜尋自己想要爬取的看板名稱，或者直接Google「ptt 想要的看板中文名稱」，如：「ptt 內衣」，Google大神就會協助讀者找到可能的ptt看板，然後再確認是否是讀者想要爬取的網站即可。最後將「看板」名稱，如圖1所示的「看板 underwear」英文複製並貼上至crawl_ptt_page_auto函數下的Board_Name數值，如：Board_Name = ‘underwear’即大功告成！
頁：在此稱為page_num，讀者可以輸入自己想要爬取的看板「頁數」，即會從最新的看板頁數開始往後爬取囉！