我相信最多人應該再問的是,要如何爬下PTT 呢? 從《 以網路爬蟲角度解析HTML基本概念》 中有提到 html 元素中的 id 跟 class 有對於網路爬蟲有決定性的關鍵。這次來觀察HTML 抓取適當的id與 class。

標題(藍色區塊)

對應的HTML

其實上方標題很簡單。你會發現剛剛好4個資訊 class 都是 article-meta-value 所以很輕鬆的只要一行程式碼。馬上就可以把4個欄位一同爬取下來。

標題區塊

內容

最困難的是內容的爬取,因為並沒有任何的id跟class可以抓取。他的上層只有main-content ,導致直接爬的話還有大量的其他資訊

爬取程式碼。
all_text 變數中存放的字串

備註:"\n" 就是換行的意思喔! 如果字串"\n" 被print 出來就會是直接換行。

所以我們需要特殊處理:

詳細步驟
整理字串流程

最後只要把內容印出就好了!

執行結果

程式碼:

--

--

zino lin
誤闖數據叢林的商管人Zino

HI!我是Zino! 我曾任數據分析新創CTO且擔任過資策會與外貿協會Python講師。目前回到學界當菸酒生中。努力分享自己的經驗與所常!幫助更多人前進💪