Python爬下PTT文章內容技巧(含程式碼)

Published in

誤闖數據叢林的商管人Zino

3 min readMay 28, 2020

--

手把手入門網路爬蟲全系列文章(全含程式碼)：
1.一個觀念，開啟Python 網路爬蟲成長之路！
2. 第一支爬蟲：輕鬆爬取台灣第一位武漢肺炎確診資訊！
3. Cookie 突破PTT 八卦版十八禁限制-網路爬蟲系列
4. 以網路爬蟲角度解析HTML基本概念
5.Python手把手爬取 PTT 八卦版最新話題！
6.Python爬取“多頁面”PTT八卦版資訊

我相信最多人應該再問的是，要如何爬下PTT 呢? 從《以網路爬蟲角度解析HTML基本概念》中有提到 html 元素中的 id 跟 class 有對於網路爬蟲有決定性的關鍵。這次來觀察HTML 抓取適當的id與 class。

標題(藍色區塊)

對應的HTML

其實上方標題很簡單。你會發現剛剛好4個資訊 class 都是 article-meta-value 所以很輕鬆的只要一行程式碼。馬上就可以把4個欄位一同爬取下來。

標題區塊

內容

最困難的是內容的爬取，因為並沒有任何的id跟class可以抓取。他的上層只有main-content ，導致直接爬的話還有大量的其他資訊

爬取程式碼。

all_text 變數中存放的字串

備註："\n" 就是換行的意思喔！如果字串"\n" 被print 出來就會是直接換行。

所以我們需要特殊處理：

詳細步驟

整理字串流程

最後只要把內容印出就好了！

執行結果

程式碼：

相關文章：一個觀念，開啟Python 網路爬蟲成長之路！
相關文章：幫助Python新手度過陣痛期的關鍵功能！整合開發環境 Spyder三大功能
相關文章：怒砍Anaconda ! 手動移除windows Anaconda 殘留檔案！
相關文章：入門必看！Windows 懶人搭建Anaconda Python 學習環境
相關文章：為什麼我的Python 總是學不好?
相關文章： Python初學者為什麼選擇Anaconda為開發環境呢?

by 誤闖數據叢林的商管人 Zino

如果你覺得這篇文章很棒
你的拍手是我前進的動力！

zino lin

Written by zino lin

Editor for

誤闖數據叢林的商管人Zino

HI！我是Zino！我曾任數據分析新創CTO且擔任過資策會與外貿協會Python講師。目前回到學界當菸酒生中。努力分享自己的經驗與所常！幫助更多人前進💪

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams