Python爬下PTT文章內容技巧(含程式碼)
手把手入門網路爬蟲全系列文章(全含程式碼):
1.一個觀念,開啟Python 網路爬蟲成長之路!
2. 第一支爬蟲:輕鬆爬取台灣第一位武漢肺炎確診資訊!
3. Cookie 突破PTT 八卦版十八禁限制-網路爬蟲系列
4. 以網路爬蟲角度解析HTML基本概念
5.Python手把手爬取 PTT 八卦版最新話題!
6.Python爬取“多頁面”PTT八卦版資訊
我相信最多人應該再問的是,要如何爬下PTT 呢? 從《 以網路爬蟲角度解析HTML基本概念》 中有提到 html 元素中的 id 跟 class 有對於網路爬蟲有決定性的關鍵。這次來觀察HTML 抓取適當的id與 class。
標題(藍色區塊)
其實上方標題很簡單。你會發現剛剛好4個資訊 class 都是 article-meta-value 所以很輕鬆的只要一行程式碼。馬上就可以把4個欄位一同爬取下來。
內容
最困難的是內容的爬取,因為並沒有任何的id跟class可以抓取。他的上層只有main-content ,導致直接爬的話還有大量的其他資訊
備註:"\n" 就是換行的意思喔! 如果字串"\n" 被print 出來就會是直接換行。
所以我們需要特殊處理:
最後只要把內容印出就好了!
程式碼:
相關文章:幫助Python新手度過陣痛期的關鍵功能!整合開發環境 Spyder三大功能
相關文章:怒砍Anaconda ! 手動移除windows Anaconda 殘留檔案!
相關文章:入門必看!Windows 懶人搭建Anaconda Python 學習環境
相關文章:為什麼我的Python 總是學不好?
如果你覺得這篇文章很棒
你的拍手是我前進的動力!