初學者必看!一個觀念,開啟Python 網路爬蟲成長之路!(含解說影片與程式碼)

zino lin
誤闖數據叢林的商管人Zino
4 min readMay 2, 2020

--

相關文章:
幫助Python新手度過陣痛期的關鍵功能!整合開發環境 Spyder三大功能Python初學者為什麼選擇Anaconda為開發環境呢?

網路爬蟲是近期最熱門的應用之一,也有許多前輩無私的在網路上撰寫技術文章(超級感謝前輩們!我也受到很多幫助!)。只是許多初學者看了文章也跑出結果後,卻還是感到有點疑惑。也可以參考:《阻擋新手學習[多頁網路爬蟲]的關鍵資料處理思維 — “累加”》。不知道到底Python 是如何跟網頁溝通的。所以這裡簡單介紹一下網路爬蟲必備基本的最基本知識 "GET 請求"。

*影片在最下方*
最下方有全系列網路爬蟲0-1 皆附程式碼與實作影片

Get 請求真實操作

"Get 請求" 聽起來很陌生,但白話文就是:

在瀏覽器(如:Chrome)的網址列輸入文字,按下Enter鍵。

他最大的功用就是讓瀏覽器知道要去哪個 "網址" ,要求網址的網頁伺服器回傳資料給你。 而這也就是Python 網頁爬蟲的精隨!我們來看看吧!

一般使用者瀏覽網路的行為:

一般使用者瀏覽網路(Google Chrome為google 公司所有)

那Python 網路爬蟲呢:

Python 網頁爬蟲流程。

所以你會發現網頁爬蟲的原理:

只是Python去模擬瀏覽器的行為,

抓到資料後再用Python 分析!

運行結果。

看完以上結果後你會發現幾個重點:

  1. Python 網路爬蟲只是模擬使用者操作瀏覽器的行為。
  2. 透過Get 請求可以向網頁伺服器請求資料。
  3. 收到的資料其實是網頁程式碼(HTML語法),所以學會HTML會對網路爬蟲非常有幫助!

當然以上只是為了讓初學者可以簡單的理解。實際上Get 請求是HTTP 協定(HyperText Transfer Protocol)下的一個 “子請求”而已,所以還有POST、PUT…等等。建議去google 一下喔!

原始碼:

如果喜歡我的文章歡迎幫我拍手與分享喔!🥰

--

--

zino lin
誤闖數據叢林的商管人Zino

HI!我是Zino! 我曾任數據分析新創CTO且擔任過資策會與外貿協會Python講師。目前回到學界當菸酒生中。努力分享自己的經驗與所常!幫助更多人前進💪