第一支網頁爬蟲:你也可以輕鬆爬取台灣第一位武漢肺炎確診資訊!(含影片與程式碼)

zino lin
誤闖數據叢林的商管人Zino
3 min readMay 5, 2020

本文為更新版
相關文章:
幫助Python新手度過陣痛期的關鍵功能!整合開發環境 Spyder三大功能Python初學者為什麼選擇Anaconda為開發環境呢?

在前篇文章《初學者必看!一個觀念,開啟Python 網路爬蟲成長之路!》中我們提到網路爬蟲只是用Python去模擬使用者操作瀏覽器的行為。其中抓資料的關鍵就是 “Get 請求”。 而我們這次就要帶大家實作一個廣義的網路爬蟲了!

前文:Python 網頁爬蟲流程。

一、找到資料來源

這次我們要抓的資料是”台灣武漢肺炎確診資訊”!資料來源是由衛生福利部疾病管制署所公布的【地區年齡性別統計表-嚴重特殊傳染性肺炎-依個案研判日統計】。我們透過這個資料集來幫助我們抓到台灣第一個案例資料

那這時我們該如何找到資料來源呢?進入網頁後可以點選JSON按鈕,就會彈出一個新視窗。如同我們前篇提到的一樣,當我們在網址列輸入資料後按下Enter就是發送”Get 請求”。所以新視窗中的網址就是我們的資料來源拉

圖一、點選JSON 彈出視窗於下圖
圖二、網址就是我們的資料來源

註解:Json是一種常見的”資料格式”,方便資料在不同程式語言中交換。

二、撰寫程式與執行

所以我對應到 上篇文章 的架構後會變成:

圖三、台灣第一個案例資料流程

程式碼:

可以直接把程式碼貼到Spyder中執行! 詳細註解請看程式碼XD

如果還沒Python學習環境的人可以參考:
Windows 懶人搭建Anaconda Python 學習環境

使用Spyder執行!
圖四、執行結果!

所以我們可以看到台灣第一筆武漢肺炎確診在高雄市女生與其他資訊。當然這份資料在我寫文章時是4/22更新的資料,可能沒有最新一筆的資料。但還是可以看出非常多的資訊的!

透過簡單範例帶大家實作一次廣義的網路爬蟲!我們一起前進巴!

實作影片:

--

--

zino lin
誤闖數據叢林的商管人Zino

HI!我是Zino! 我曾任數據分析新創CTO且擔任過資策會與外貿協會Python講師。目前回到學界當菸酒生中。努力分享自己的經驗與所常!幫助更多人前進💪