Google試算表爬資料

Vincent Zheng
新手工程師的程式教室
4 min readMar 24, 2018

--

在Google試算表,可以透過函數來抓取外部資料,如政府開放式資料、網頁表格、PTT頁面的文章。當資料來源改變,試算表的資料也會隨之更新。

一、抓取政府開放式資料

1.到政府開放式資料的網站,找尋一份有興趣的資料,複製其CSV連結

https://data.gov.tw/dataset/20390

2.在Google試算表中,使用函數 IMPORTDATA,傳入CSV連結,抓取資料

二、抓取網頁中的表格

  1. 找一個包含表格的網頁
https://zh.wikipedia.org/wiki/純電動車

2.在Google試算表中,使用函數 IMPORTHTML,抓取網頁中的第幾個表格

三、抓取PTT頁面的文章標題

  1. 進入論壇PTT某看版的文章列表
https://www.ptt.cc/bbs/biker/index2663.html

2.在Google試算表中,使用函數 IMPORTXML。

第二個參數 //*/div[2]/div/div/a代表網頁原始碼中,文章標題的超連結。
//*:<div id=”main-container”>
/div[2]:<div class=”r-list-container” …>(第2個div)
/div:<div class=”r-ent”>(各文章)
/div:<div class=”title”>(文章標題)
/a:<a href=”/bbs/…”>(文章超連結)

3.擷取各標題的分類文字

4.找出這些文章有哪些分類

與B欄相比,C欄的資料都是不重複的

5.統計各分類共有幾篇文章
此處試著累積多一點的文章標題,剔除未分類及文字不符規定的各1篇後,剩餘175篇。

前三名的分類為「問題(92)」、「閒聊(26)」、「分享(22)」。
可能大家對於機車這種構造複雜、零件眾多,甚至較貴重的物品,會有不少疑問想請教。
其次為閒聊,機車本身也是一種嗜好,網友會想互相交流意見。
第三為分享,從標題發現其實各類話題都有,似乎較難分類,才集中在此。

四、進階使用Google的語意分析(Google Cloud Natural Language)

1.將文章標題都貼到工具裡面,點分析。

https://cloud.google.com/natural-language/

2.在Sentiment頁籤,查看各標題的情緒程度
前幾篇為中立情緒,而整體的文章大部分為中立和正面情緒。

--

--

Vincent Zheng
新手工程師的程式教室

我是Vincent,是個來自資管系的後端軟體工程師。當初因為學校作業,才踏出寫部落格的第一步。這裡提供程式教學文章,包含自學和工作上用到的經驗,希望能讓讀者學到東西。我的部落已搬家至 https://chikuwa-tech-study.blogspot.com/