Google試算表爬資料
在Google試算表,可以透過函數來抓取外部資料,如政府開放式資料、網頁表格、PTT頁面的文章。當資料來源改變,試算表的資料也會隨之更新。
一、抓取政府開放式資料
1.到政府開放式資料的網站,找尋一份有興趣的資料,複製其CSV連結
2.在Google試算表中,使用函數 IMPORTDATA,傳入CSV連結,抓取資料
二、抓取網頁中的表格
- 找一個包含表格的網頁
2.在Google試算表中,使用函數 IMPORTHTML,抓取網頁中的第幾個表格
三、抓取PTT頁面的文章標題
- 進入論壇PTT某看版的文章列表
2.在Google試算表中,使用函數 IMPORTXML。
第二個參數 //*/div[2]/div/div/a代表網頁原始碼中,文章標題的超連結。
//*:<div id=”main-container”>
/div[2]:<div class=”r-list-container” …>(第2個div)
/div:<div class=”r-ent”>(各文章)
/div:<div class=”title”>(文章標題)
/a:<a href=”/bbs/…”>(文章超連結)
3.擷取各標題的分類文字
4.找出這些文章有哪些分類
5.統計各分類共有幾篇文章
此處試著累積多一點的文章標題,剔除未分類及文字不符規定的各1篇後,剩餘175篇。
前三名的分類為「問題(92)」、「閒聊(26)」、「分享(22)」。
可能大家對於機車這種構造複雜、零件眾多,甚至較貴重的物品,會有不少疑問想請教。
其次為閒聊,機車本身也是一種嗜好,網友會想互相交流意見。
第三為分享,從標題發現其實各類話題都有,似乎較難分類,才集中在此。
四、進階使用Google的語意分析(Google Cloud Natural Language)
1.將文章標題都貼到工具裡面,點分析。
2.在Sentiment頁籤,查看各標題的情緒程度
前幾篇為中立情緒,而整體的文章大部分為中立和正面情緒。