給新手的網路爬蟲、資料視覺化教學 — 分析你愛的YT影片標題及流量(下)

YS Hsieh
Tableau用數據說故事
May 17, 2024

上篇我們提及Google Data Analytics Certificate資料分析六步驟 (ask、prepare、process、analyze、share、act) 的前三步,下篇會聚焦在製作Tableau視覺化圖表。

我使用Tableau Desktop

專案流程

本篇提及後三項
1. [Ask] 確認動機
2. [Prepare]使用python寫爬蟲,擷取下文本,存成csv檔
3. [Process]使用Jieba斷詞、計算各keyword出現次數,存成csv檔
4. [Analysis]使用Excel觀察資料,找出有興趣的insights
5. [Share]使用Tableau繪製圖表及dashboard
6. [Act] 行動
Google 資料分析六階段,來源: Google Data Analysis certificate

1. Analyze 觀察資料、思考適合的圖表種類

上篇我們整理出10,098個關鍵字,並擷取出現次數大於5次的關鍵字分析。由於keyword中有很多無意義的單詞,包含介係詞、標點符號,或與主題非相關的頻道名稱,如志祺、七七,所以我先用filter把有意義的詞留下。

剔除與主題無關的詞語

大致觀察關鍵字後,我慢慢梳理出分類,例如國家/地區名稱、人物,

建立Keyword分群,剩餘的列入其他主題

關鍵字圖表讓我直覺想到文字雲的概念,因此採用氣泡圖(bubble chart)。製作bubble chart很簡單,先把keyword、count放入columns、rows自動產生長條圖,而後使用Show Me tab,選擇右下角氣泡圖就完成了。

再將關鍵字的Counts放到Marks — color,就可將視覺焦點放在最熱門的關鍵字,氣泡圖也幫我們把出現頻率越高者放置中間,方便閱讀。

以顏色漸層凸顯出現頻率多寡

每年最被關注Top 10影片我採用horizontal bar chart,因為影片標題字多,若使用vertical bar chart僅能露出一點。記得要將Year設為context filter,否則會變成用2018~2024年的影片排序前10。

每年Top 10影片

影片年平均觀看量我採用最直覺的bar chart,記得調整Tooltip格式,讓資訊呈現比較易讀。

影片年平均觀看量

最後將圖表拼成dashboard,調整顏色和排版,就可發表到Tableau Public!

2. Share 分享成果

Tableau public是一個免費的Tableau作品平台,可以將你的作品分享給更多人,但上面無法留言,可以分享到social media (X、Linkedin…)取得反饋。

3. Act 決策及行動

資料擷取自2018~2024/5/11,共2218支影片,從視覺化結果來看,「台灣 (257)」、「中國(109)」關鍵字出現最多;人名最多的是「韓國瑜 (32)」(究竟!?)、「阿滴(28)」、「川普(14)」。

2024目前觀看數前三是: 黃明志訪談(1.45M)、低薪窮忙(1.1M)、韓國停用漢字(770K)。2023第一名是注音符號(1.63M),2022年是亞馬遜電商Ellen(1.87M)。雖然志祺七七大多文章圍繞在兩岸及東亞的政治經濟,這幾年的人氣前10名和經濟、社會文化比較有關,或是用網路趣聞帶出背後的心理學/社會學,後者也是我身為觀眾比較有興趣的,或許可以蒐集一些跨文化的迷思作為素材。

專案反思

第一次嘗試爬蟲抓資料,還是有需要加強的:

  1. 由於url是用youtube/video,上片時間我只能擷取到”n個月前” 或 “n年前”,還要研究如何可以取得具體日期。
  2. 年份是手動確認各年的分界線,如果可以取到完整日期真的會方便很多。
  3. 時間資料太粗也導致最後資料視覺化無法分析到月,只能討論到”年”,所以也使用適用categorical data的長條圖。

感謝閱讀,歡迎提供建議或指導~

讓我們一起創作、用數據圖表解決生活問題 d(`・∀・)b

--

--