WiDS Taipei 2020 |《天下》2020總統大選:一個選舉資料庫,如何在一天內創造數百萬流量? — 李郁欣 Sylvia Lee
講者介紹-李郁欣(Sylvia)
📍現任《天下雜誌》資深策展編輯。近期作品「決戰2020!得票地圖、即時解析、機器人開票,總統立委選情一次掌握」(天下雜誌)、「請回答1978:重返美台斷交那一夜,測測你會是什麼人?」(中央社)。曾當過1年電視台記者,以及5年的雜誌編輯。畢業於政治大學新聞系。2015年偶然接觸資料新聞後,才漸漸轉型至數位策展、數位敘事領域,過去曾與記者合作「失控的高科技廢棄物」、「2027電力戰役:全台電廠荒謬記事大解密」等專題,拿下吳舜文新聞獎、亞洲卓越新聞獎及金鼎獎。📍講者影片介紹 : https://www.facebook.com/watch/?v=952251008582938
郁欣分享團隊如何規劃總統大選專題。在選情資料庫將『社會經濟數據』跟『開票結果』做交叉分析,自動產出一段分析文。並推測讀者要的不只是開票結果,而是能「分享」,因此與 UX Lab 討論 flow chart 規劃分享機制。最後建議大家在位子上想梗想破頭,更要走出去感受世界的脈動。
▍請大家玩玩 2020 總統大選開票地圖
▍ 一、策展編輯(Content Curator)的工作?
媒體產業裡,這樣的職位很難不斜槓,職務內容也會不停的變化、成長。目前同業大多也都是半路出家。
策展編輯 = 專案經理(Project Manager)+文稿編輯(Copy Editor)+數據研究員(偶爾兼職一下)
▍ 二、2020 總統大選專題 — 我們是如何創造破紀錄的流量大潮?
1. 團隊&網頁架構介紹:
-10人團隊
策展編輯 ×1(me)、數據記者 ×1、後端 ×1 、前端 ×1、前端設計 ×1、數位設計 ×2、工程師 PM ×1、UX Lab 成員 ×2
-五大頁面
以技術難易度與內容含金量來看,是三個專案加起來的工作量。整體來說,我們一共做了8159個頁面。
其中紅匡這三個頁面完全是數據驅動的專題。(代表記者角色佔比最低的頁面)
2. 你的鄰居都投給誰?
『這世界有一種髒,叫做台灣開放資料的髒。』
(政府資料都常用 PDF 形式,因此很難被用來作數據分析,也代表政府單位有時不太懂民間企業要的是什麼數據)
◆ 開票地圖資料來源:
(1) 中選會選舉資料庫:歷年投開票結果(村里)
(2) 主計總處村里代碼
(3) 戶政司村里代碼
-困難點:
(1) 台灣這幾年的行政區經過激烈的整併與改名,村里代碼變得非常重要。我們所使用的統計資料附上的村里代碼有兩個版本:一個是主計總處的、一個是戶政司的。中選會之前用的是主計總處的代碼,但主計總處村里代碼並沒有更新到最新,於是我們必須轉用最新的戶政司村里代碼…(紀錄: 感覺就是個大工程)
(2) 如果不用代碼,就要面對可怕的錯字和異體字。鹽vs.塩、峰vs.峯、台vs.臺、部vs.廍…
-作法:
(1)預先處理好一份得票資料,以及代碼的比對清整。(讓工程師進來做事很方便)
(2)所有的數據清整全靠spreadsheet的函式以及規則運算式,剩下的視覺化交給工程師繼續做下去。
(3)spreadsheet很萬能,尤其對一個數據麻瓜來說,好好學函式、樞紐分析表、規則運算式,處理萬筆資料不會有問題
(4)不知道要用哪個函式來幫助你清整資料?Google吧!這種教學資源真的非常多
(*好好學習 spreadsheet,然後學函式,慢慢撈資料。)
◆ 全台選情資料庫:
大部分的資料跟開票地圖一樣,但多了社會經濟資料庫的性別、年齡、所得等數據來做交叉分析。
-作法:
我們大選當天,將這些『社會經濟數據』跟『開票結果』交叉分析,自動產出一段分析文。
-這段文字具備幾個鉤子(事前觀察社群的討論):
- 誰輸誰贏?
- 天氣與投票率的關係?
- 區域特性(學歷高不高、年紀大不大、所得高不高)?
- 最重要的是,我們不去做判斷,不去說高齡地區就是會投韓、高學歷就投蔡。我們把詮釋資料的權力還給讀者。
▍ 三、2020 立委關鍵制策、財產、輿情全解析
最後這一個是我們跟 ikala 旗下的 KOL Radar 合作的數據專題。
-作法:
我們合作撈出所有立委候選人的從九合一大選後的社群發言資料,試圖去歸納出他們對一些議題的論述與立場。
-對選民的用處:
當選民不知投誰時?在這個網站可以先了解競選人的熱衷的主題(光譜)。
這份資料一共有7.8萬筆,我依然使用 spreadsheet 去清整這包資料。
◆ 立委選舉指南資料來源:
(1) KOL Radar 獨家資料
(2) 公督盟的立委評鑑資料
▍ 四、我們是怎麼抓主軸的?
說了這麼多,但我為什麼會選這些數據及角度切入呢?想教大家如何「科學」觀落陰。
Step1. 首先,我們樂觀預期:
無論蔡、韓、宋誰當選,都會有一半的人會崩潰,上站查詢得票分布。
當時選舉的詭譎程度,以及韓粉與英粉的撕裂程度,都讓我們足以相信「開票地圖」有它的市場性。
但這時候有風聲傳出,好像同業都打算做「開票」,那我們要如何從紅海中殺出重圍呢?
-觀察過去現象:
這時候我就調出了九合一大選時的流量表現,當時天下也做了開票地圖。其實很多人都以為做開票是為了開票當下的讀者需求,但如果你從流量變化來看,其實流量的高峰集中在開票後的 48 小時。
Step 2. 所以,我們大膽猜測
讀者要的不只是開票結果,而是能夠「分享」開票結果。
-網頁的策略規劃:
(1) 立委專輯:選前暖身,我自己最有興趣的題目
(2)開票地圖:即時開票視覺化,也是天下前年累積下來的基本盤
(3)最後的 CTA (Call to action)-數據分析:賦予這一頁很重的「分享」任務,包含在UI的設計上可以做到 8000 多個網頁都有自己的og:img
-網頁的 flow chart:
每次做網頁的時候,總很想要每個頁面都可以有很多入口,可以導去其他頁面,以為這樣就可以提供給讀者很多資訊服務。
但事實上並非如此,你給他愈多條路徑走,他就愈迷惑;最後簡化flow反而讓降低漏斗效應的發生,讓機器人開票的分享功能大爆發。
-規劃CTA-觸發分享:
機器人開票文字,最終任務是要觸發分享。最開始我想做的是很醜的長輩圖,後來修改成og:img的分享樣式(同時帶引用文字)。
Step 3. 讀者買單嗎?
分享的威力超乎預期,比2018年還多吸納了6倍流量。
其中,數據分析頁的流量,是地圖頁的兩倍。
-其他發現 — 圖像化 VS. 文字化:
- 開票地圖:圖像化
- 數據分析:文字化
『數據分析』頁面最後取得得流量是『開票地圖』的兩倍。思考:
(1) 圖像化之餘,讓資訊清楚傳遞會更重要。
(2) 在某些領域,文字是優於圖像。
Step 4. 獲得更多使用者行為
透過 GA、GTM、Crazyegg、Crowdtangle,偷窺更多使用者行為。
-發現:
(1) 打破讀者的同溫層 — 年輕選民:原來家鄉的長輩不是投韓啊
(2) 打破《天下》同溫層 — 流量來源出現了:Plurk!
(3) 分享地圖搜尋排行榜: 請參考下圖
▍ 五、先有好切角 vs. 先有好資料
在位子上想梗想破頭,不如出去感受世界的脈動。
- 我為什麼會挑選這些資料、如何選擇切角,都是跟記者、工程師聊天來的。
- 交叉分析是去跟記者聊出來的
- 機器人裡頭的天氣資料,是因為工程師想要串API
- 後來網路上很多人在催票,提到投票率的問題,就想有沒有可能去做天氣與投票率的交叉呢?
「創意真的很平凡,一直講話、一直講話就出來了。」— 韓國綜藝節目《一日三餐》、《花漾爺爺》系列製作人羅暎錫
如果你願意聆聽、接納,身邊的隊友總會帶來一些驚奇。比如說我接下來要安利的這個彩蛋。
▍ 六、彩蛋
工程師為了爭取更多睡眠時間,竟然(瞞著我)做了一個彩蛋。
→ 總統大選地圖頁面,使用桌機版輸入:上上下下左右左右BA,即可下載svg。
▍ QA:
1. 請問數據記者、工程師PM的職責各別是什麼呢?差在哪裡呢?
A:
策展編輯(講者本身角色):PM 原本是要協調專案的進行,但在前期大部分都是講者一個人做完。
數據記者: 中選會新進資料處理,前期數據探勘,聯絡對接中選會
工程師 PM: 頁面優化,把數據跟地圖對接
2. 聽說最近天下雜誌也開始做新冠肺炎的專欄,可不可以也分享你做這個專欄的心路歷程呢? 資料視覺化是以什麼靈感設計的?
A:
以下分享幾個感想
(1)我們的角度是給讀者數據,但不造成恐慌。
(2)數據從哪來? 我們是否該信任? (比如研究 vlook up 在百度上被搜尋的程度=中國復工程度)
(3)預告下週一天下會有新的新冠肺炎專題: 全境感染30天台北淪陷時,哪種封城手段最有效?
3. 最後進來的流量有多少之後成為天下的讀者?
A: 因為這次專案沒有去綁會員,所以無法得知。但政治類的題目較少轉換,因為大家都是過路客比較多。
4. 請問什麼是 UX Lab? 實際在做什麼工作呢?
A. 是公司內部自行成立的,跨BU跨部門的組織,裡面是一群對UX有興趣的人,成為一個顧問,來審核這個案子 (是一群很厲害的人)。
想更深入了解 WiDS Taipei Conference 2020 的活動內容嗎?歡迎到此連結索取當天活動的 12 份完整簡報檔!
(這次講者的簡報都超級精彩,強烈推薦大家多多索取喔!)
▍更多 WiDS Taipei 2020 精彩演說紀錄,請查看下面索引文:
💖💖💖💖💖💖💖💖💖💖💖💖
如果喜歡這篇文章,可以送我們拍手 👏 👏👏 50下,支持我們繼續努力!
(找找左側或左下角 “拍手符號👏”,長按可以連拍50下喔)
💖💖💖💖💖💖💖💖💖💖💖💖