用資料新聞與媒體、社群、公部門互動:我在 READr 的第一年

zoelee
READr
Published in
15 min readOct 15, 2019

雖然今年已經是我在這個媒體的第三年了,而且其實第一年的時候 READr 還沒正式成立,我們還是鏡週刊的技術團隊(現在還是喔)。當時團隊對「我們想做什麼樣的新聞」還很模糊,但陸續做了玩命運輸、政治獻金等專題,有一些心得,原本要到 g0v summit 分享,但因為我申請上 GIJN ASIA 的 fellowship 只好請同事代講。

剛剛在整理演講稿,挖到這篇寫得很完整的講稿。既然都寫好了,不如就放上來吧;加上今年開始著重的、研究的、關注的可能會是不同角度的事,也算是替過去的階段任務做一個結尾。

以下文長,但句句真心(?)。

我是一個記者。從大學、大學畢業到現在,我從事的都是新聞工作(事實上也才兩份)。如果用哈利波特的情境來比喻的話,各位常常活躍於 g0v 的參與者們就是天生有巫師血統的人,相比之下我就是個麻瓜。很多你們覺得理所當然的事,轉化到我們眼裡是完全不同的邏輯。從旁觀察,進而學習,直到我也有能力使用魔法。

雖然覺得這樣講很老王賣瓜,但我真心覺得在媒體界有這樣的角色很重要,所以決定要好好把這一年多來學習到的事情留下一點紀錄,希望有更多記者、媒體工作者能夠成為這個角色。

資料的魔法

我在 2016 年 2 月加入了這個團隊,在這一年多來從實作過程中去暸解何謂data-driven journalism,也意識到過去自己是多麽畫地自限。

我的上一份工作在新新聞周刊,曾經報導資料科學愛好者年會,當時 g0v 在年會裡規劃了一軌資料新聞的議程,我採訪了從非洲 Code for Africa 的 Justin,他們在非洲做的事是把科技人才,資料分析師、工程師送進媒體裡。協助他們用更好的方式來說故事。後來我把這個故事跟台灣的資料新聞現況做成一個專題。

所以 2015 年底我接到這個工作的邀約是很興奮的。我沒想過自己會有機會可以去實踐這件事。

這個角色的轉換,就像我們後來做的政治獻金報導。當時天下雜誌的佳賢很厲害地直接拿了我們的資料做出有趣的應用,但也有很多媒體直接照抄我們調查的結果。我的意思是,過去,我以為記者只能是這樣的。就像我報導 Justin,報導台灣的資料新聞發展,去報導他人,但沒想過我們可以 create 一些什麼。

資料新聞有它列在教科書上的定義,但我從一次差點失敗的經驗中去理解它的重要性。它不只是拿資料來說故事而已,重點是 driven。

這個經驗來自我在團隊的第一個專題,玩命運輸,是一個關於運輸業過勞的報導。一開始,我們只是因為當時有很多運輸業開始罷工、抗議、甚至因為過勞死發生事故,我們發現了它的共通性,想針對更源頭的、也就是「運輸業」的勞動狀況做盤點跟討論。

然後就理所當然的,挑了幾個現在有人出來抗議或出事的個案訪問,台鐵產工、華航罷工、嘉里大榮、客運司機(因為蝶戀花)。但途中一直覺得怪怪的,就有一種無法說服自己的感覺。

直到某天開會的時候,我們開始討論起:為什麼是華航,不是長榮?寫了嘉里大榮,那黑貓會不會也有一樣的問題?延伸了到底什麼叫做血汗,甚至坐在我旁邊寫 code 的工程師也覺得自己很血汗。

我們到底應該如何具體呈現過勞才公平?有沒有一個標準?

這時候我想到了我一開始有列在我的待辦事項上,卻沒有做的事,那就是「勞檢裁罰資料」。

但之所以它會在清單的這個後面,第一是因為這份資料很難取得,現在當然已經全部公開上網了,但去年我們做這個專題時,必須一個個跟地方政府要資料,雖然勞動部要做年報一定有資料,但他就是不肯給我。資料四散,格式不一,甚至有所缺漏,這時候我的第二個、也就是最關鍵的想法讓我迂迴地繞了遠路又回到起點。

每次聽到資料新聞,我想很多記者心裡都會出現一個問號。哪有人寫新聞(嗯嚴謹一點的)不用資料的?我們都需要做表格、做圖表去驗證你的說法是對的呀 — — 這種心態,就像把資料當成「配件」,只是印證你的說法是對的,反正個案故事血淋淋的在眼前,那更真實。

所以我就想,如果來不及整理,就不要它了。反正它只是一個表格而已。

但這份資料其實可以解決我們的所有問題。我後來花了一個月把資料搜集完畢,從結果分析來看,所有行業中違反勞檢次數最多的,運輸業榜上有名;超時工作這一項,運輸業甚至包辦了前幾名。

而且我們的個案剛好都是被裁罰的對象。為什麼不選長榮而是華航?因為它有被罰,而且年年都被罰不改善。

做到這裡我鬆了口氣。還好我們的直覺還算準,只捨棄了一個個案(台北捷運,因為他沒被罰,但後來在發佈的那天,一個北捷司機在執勤途中死亡,我們還是用番外篇的方式將它發布),不然連採訪都要重來了。

它當然可以用一開始的面貌,只有個案故事,悲情訴求,就發布。但我想我可能還是會一直惦記著工程師說自己也很血汗的這個問題,而也有一部分的讀者可能不會被說服。或者是它就跟過去很多很多感人又悲傷的故事一樣,在新聞的洪流裡被遺忘。

並不是說有了資料就多麽偉大。但是有了這份資料當「靠山」,你會發現你的論述更穩固,而且能將議題擴大到更廣的面向,可能就有更強的理由來支持你說這個故事、而人們又為什麼要關心。這是我認為的,資料的魔法。

站在巨人的肩膀上

在整理勞檢資料的時候,我發現了一件事。用關鍵字搜尋,就發現蘋果日報每年其實都有針對這件事做報導,但只有說前三名是誰。我當時多希望報導上有一個 download 鍵或是記者的電話可以讓我知道整個資料的全貌長怎樣。這是我們堅持開放資料的原因,我們報導,同時也把使用到的資料發布,讓大家都能夠站在前人的肩膀上更進一步,不必重工。

當時我跟同事輪流騷擾勞動部,在勞動部給到第三個不同的理由拒絕提供我們資料的時候,我已經做好了要跟全國十幾個地方政府抗戰的準備。當時朋友聽到我在做這件事,告訴我做「求職小幫手」的 Ronny 也有在蒐集勞檢的資料,並牽線讓我們認識。

但當時的資料只更新到 2016 年 3 月。當時 Ronny 製作資料集的方式是這樣:用程式追蹤有沒有縣市放出新資料,接著手動下載,轉成統一格式(google spreadsheet),更新進資料庫裡。非常吃人力。

如果我要自己做這件事,我還是可以得到 Ronny 已經整理好的 2016 年 3 月以前的資料,然後再跟全國 10 幾個地方政府對抗,把資料更新到最新。但我就想,既然我都要做這件事了,為何不直接將資料補進榮尼的資料庫裡?

所以我就成為了資料義工,照 Ronny 的 SOP 幫忙把資料補完,最後得到了一個連續 3 年的勞檢資料庫,讓我順利完成報導。這是我們團隊第一次跟社群的合作。

不再單方面接收資料,而是主動取得資料

第二次,是大家比較熟知的政治獻金數位化專案

其實一開始主管不太想讓我做 — — 原因就是 2014 年 g0v 的政治獻金透明化專案並沒有完成。由於資料量太龐大,加上「去監察院查資料」這件事太吃人力,雖然很多人願意在鍵盤前面打打字,但沒有前端的資料 Key in ,基本上很難把所有資料都辨識完成。

我會突然想做這件事,是當時結束了《天下沒有白挖的水泥》這個專題,對於水泥業影響政策的能力非常讚歎。而當時又剛好在臉書上看到了中研院李宗榮對於政治獻金的研究,列出了前十名,我心裡又開始想:天啊,如果可以拿到原始資料有多好!

當然主管的第二個顧慮是,其實這只是檯面上的資料。私底下的金流交易我們是沒辦法查的,這也成為專題發佈之後很多人的質疑。但光從李宗榮的研究報告中就可以看出很多有趣的現象(包括遠東集團捐了超級多錢),而且這份資料雖然是「公開的」(你只要去監察院查閱紙本就可以看到,非常公開XD),但並不為人所知。

如果要辦法追蹤檯面下的金流、讓台灣政治獻金申報的制度變得更好,那至少我們要先起個頭吧?

我很興奮地聯絡了李宗榮老師,想知道研究者是不是有什麼特權可以直接拿到電子檔。但他告訴我沒有,他也是請研究生去監察院印。在我心中的火就要熄滅時,老師說,其實資料量不大啊?印出來請工讀生打一打、或發包給打字社並不會花太多錢。

我這時候才發現他做的事跟 g0v 當年做的其實不太一樣。政治獻金捐贈有很多種種類,包括收入、支出,收入也有很多項目,像是個人捐贈、營利事業捐贈、人民團體捐贈、政黨捐贈等等。老師只著重在營利事業捐贈項目。

我們思考了可以報導的主題,加上我們希望隨著報導開放資料,個人捐贈並不是一個適合公布的資料。我們也試印了支出資料,發現內容有點太龐雜。最後我們也決定鎖定營利事業捐贈。

我只花了一天就在監察院把一屆的資料查完了。用 Acrobat 轉檔之後,發現其實至少有五成的一致性,我們決定人工辨識結束這一回合。我用了一個月完成它(其中有 1/3 發包出去),並在報導發布之前把資料開放出來。

這應該是台灣新聞界的首例,把你花了一個月辛辛苦苦清完的資料就這樣「拱手讓人」。當時天下雜誌立刻做了一篇很棒的報導,但除此之外,剩下的應用都在資料社群裡,其他媒體的報導都只有說誰拿很多錢之類的。這份「獨家被搶走」的恐懼其實沒有這麼嚴重。

那為什麼要做這件事?其實從勞檢資料到政治獻金,我都想著,如果之前的報導/研究有資料留下來就好了,就不用花這麼多時間重工。雖然你花了心力在整理這些資料,但老實說它不應該是誰的資產,而記者也不應該自傲地覺得自己已經將這份資料的價值發揮到最大,誰知道以後還會發生什麼事?

你手上的資料可能是錯的?主動一點吧

只是,做這件事除了會被稱讚人很好以外,有什麼好處嗎?

在一般新聞產製的流程中,記者常常因為採訪關係拿到各式各樣的資料,如讀者爆料、NGO 發的調查報告、公關公司發的新聞稿、學者提供的研究資料、政府提供的統計資料等等。有點慚愧的是,我們通常只對讀者爆料會有比較嚴謹的查證。

但倘若我們不再把資料當作配件,而把資料當作一位受訪者,對它問問題。第一個問題當然就是先去察覺它本身的代表性有沒有什麼限制。

方法

1. 準備各種可以校正的資料
2. 理解這個資料是怎麼來的
3. journalism,也就是透過採訪獲得相關背景知識
4. 主動回報,讓資料變得更好

準備各種可以校正的資料

在製作政治獻金專題的過程中,我很驚訝地發現政府發布的資料也不見得百分之百正確。這當然跟它產生的過程有關,只要資料有經過「人」,就有可能犯錯。結果我在查閱前為自己準備的各種清單(只是以防不要漏查了哪個候選人,畢竟跑一趟監察院申請查閱也算是一種成本),反而變成了我的校正工具。

以政治獻金查閱為例,在查閱前後,我分別準備了這些資料:

先知道資料長怎樣

知道資料的格式跟欄位有助於你事先想像這份資料能夠做什麼事。因為 2014 年 g0v 就已經有部分數位化的結果,我在跟團隊開會討論題目前,跟 Ronny 要了當時的掃描檔,以幫助我們規劃這個題目,也能大概想像清這份資料大約要花多少時間、以及你還會需要什麼資料當作輔助。

查閱的清單

我們只計畫查閱營利事業政治獻金,所以營利事業收入為 0 的候選人我們就不用查了(查一個帳戶要 20 元,還是能省則省)。

在將查閱清單傳給監察院的工作人員以提出申請之後,我將這些名字做成表格,並將它們的營利事業捐贈收入金額列成一欄,這需要事先數位化另一份資料,就是監察院發布在網路上的「會計報告書」。

監察院原本就公開在網路上的會計報告書

這份資料會有每個收支科目的總和。它是PDF,所以同樣要把它數位化成電子檔。我把它與中選會的參選人基本資料結合。

數位化會計報告書,跟中選會的參選人資料結合

並在查閱清單資料增加一欄「筆數」,我在監察院邊查閱邊填寫資料總共有幾筆。

不要小看這份資料,我就是因為它才知道監察院公布的資料也有錯。像是資料庫裡「李慶華」的資料顯示的金額是「11400000」,是我資料上金額的兩倍,我能夠馬上發現是因為資料重複了兩次,並通知監察院的人員。

另外還有金額不同。我發現「清單上的帳戶總額」跟「查閱系統裡的明細總額」有時候居然不一樣。這也是之後花時間跟監察院校正的內容之一。

而我手寫的「筆數」,也能在打字完成之後對照跟機器統計出來的筆數一步一樣,看是否漏打了。

理解資料的生產過程

在所有方法中,這是我覺得最重要、卻最容易被忽略的。

上述提到,政治獻金「清單上的帳戶總額」跟「查閱系統裡的明細總額」出現了不一致的狀況。我們這次查閱的政治獻金資料追溯到了第七屆,也就是 2008 年選舉,據監察院的人員表示,明細的系統跟總額的系統是分開的,但到了第八屆立法委員選舉時,就已經改為:明細打完之後,會自動生產出會計報告書(各項目總額)。的確,我們發現比較多錯誤的地方都是在第七屆。

知道了這件事之後,我對第七屆的資料也更小心檢查。但同時這也代表,若第八屆、第九屆的資料也有明細跟總額不一致的問題,就是其他狀況了。我們這次遇到的狀況有:候選人更改明細之後忘記按「重新計算」會計報告書、或廠商打錯資料⋯⋯

另一個例子是勞檢的資料。就像一開始說的,我後來是直接加入了爬資料的流程,而 Ronny 當時設計的 SOP 是先用機器判斷政府有「新的」資料(產生清單),再手動將資料抓下來轉化成機器可讀格式(輸入進對應的spreadsheet),放進清單裡。

但我發現有些縣市明明就有新資料,機器卻沒有抓到。後來發現是因為政府網站改版了,機器沒有重新設定。如果你不暸解資料是如何生成的,就很難立即找到原因。

另外,因為事先的調查讓我知道勞檢資料是地方政府的權限,而有些地方政府只願意提估一年的資料,超過一年就下架了。這也是我們盡了全力還是只能拿用兩年半的資料來統計,不能再往前推進的原因。

所以當政府終於推出勞檢資料庫,我很直覺地就覺得有問題:當時我一個一個去拜託的那些固執的地方政府被勞動部說動了嗎?一點擊資訊頁,印證了我的直覺是對的,每個地方政府提供的「資料區間」不同。而當時已經有媒體沒發現這個限制的狀況下誤用了資料,推出勞檢資料庫的資料新聞。

背景知識的具備

Data journalism、Data journalist 之所以跟其他工作不同,就是它後面接著的這個字。你不能埋首在電腦前,把資料當作你唯一的受訪者。你還是要去訪問、去尋找故事、去印證這些資料在現實生活中是不是真的如此(如果不是,那也是另一種詮釋資料的方式)。甚至訪問這些資料或研究的產生者,都會有些驚喜在等你。而這些知識也會幫助你察覺資料的限制跟缺點。

舉例來說,我們一開始在跑「哪個產業捐最多政治獻金」這一題時,很直覺地去統計政治獻金捐獻的公司的產業的捐獻金額,發現第一名是電子業。但這跟我採訪的結果不符。我採訪的學者說,電子業是比較少依附政治關係而獲利的產業。

因為這件事讓我更改了「問問題的方式」。我看了一下電子業的公司總數,是所有分類裡最多的(也就是電子業類公司比起其他類別的公司母體樹本來就比較大)。所以我們更進一步,從「哪個產業捐最多錢」多問了一個「哪個產業最積極捐錢」,將該產業有捐獻的公司數/產業公司數。

最後一項就是主動(向資料提供者)回報問題。

資料有人使用

在校對資料的過程中,我心中常常浮現「哇今天要不是我使用了這份資料這些錯誤是不是會一直存在?」,雖然可能都是一些很小的細節,但其實你也不知道未來這份資料會怎麼樣被使用。

政治獻金數位化專案裡,其實我自己最感動的是監察院,提供資料以後,沒有兩手一攤地放棄資料維護的責任。

尤其在早期沒有電子申報的狀況下,就是候選人團隊填什麼、廠商就打什麼。我們將資料數位化後,發現有很多公司名字缺字、統一編號缺字等很容易辨識出是「寫錯字」的錯誤;當然也有很多不是那麼明顯的,統一編號跟經濟部公司登記的名字對不起來。

這些有疑義的資料,我將它們一一列成清單,回傳給監察院。監察院的人員幫我回頭去對原始的收據(聽說還有卷放在遙遠的分部,還要調回來查),確定到底是打錯字、還是原本就是這樣寫,來來回回大概花了兩、三個月才完成。真的有誤,監察院也會順帶修正他們的資料。

監察院的人甚至會幫忙宣傳我們的資料庫。有幾次我去查閱,閒聊時候,他說上次有個人要來查第九屆立委的資料,他就會先問要不要去鏡週刊的網站看,他們把資料都整理好了。而當然,這個專題最大的成就,是《政治獻金法》終於修正通過了,順利的話,以後的選舉,所有政治獻金的明細都要公開上網。

社群的部分也是。 g0v 時常都有人熱心地爬資料出來,但當我以記者的角度要採用這些資料時,才會發現資料有問題。當然在回報之後很快就能得到修正。

像跟我們合作過兩、三次的 Ronny 就說,他就是喜歡爬資料跟收集資料,但很多資料他都是爬出來,就做個簡單的頁面放在那裡,沒有做後續的應用,如果資料有問題自己也很難發現。確實有因為跟我們的合作讓資料更完整。

在這些一路實作的過程裡,我學會了一點點用程式清資料的技能。我並不覺得這是專屬於工程師或是資料分析師的技能,若把資料當成受訪者,這些基礎的程式語言就像磨練你的問話技巧,得以挖掘到更深入的答案。

而這些經驗也會形成一種「語言」。跟我們合作租屋資料的 Ddio 就提到,「跟有在做資料、視覺化的人合作時,因為有溝通基礎,不用花太多時間釐清對方領域的 ABC,比較有機會做出新的、且可行的點子。」

這一年多來,實際體驗到開放政府的可能、社群的活力、跟新聞圈的保守。記者應該要做什麼、新聞應該怎麼樣、這些都是別人應該做的⋯⋯形成一個隱形的框架。當然也很幸運是我的主管願意給我這樣的空間去嘗試,即使這個嘗試有可能會是失敗的,因為花時間清資料也是一種報導的成本。也希望愈來愈多人能有「資料意識」,包括社群、包括讀者、包括政府,這樣身為記者的我們也能有更多嘗試跟呈現的可能。

--

--

zoelee
READr
Editor for

READr 記者兼數位專題製作人。曾任週刊記者,沒有特定新聞路線的雜食系,2017 年進到一個工程師超過半數的團隊以後開始慢慢長理科腦,希望能為還願意看新聞的人提供好新聞。