解密政治獻金資料

zoelee
mirrormedia
Published in
7 min readNov 17, 2017

好啦,終於要來解密我們自己 (?) 了。

g0v 在 2014 年做政治獻金透明化專案時,我旁觀了整個過程。但那距離現在也有好幾年了,為什麼會突然想要做這題?原因其實很簡單,就是突然看到李宗榮老師的研究

某天偶然在臉書上滑到中研院社會所副研究員李宗榮針對 2008 年政治獻金集團的捐贈排名,當時我剛做完「天下沒有白挖的水泥」專題,對於遠東集團以鉅額投資立委的事覺得很有趣。但腦中浮現的第一個問題就是:這麼多錢到底捐給了誰?

由於捐獻的立委名單並沒有在文章中被揭露(畢竟不是這個研究的重點),想要解答,就只能自己來了。

但其實一開始提案是被拒絕的🙀。大概是有 g0v 專案的前車之鑑,知道這得花大量的人力、時間才有辦法做到(還沒有成功破解所有的立委專戶);再加上,對這份資料到底能夠解答什麼問題、它到底是不是一個好新聞?

我們都同意它「可能」會是一個好題目的「開始」,但檯面下可能有更龐大的金流是不會在申報的資料上被看見的。再加上,證明對價關係非常不容易。

這當然是進行一個調查報導要負擔的成本,但最大的考量還是,由於後續所有的延伸報導都得奠基在這份基礎資料上,這份基礎資料要花費多少力氣、值不值得投資,對於一個媒體來說,都需要好好評估。

不過我還是有點任性地繼續尋找可能性。後來直接連絡上李宗榮老師,第一個問題就是問:你是用手工處理資料的嗎?還是有什麼厲害的方法?奇蹟沒有發生,老師當年的確是用手工處理資料。

不過奇蹟發生在這裡。老師說他是交給打字社處理資料,給了我們一個比預想低很多的金額,也說處理資料其實不會花太久時間(眼中瞬間閃出熊熊火光內心充滿希望)。

提報了新的資料處理方式之後,老大就放我去做了。我原本預留了一個禮拜的時間(甚至找工讀生的扣打)要去監察院把資料全部印出來,結果事情根本沒有我想像得那麼難。

還記得當時是禮拜四先去探路,想摸一下流程才能發包,結果人很好的承辦人滿臉疑惑,說「你明天來一天應該就能處理完了吧!?」(眼中再次閃出熊熊火光內心充滿希望)。

事實上真的只花了一天時間(不過真的是一整天,從早上八點到下午五點),跟 g0v 專案最大的差別,就是我們只印了營利事業捐獻,而資料量沒有想像中那麼大。

那為什麼不處理個人捐贈明細呢?監察院的承辦人員告訴我,個人捐贈的資料若公佈會有違反個資法的風險。雖然可以將資料加工(如遮蔽部分姓名)後公佈,但如果有人可以依據資料辨認出某人的身份,公佈資料的人就會有法律責任。

風險太高,加上與我們合作的老師主力在營利事業研究,我們就在五項捐贈來源裡只選了營利事業政治獻金。

以下是一些處理資料的細節,不知道講出來會對誰有幫助,但就一併分享:

由於查閱專戶是要付錢的。監察院的承辦人員很好心提醒,其實有些人沒有收到營利事業政治獻金,就可以排除在名單外。

所以我週四探完路,就先趕緊先做了一個立委參選人的清單,透過監察院已經公佈上網的「政治獻金結報表」(在監察院公報裡,是 pdf 檔),過濾掉沒有拿錢的候選人,也順便加上一欄營利事業政治獻金收入總額,隔天在查閱資料的時候就可以確認監察院的明細資料跟結報表是否一致。結果還真的出現了不一致的情形,當下就反映給監察院處理了(印證了資料要被實際使用才知道狀況啊~~)。

我也在列清單時發現「參選名單」跟「專戶名單」不一致。像 2016 年立委選舉的投票日是 1 月,按照規定,在投票前十個月可以申請專戶,但是登記參選是在 11 月。在這個過程中確定了樣本是:「有登記參選且有申請政治獻金專戶的候選人」。這樣印一印,大概花了五千多元。

把資料拿出來之後,原本預計要直接交給打字行,但詢問了幾間報價後有點猶豫。團隊內的工程師直接用 Adobe Acorbat 將掃描檔轉成 word。我看了一下轉出來的內容,中文辨識的部分大概只有 50% 準確,數字大概有 80%,這時就想起了李宗榮老師特別提醒的,最重要的是統一編號,絕對不能錯。

那,就算交給打字行,回來的資料我好像也得人工再檢查一次;我也去諮詢了 g0v 當年做資料處理的榮尼,詢問為什麼沒有考慮線上軟體 OCR 或是交給打字行這樣的做法,得到的回應也是「避免不了需要人工校正,但不想自己人工處理或是花錢請人處理,又想設計群眾參與的機制」,就決定採手動 key in了。

除了我以外,還發包了一半出去,兩個人花了整整七天的時間把資料 key 完。我自己又花了幾天把結報表的內容也處理完。接著是清理資料,也在過程中發現一筆統一編號key錯(跟申報公司名稱不符,但錯的統一編號屬於另一家公司),後來回報給監察院,承辦人直接回頭去找申報當時的收據,確定是立委在申報的時候打錯了。

Key in 的過程就沒有什麼好分享了,就是眼睛很酸。

倒是在清理與分析資料的過程有個部分想分享,就是如果可以的話,請找個夥伴。

我是跟工程師 K 一起做(我也請他寫了一篇開發關係圖查詢工具的心得,請期待),除了比較快以外,最重要的是可以互相驗算、確認方法。

這次的做法主要是有一份額外加上集團的原始資料,再疊上各種不同的資料。由於資料很多,又邊做邊更新,常常就會碰到一步錯步步錯的狀況。多一個人幫忙,可以減少做到最後才發現原本資料就丟錯的狀況,也因此這段期間真的是戰戰兢兢,要不斷思考這樣分析這樣統計是不是對的,會不會有問題,好幾個晚上兩人的對話框都以「感謝今天又平安的度過了(雙手合十)」作結。

(另外有人問到集團資料的部分能不能開放,這是李宗榮老師那邊協助我們比對幾個學術資料庫,我們再人工修正的。部分資料有智慧財產權,所以無法直接開放,很期待綠盟的透明足跡專案~)

另一個就是跟租屋專題的心得一樣,有顧問超重要的。可以從分析的結果看出有沒有跟(研究該領域者)的認知相差太遠,即時調整樣本或分析方法,或決定要不要再更進一步。

順著說下來,我想提的是選材的方向。政治獻金當然有很多面向可以做,但我們很快就在採訪中發現,由於監察院幾乎只會檢查政治獻金是否「正確」或「違反規定」,如資料key錯、分類分錯、或捐款人是虧損事業等等,候選人申報的是不是百分之百涵蓋了選舉時的金流,監察院不會查證,檢調系統也不會。

這就產生了一個問題。這些被拿來檢視的資料,都是乖寶寶;報得少的、刻意隱匿的我們都無法查證,這不只會讓政治獻金被貼上一個負面的標籤,只讓遵守規定的人被放大鏡檢視也很奇怪。這是之所以我們決定暫時擱下任何與對價關係有關的分析調查,因為政治行為太複雜了。

那這份資料有意義嗎?我認為還是有的。

老大在上一篇提到,「要做到有價值的相關性分析,需要的是更多的資料集」,我覺得不只如此,還需要更多的「研究」。分析不是只要把數字拿來看看拼拼湊湊就好,我認為如果是媒體這端要做這件事,至少需要相關學術研究的輔助,因為每個領域都有它獨特的背景知識。

如同與財產資料的比對。除了需要時間數位化以外,我試了之後發現並不是每一個候選人的財產都有辦法化為一個實質的「數字」。那要怎麼做才能讓財產資料變成一個量化的指標,就需要相關研究的支持了(如果有什麼人知道的話歡迎來跟我們聊聊!)。

但要衍生更多的資料集、或是更多的研究,都需要基礎資料的打底。雖然我們最後只做了基礎工程,但我們期盼的是,未來能有更多的應用在這份資料上開花結果,不管是我們做,還是其他媒體、其他感興趣的人。這也是我們毫不猶豫把資料釋出的原因之一。

總之,謝謝這次所有的回饋、幫助與參與,我們還在這個專案繼續努力。自己學到另一個最大的收穫,就是永遠不要用假定的方式,以為那裡沒有故事,就放棄前行。

--

--

zoelee
mirrormedia

READr 記者兼數位專題製作人。曾任週刊記者,沒有特定新聞路線的雜食系,2017 年進到一個工程師超過半數的團隊以後開始慢慢長理科腦,希望能為還願意看新聞的人提供好新聞。