2018年選舉公報政見資料問題與OCR工具分享

2018年選舉公報政見欄首度「解禁」,可以用圖片取代文字。不少候選人發揮創意,但是圖片的形式卻不利資料電子化與傳散。我們將政見上網並格式化(原始資料開放供各界使用,資料試算表連結請按此的過程中,發現了兩點資料的問題。

政見格式讓人抓頭崩潰

狀況1. 各縣市中選會給的檔案格式不一樣

每一個縣市的中選會似乎沒有統一資料檔案格式,有的是可複製的pdf、有的卻是無法複製的pdf,加上選舉公報首次開放圖片,所以兩種pdf檔案又包含無法複製的圖片檔,如此雜亂的資料格式只能手動處理,非常不利於公眾將資料再使用。(除非請非常多工讀生幫忙XD)

狀況2. 候選人政見格式不一

我們原本想要歸納出十大項政策類型,將22縣市長政見分類填進去,讓讀者更能針對自己關注的類型看政見,結果發現根本是不可能的事情,因為不要說不同縣市了,就算是同一縣市候選人的政見格式也都不一樣。

光是台南市,政見就有兩則是圖片檔。

無法複製文字時的救星-OCR工具「Copyfish」chrome套件

就在記者與編輯走投無路的時候,工程師大大天降神手告訴我們Chrome商店中有一個OCR的套件,可以直接將圖片內的文字辨識成可複製文字。

什麼是OCR呢?

光學字元辨識(英語:Optical Character RecognitionOCR)是指對文字資料的圖像檔案進行分析辨識處理,取得文字及版面資訊的過程。來源:維基百科

這個好用的OCR套件叫做「Copyfish」,操作簡單準確度又高,他可以直接在螢幕上截圖辨識某個特定區域的圖檔,因此非常適合用「小量、圖片解析度高」的圖片檔。

在chrome商店中搜尋就可以找到Copyfish套件了。

瀏覽器會出現黑魚形狀,先設定語言

下載後,你會發現你的工具列會出現一隻黑色形狀的魚(最右邊的logo)

要進行分析前要先設定一下系統,點擊右鍵後會出現「設定」頁面,先把「input language」改成 Chinese Traditional(繁體中文)。這個系統其實同時兼具翻譯功能,你也可以選擇要翻譯的語言是什麼,如果不需要可以選擇把「Translate after OCR」關掉,不然它辨識出來後面會跟一堆翻譯文字。

到了你想要OCR的頁面,按下黑魚就可以開始截圖翻譯

設定好後,你可以回到你想要OCR的頁面(以選舉公報為例),按下黑魚圖案後會跑出一個叫你拖拉框框的文字,點擊左鍵拖拉出範圍就可以了。

等它一下,過幾秒後它就會跑出辨識後的文字,可以將文字複製到文件上自己重新排版,在這次的政見轉換使用上,辨識結果都蠻準的,但筆畫較多的字容易出錯。如果不滿意辨識結果也可以按「recapture」重新辨識。

開放的資料才能有更開放的政治

選舉公報首度解禁可放圖片,22縣市長候選人政見比一比」一文就是用這個工具產出最後的文字的。除了選舉公報的文字以外,我們也盡量去找了各候選人的政見網站,但最後發現做政見網站的候選人少之又少(想好好看候選人的政見真的好難…),多數候選人都把臉書當做自己的政見發表網站,所以我們便一起附上了候選人的臉書連結。

雖然有些人會說候選人政見只能看看,但政見仍是投票時一個非常重要的參考,更不用說政見也是候選人當選之後的基本監督依據。有開放的資料才能有更開放的政治,如果政見格式沒辦法完善,選舉公報隨著選舉激情後被丟入垃圾桶,誰又能回頭檢視這些選舉軌跡呢?

最後一定要推一下g0v大大們所做的「議員投票指南」縣市長與議員候選人資料公開網站,資料豐富超用心!


《報導者》定期定額贊助夥伴招募中>>> http://bit.ly/2C3hweE

加入《報導者》官方臉書>>>https://www.facebook.com/twreporter

《報導者》新聞官網>>>https://www.twreporter.org/