2018年選舉公報政見欄首度「解禁」,可以用圖片取代文字。不少候選人發揮創意,但是圖片的形式卻不利資料電子化與傳散。我們將政見上網並格式化(原始資料開放供各界使用,資料試算表連結請按此)的過程中,發現了兩點資料的問題。
政見格式讓人抓頭崩潰
狀況1. 各縣市中選會給的檔案格式不一樣
每一個縣市的中選會似乎沒有統一資料檔案格式,有的是可複製的pdf、有的卻是無法複製的pdf,加上選舉公報首次開放圖片,所以兩種pdf檔案又包含無法複製的圖片檔,如此雜亂的資料格式只能手動處理,非常不利於公眾將資料再使用。(除非請非常多工讀生幫忙XD)
狀況2. 候選人政見格式不一
我們原本想要歸納出十大項政策類型,將22縣市長政見分類填進去,讓讀者更能針對自己關注的類型看政見,結果發現根本是不可能的事情,因為不要說不同縣市了,就算是同一縣市候選人的政見格式也都不一樣。
無法複製文字時的救星-OCR工具「Copyfish」chrome套件
就在記者與編輯走投無路的時候,工程師大大天降神手告訴我們Chrome商店中有一個OCR的套件,可以直接將圖片內的文字辨識成可複製文字。
什麼是OCR呢?
光學字元辨識(英語:Optical Character Recognition,OCR)是指對文字資料的圖像檔案進行分析辨識處理,取得文字及版面資訊的過程。來源:維基百科
這個好用的OCR套件叫做「Copyfish」,操作簡單準確度又高,他可以直接在螢幕上截圖辨識某個特定區域的圖檔,因此非常適合用「小量、圖片解析度高」的圖片檔。
瀏覽器會出現黑魚形狀,先設定語言
下載後,你會發現你的工具列會出現一隻黑色形狀的魚(最右邊的logo)
要進行分析前要先設定一下系統,點擊右鍵後會出現「設定」頁面,先把「input language」改成 Chinese Traditional(繁體中文)。這個系統其實同時兼具翻譯功能,你也可以選擇要翻譯的語言是什麼,如果不需要可以選擇把「Translate after OCR」關掉,不然它辨識出來後面會跟一堆翻譯文字。
到了你想要OCR的頁面,按下黑魚就可以開始截圖翻譯
設定好後,你可以回到你想要OCR的頁面(以選舉公報為例),按下黑魚圖案後會跑出一個叫你拖拉框框的文字,點擊左鍵拖拉出範圍就可以了。
等它一下,過幾秒後它就會跑出辨識後的文字,可以將文字複製到文件上自己重新排版,在這次的政見轉換使用上,辨識結果都蠻準的,但筆畫較多的字容易出錯。如果不滿意辨識結果也可以按「recapture」重新辨識。
開放的資料才能有更開放的政治
「選舉公報首度解禁可放圖片,22縣市長候選人政見比一比」一文就是用這個工具產出最後的文字的。除了選舉公報的文字以外,我們也盡量去找了各候選人的政見網站,但最後發現做政見網站的候選人少之又少(想好好看候選人的政見真的好難…),多數候選人都把臉書當做自己的政見發表網站,所以我們便一起附上了候選人的臉書連結。
雖然有些人會說候選人政見只能看看,但政見仍是投票時一個非常重要的參考,更不用說政見也是候選人當選之後的基本監督依據。有開放的資料才能有更開放的政治,如果政見格式沒辦法完善,選舉公報隨著選舉激情後被丟入垃圾桶,誰又能回頭檢視這些選舉軌跡呢?
最後一定要推一下g0v大大們所做的「議員投票指南」縣市長與議員候選人資料公開網站,資料豐富超用心!
有你,才有《報導者》,邀您用行動支持!
優質深度報導必須投入優秀記者、足夠時間與大量資源⋯⋯我們需要細水長流的小額贊助,才能走更長遠的路。竭誠歡迎認同《報導者》理念的朋友贊助支持我們!
官網:https://www.twreporter.org/
臉書:https://www.facebook.com/twreporter/