玩命運輸的資料處理

老大在上一篇從「玩命運輸」看數據新聞有提到,「違反勞基法裁罰紀錄」這份資料是專題的重要立論,但處理過程歷經相當的挑戰,我來補充「後話」了。

說在前頭,勞檢資料能體現部分的勞動狀況,但絕對不是全部,就如過去很多對於勞檢人力不足的檢討。而我們也從整理資料的過程中發現一些問題,提供大家參考。

首先,勞檢歸地方政府管轄,地方政府也依法須定期公佈裁罰結果。所以從各縣市政府的網站上,可以取得資料。

而勞動部每年都會將統計結果公佈在年報,理應有各縣市提報上來的原始資料,但我們陸續從不同管道要了幾次,得到各式各樣的回答:「我們這邊沒有喔」、「資料要改版」、「檔案太大」、「跟縣市政府要就有啦」⋯⋯,嗯,是條死路。

於是我就開始了從各縣市政府下載檔案的過程。通常一個月就是一份檔案,檔案格式從 csv、 xls、 ods、到萬惡的 pdf 都有,甚至還有紙本掃描這種完全無法用程式破解的 pdf,我只能乖乖 key in。

格式問題還不只是檔案格式。光「勞動基準法第 32 條第 2 項」就有超級多種寫法:「勞基法 32 條第 2 項」、「勞基法第 32 條 2 項」、「勞動基準法 32 條第 2 項」、「勞基法 32–2 」、「 32 」(你哪位?)⋯⋯,但對我們的需求來說,它都應該要是同一個結果。

業者的名字也是。交通部臺灣鐵路管理局、交通部台灣鐵路局,繁簡台臺,有的有代表人、有的沒有,甚至還有錯字的,是場艱難的戰役。

還有,「不要使用合併儲存格」應該要貼在每個承辦公務人員的電腦前。處理過程中我實在很好奇,勞動部沒有統整格式,每年的年報到底花了多少時間整理?

不過在這裡想特別提一下新北市。論資料的乾淨程度,台北市毫無懸念第一名。但回到這份資料公佈的本質,是要讓一般民眾知道企業違法的狀況。例如有個人要應徵新工作,想知道這間公司有沒有違法紀錄,總不能要他點開一份一份的pdf慢慢地找公司名稱吧。

新北市勞動雲建置一個簡單頁面,設了「搜尋欄」,只要鍵入公司名稱或負責人名稱,就能找到結果。雖然對於我們這種需要原始資料的團隊並不友善(後來承辦人有說之後會把原始資料掛上去),但我覺得這是唯一一個有思考到資料使用者的縣市。

這裡要感謝一個強大的後援,來自 RonnyWang 的求職小幫手。呼應剛剛說的使用者需求,求職小幫手是一個網頁套件,讓你在 104 找工作的時候可以順便看到企業的違法紀錄。

Ronny 手上已經有他整理自各地方政府的資料,時間到去年 6 月。我便循著他整理資料的方式,接手將去年 6 月之後、以及後來發現有缺漏的 100 多份資料補上。

但在整理資料的過程發現,一年內的資料沒什麼問題,若要上溯到去年、前年,就開始出現差異。有些縣市的資料完整,自己的網站上就掛著從2012年開始至今的資料;有的縣市網站上沒有,應該是求職小幫手在資料下架前就抓取的。

差異在哪?原來在2012年《勞基法》修法時,將違法事業單位名單從「應」公布,改成「得」公布,一字之差,讓公布這件事變成了一種行政處分。

又,勞動部也曾召開協調會,決議「公布最短不得少於一年」,那一年之後資料怎麼處理?部分縣市將資料下架,並主張「既然公布就是一種處分,那再將資料提供給記者、或繼續公布,就形同對業者的二次處罰」。

但有些歷年資料都相當完整的縣市,如新北市、台北市、台中市。新北市說他們是以《資訊公開法》為法源,且會議決議是說「不得少於一年」,並不代表一年後就得下架。

矛盾的是,如果資料一年就得下架,否則就是重複處分,那如「求職小幫手」這樣的第三方,在政府資料下架前取得資料,另行公佈可不可以?誰又有權力要第三方將資料下架?

2015年6月勞動部的會議上,也有人提到這樣的問題:「現行資訊科技進步,一經公布即難以抹滅,請業務單位研議是否於施行細則規範」,但目前沒有最新進度就是了。

然後這次我們依舊有把資料釋出,期待有更好的應用出現!

One clap, two clap, three clap, forty?

By clapping more or less, you can signal to us which stories really stand out.