【調查報導幕後|數據篇】《報導者》如何從法院判決書勾勒盜砂輪廓?結合地理圖資說故事有哪些心得?

本文是《海峽下的風暴:中國盜砂船入侵下快速消失的台灣海砂、魚群,與被毀的電纜》專題技術筆記上篇,《報導者》將分享團隊如何自一篇篇台灣及中國法院判決書提煉資訊,並轉化為地圖敘事;下篇則由設計師分享地圖動畫製作心法。

文/柯皓翔(《報導者》Data小組召集人)

2023年4月底《報導者》團隊推出海砂專題,其中在「產業鏈篇」──〈遊走兩岸海域的暴利生意:盜走台灣海砂,中國業者現形〉,文字記者易安與Data小組的我、毅慧,以及PM琴宣、設計師Ethan合作,嘗試以滾動式地圖影片呈現中國抽砂船的作業模式。

這樣的產業輪廓是從200餘篇中國及台灣法院判決書整理而來。說實在,這個題目在資料層面堪稱「工人智慧」,不過過程中所運用的工具、方法論、協作技巧,仍有許多心得和試誤經驗可和讀者、同業們分享。

以下我們分別從「資料收集」、「資料結構化與清洗」、「建立基礎地理圖資」、「繪製地圖草圖」、「方法論限制」等環節與讀者分享製作工法與心得。

一、資料收集:

「判決書」常被記者用來輔助調查,裡頭所記載的細節往往能幫助報導團隊掌握議題脈絡和趨勢:如何理解中國盜砂產業?涉及哪些角色分工?每個環節存在多少利潤?抽砂船來自何方?被盜海砂又流入何處?這些我們感興趣的問題,逐漸從一篇篇的判決書文字中找到線索。

1. 以關鍵字測試有效搜尋範圍

我們這次使用中國裁判文書網、台灣司法院裁判書系統收集判決書資料。以判決書作為方法論時,首先要確認什麼樣的「關鍵字」能讓我們收集到目標資料?接著,再依據目標資料的量體選擇合適的分析方法。

中國裁判文書網使用介面

在中國判決書部分,我們一開始先保守地以「海砂」為關鍵字初步搜尋,發現海上非法抽砂的行為,其案由是屬於中國刑事的「非法採礦」罪,因此便以「海砂+非法採礦」作為搜尋關鍵字;為避免重複,我們也將範圍收斂在基層人民法院中(不計中級和高級)。

中國裁判文書網上,左側篩選器可讓使用者篩選案由、法院層級、裁判年分等不同條件

在台灣判決書部分,其實相對單純。我們參考相關判決書後,決定以「抽砂」作為搜尋關鍵字,聚焦「連江地方法院」、「金門地方法院」、「澎湖地方法院」、「橋頭地方法院」4地的刑事判決共計23件,其中位在澎湖西南方的「台灣灘」會由後兩者法院所管轄。

2. 下載判決書資料

點入判決書,我們可看到作案船名、作案時間、作案經緯度等資訊,這些欄位都是幫助我們後續分析案件輪廓的重要資訊。而為了歸納整理,我們須將判決書一一下載。

下載判決書的作法包括網路爬蟲(須遵守使用者規範及爬蟲禮節)及人工下載。考量中國判決書系統需要註冊、登入才能使用,該系統也有違規偵測機制,面對279篇的量體,我們認為手工方式、多人分工儲存為PDF,是當下下載判決書最有效率的做法。(但如果今天有上千、上萬篇,我們可能就會換個執行方式。)

如此以PDF格式歸檔有若干好處,不僅能協作、標記重點,也是對當下搜得的判決書做了備份,後續若回頭要查證個案細節時將更加方便。

3. 篩選與台灣離島海域有關的判決書

初步收集到的這批資料,其實還有很多的雜訊。例如樣態是「在海灘上挖砂」(非海上抽砂),或是盜砂地點其實與台灣海峽、離島海域較無關,而是位在渤海灣、廣西及海南一帶等。

在時間、人力有限的條件下,我們需要進一步聚焦與台灣有關者,也就是澎湖外海的「台灣灘」海域、馬祖及閩江口海域、金門及廈門海域。不過,我們該如何篩選出這些文件?

記者們在肉眼掃過判決書、儲存為PDF時,對文中的措辭就會漸生「體感」;記者對議題的掌握度也能幫助團隊熟悉各項地名和別名。

舉例來說,我們觀察到判決書常用措辭有「台灣淺灘」、「台灣海峽」、「閩江口」、「馬祖」、「西犬島」(中國對西莒的稱呼)、「白犬列島」(中國對馬祖列島稱呼)等;這些案件曾出現在福建省、廣東省、上海市、浙江省、江蘇省、天津市等法院之下,大致符合一般對地緣關係的認知。

我們因此將上述省市範圍的所有資料(約207筆,占整體74%),都加以結構化,仔細對照Google Maps、百度地圖,確認其中的地名、經緯度位置,最後,共計98筆判決書落在台灣灘、馬祖及閩江口、金廈海域,是本專題關注範圍,我可進一步分析輪廓。

簡言之,原始搜得的資料中,約35%是這次報導所聚焦的範圍,可用下圖來示意。

4. 如何有效管理、協作文件?

這次的工法中,記者群將檔案都存在Google雲端硬碟中。不過我們也針對專案資料夾開通了「桌面版雲端硬碟」,這樣的好處是,大家在PDF中畫的重點,都能與其他同事即時同步,如此一來,閱讀判決書與更方便快速。

不過,這次出現了一個情境 — — 如果想針對上百個PDF檔案,不斷替換關鍵字篩選檔案,該怎麼做?

首先是可以透過Adobe Acrobat的「進階搜尋」實現,針對特定資料夾進行批量搜尋。

題目製作中期,我們也注意到其實有其他替代工具可作選擇,分別是Google Pinpoint和DocumentCloud,「全球深度報導網」(Global Investigative Journalism Network, GIJN)有文章仔細介紹兩種工具優缺點。

Google Pinpoint是Google開發、協力編輯室的工具,記者或學術研究者者可向Google提出申請、開通帳號,方便探索大量文件,功能包含關鍵字批量搜尋、標籤設定、權限共享等;另外,Pinpoint還有自動標記人名、地點、將影音檔逐字化等功能,但我們測試下來,這幾項功能對中文支援度有限。此外,目前僅能分享給他人「檢視」、未有「共同編輯」功能。

Google Pinpoint使用介面

DocumentCloud允許使用者們共編,也能批量搜尋特定關鍵字。

若未來有大量分析PDF的需求,記者們不妨試用看看這兩項工具。

DocumentCloud使用介面

二、資料結構化與清洗

在PDF上標記重要資訊後,團隊一一將重要欄位資料謄打到Google試算表中,這也是為了下一步整體資料分析。

舉例來說,我們切分的欄位包括:

  • 判決基本資料:案號、省分、法院、判決書標題、案由、發布日期
  • 個案資訊:船舶資訊、被吿
  • 時間及空間資訊:作案年分、作案日期、作案地點、路線
  • 案件重要性:刑度、抽砂量
  • 輔助欄位:地緣關係模式、備份連結
《報導者》圖隊將各篇判決書結構化

不過,為了回答關鍵問題,我們也需要進一步編碼、處理判決書相關欄位。

第一是「船舶類型」:我們根據判決書內容,將船舶編碼為「抽砂船」、「運砂船」或「抽砂船及運砂船」,我們好奇不同類型船隻,是否來自不同的地區。

第二是「經緯度」:如果判決書已經提到犯案經緯度位置,我們便會直接沿用;通常判決書在描述經緯度時,常出現以數字(小數)表示,或以「度、分、秒」格式表示,我們統一換算為數字格式為準(1度為60分、1分為60秒)。

不過仍有許多判決書僅以地名示意,並沒有準確經緯度,遇到這類狀況時,我們先透過Google Maps、百度地圖比對位置,再取該地名之經緯度作為代表。由於這並非最精準的資料,我們會同步標記「是否為模糊對應座標」。以便後續我們要繪製地圖草圖時,可用較大的範圍進行點位示意,如此一來可意識到該點的模糊性,而選用合適的比例尺判讀。

我們使用Google Map、百度地圖等工具,查核判決書提到的經緯度地點

第三則是「點位類型」:判決書在描述船舶的位置時,可能隨著時序、描述到該船「出發地」、「抽砂地點」、「過駁(運砂)地點」、「被抓地點」、「目的地」等,將這些點位加以區分,有利研究者看出不同情境的地理分布狀況。

這項任務有時並非易事──由於地名具重複性和模糊性,往往需要交叉、多方查證。不過,記者也在這樣的過程中,得以在腦中建立起地理圖像。

進行判決書結構化時,正值ChatGPT崛起,我們也曾考慮是否以ChatGPT來清理資料,簡單測試後,確實發現有可行空間,只是最後清理結果仍需要人工查核,而判決書動輒數千字,在時間壓力、預算成本綜合考量下,仍選擇人工處理。

不過相信不久的將來,此類工法仍有很大調整機會。

三、建立基礎地理圖資

除了盤點判決書資料外,我們還需備妥地理圖資,方便後續繪製草圖、也讓設計師有圖資材料可後製使用。這個環節宛如「基礎建設」工程,是後續製作得以推進的一大基石。

一般來說,許多地理圖資都有開源資料,如shp檔、kml檔,不過這次情境的圖資,則多半需要自行建置。

1.台灣灘:

台灣灘是台灣海峽上的淺水海域,然而該地區並沒有劃定具體介線,也沒有現成的地理圖資可用。對此,《報導者》參考國家海洋研究院報告所援引的海軍大氣海洋局等深度線圖,以30公尺水深為依據、重新描繪該範圍。這項工作是在地理資訊系統軟體「QGIS」中先進行空間對位(georeferencing)後,再慢慢描圖而成。

人工畫出的多邊形圖徵建立後,設計師便會進一步接手,調整為合適的視覺風格。

為了畫出台灣灘,團隊需要先建立台灣灘的地理圖資

2. 金門、馬祖限制水域:

執法實務上,若中國抽砂船進入金門、馬祖的「限制水域」,海巡署就會強制執法。而限制水域實際範圍圖資,則是來自國防部過去曾公告的經緯度座標。《報導者》先在試算表上一一輸入座標整理,最後再於QGIS將座標點連線為一多邊形,輸出為kml檔。

為求精準製圖,團隊自國防部網站查找限制水域之確切經緯度後再繪製

四、繪製地圖草圖,再去蕪存菁

當上述材料都備妥後,便進入草圖試畫環節。我們根據盜砂地點區分澎湖西南方的「台灣灘」、鄰近馬祖地區的「閩江口」兩模式,依據「船從哪裡來、海砂被盜去哪」各種問題意識,一一觀察資料視覺化後的特徵。

團隊在QGIS中,嘗試將案件的地理資訊視覺化、觀察趨勢
團隊根據不同問題意識和資料範圍,試畫草圖收斂角度

我們最初分析的結果,不只細緻分析抽砂船、運砂船的軌跡,地名還能細分到「縣級」程度,但讀者需要、想要知道這麼細節嗎?內部反覆思考:我們仍應讓讀者好好地理解地圖分鏡、因此資訊量需小心拿捏,避免讀者閱讀疲勞。

經過「斷捨離」一番後,我們收斂出目前的敘事架構,聚焦「海砂究竟去哪裡?拿去做什麼用途?」,「以讀者為核心」是相當重要的考量。

五、方法論的限制

每一種方法論都有其不足之處,在這次的專案中,採用判決書工法受以下三點因素影響產生限制:

  1. 資料完整度:我們同時比對公開新聞案例時,發現部分個案未收錄在中國判決書系統中,僅能以系統能查到的資料作為分析範圍。不過其他公開新聞提到的地理特徵,與判決書的趨勢仍能彼此呼應。台灣部分,海巡可能「驅離」盜砂船,未必進到刑事程序,因此判決書能貢獻的案件,已經是篩選過的結果。
  2. 時間差:從判決完成到完整文件上網可能有一段時間差,我們推測2022年中國犯案資料筆數較少,也可能與此有關。
  3. 執法強度:判決書較多的時期,可能與中國當局執法較嚴格有關;判決書較少的時期,不代表不存在盜砂行為,可能只是未被查獲。

這些限制,我們也附註於文章中供讀者參考。

結語

整體來說,判決書中所記錄的案件細節,很大程度地幫助編採團隊理解盜砂現象,也幫助我們畫出地理圖像。

但是這樣的過程確實牽涉滿多人工作業,若有精準製圖需求,也非常仰賴對地理數據的理解與操作。如果有志於地圖敘事的團隊,QGIS會是幫助相當大的工具。

對於官方平時並未直接公布,但新聞實務上常使用到的地理圖資(例如海峽中線等),編輯室也可以逐漸建立自己的圖資庫,方便未來重複使用,不用再從0開始描圖。

以上是這次《報導者》團隊的數據嘗試與紀錄,而在中國盜砂船的路徑面貌逐漸清晰後,該怎麼讓讀者更立體的獲取真相?其實還有許多設計層面需要考量,有興趣的讀者歡迎閱讀:

【調查報導幕後|技術篇】《報導者》如何製作盜砂地圖動畫?3D效果如何實現?

如果你喜歡這篇文章,可以幫我們拍拍手 👏 或者留言與我們交流。

📣有你,才有《報導者》

《報導者》秉持深度、開放、非營利的精神,透過讀者的贊助支持來營運,不仰賴商業廣告置入。如果您認同我們的理念,歡迎與我們一起前進,共同推動這場媒體小革命。

☛贊助我們:https://bit.ly/3ylK401

官方網站:https://bit.ly/3rTeR1V
粉絲專頁:https://bit.ly/37jjGYD
Instagram:https://bit.ly/3rWFQJV

--

--

報導者 The Reporter
報導者開放實驗室

台灣第一個由公益基金會成立的網路媒體,秉持深度、開放、非營利的精神,致力於公共領域調查報導,與社會共同打造多元進步的媒體環境。