科學資料的 FAIR 原則是什麼?

Photo by Romain Tordo on Unsplash

地球科學研究極度仰賴各種自然觀測,有的時候你要自己出野外收集這些資料,另一些時候則是直接鑽研前人的研究紀錄。理論上,隨著時間流逝,人類蒐集的觀測數據會越來越多,只要分析逐漸變大的資料庫,研究結果就可以慢慢逼近地球系統實際運行的原理。雖然聽起來很理想,但地科研究者卻發現很多時候還是只有自己的資料能用,運用別人的資料總是困難重重。這其中牽涉好幾個層面:

首先,「盡可能地分享研究數據」是近期才出現的觀念,是科學家注意到海量資料帶來的分析潛力後才開始提倡的。傳統的認知則是恰恰相反,為了預防研究成果與功勞被別人剽竊,科學家會謹慎地處理想要公開的資料,更會妥善保護好珍貴、不易取得或最原始的數據。「如果你想要,你只能聯絡我,然後再看看我們要不要合作!」

讓我們以一篇 20 年前的科學論文當作例子:Jónsson et al., 2002全文連結在此)。這篇曝光度蠻高的文章使用了地表 GPS 測站和 ERS-1、ERS-2 兩枚衛星的觀測資料分析 1999 年加州 Hector Mine 規模 7.1 地震的地表變形。研究本身非常精采,但內文完全沒有提及相關資料要怎麼取得。這就是那個年代科學文章的典型狀況:你可以在文章附圖中看到經作者解釋、畫上去的數據,但在不連絡作者的情況下,沒有任何方法可拿到原始資料。我相信在這篇文章發表後的幾年內,向作者要資料的問題應該不大,但只要時間一長,資料因各種因素佚失(手動刪除、硬體毀壞、知道資料在哪的人失聯…)的可能性就越高。說明一下我沒有特地寫信聯絡論文的第一作者 Sigurjón Jónsson 問這篇論文的原始資料、分析結果和相關程式碼還在不在,如果你有興趣的話可以試試看。(然後記得發文到地科人之眼分享一下你的成果!)

還有一種狀況是資料仍然存在,但使用者卻無法在網路上搜尋到相關資訊,更別說是載點了。在資訊量爆炸的現代,搜尋引擎找不到的資料就跟不存在的資料沒兩樣。舉例來說,我非常相信 Jónsson 這篇論文中用的 GPS 資料應該還存在於地球上的某處,像是美國地質調查局(USGS)的伺服器內,但是當我 Google 「1999 hector mine earthquake GPS data download」時,跳出來的搜尋結果沒有一個連到看起來有機會下載到資料的地方。如果我真的需要分析這筆資料,最後大概還是得聯絡作者看他們硬碟中有沒有檔案,或是分享一下某個內網的下載連結,一來一往,浪費的都是科學研究者寶貴的時間。

就算真的取得了資料,問題也還沒完。要怎麼處理這些數據?Jónsson 這篇論文中用的 ERS-1 和 ERS-2 原始資料可以免費在 Alaska Satellite Facility 與 NASA 合作的資料儲存中心(DAAC)取得,但如果不跟文章的作者要程式碼來讀取、處理資料,你就只能花費大量時間,自己從頭開始建立資料分析流程*。另一種可能碰到的情況,是文章作者確實提供了資料,但卻沒有告訴讀者足夠的資訊,例如測量儀器的精確地理位置、測量數據的單位、測量的誤差等等,有時候甚至還要使用者自行揣摩資料提供者的意思才能繼續處理資料,這些問題都要花上額外的時間減決,更可能減損研究人員辛苦取得或分析資料的功勞。

*好消息是,這幾年越來越多人用 InSAR 技術,因此你應該可以找到現成的軟體來處理 ERS-1/2 的資料,畫出跟 Jónsson 這篇論文一樣的圖,不過還是需要花不少時間學習怎麼用就是了,大概是大學課堂中幾周作業的難易程度。

Photo by Mika Baumeister on Unsplash

以上問題已引起越來越多科學家的注意。在 2016 年發表在 Scientific Data 上的一篇文章(Wilkinson et al.)算是這一波開放資料運動的濫觴,也是 FAIR 這個概念首次出現在眾人眼前。FAIR 是四個互相關聯的名詞組合成的首字縮寫,由這些名詞引申出一些指導原則,讓研究人員、機構單位與科學出版商使用最佳的方式生產與儲存資料。像是寫部落格要注意 SEO 一樣,FAIR 提醒科研人員要隨時考慮你的資料能不能盡可能地被其他人或電腦存取及利用。這裡可以找到 FAIR 資料原則的更多敘述,不過以我的話來說,FAIR 包含的四個概念分別是:

  1. 找得到(Findable):資料與後設資料(Metadata)應該獨立被放在可被搜尋引擎查找的儲存庫。考慮到大多數網域的名稱並非亙久不變,推薦為資料註冊 DOI 作為長期的資料 URL 連結。
  2. 拿得到(Accessible):能做到完全的資料公開下載是最好,不行的話也可退而求其次,要求使用者需經過某種身分認證(例如註冊下載網站的使用者 ID)才能下載資料也可以,不過需要詳細說明身分認證的步驟,盡量不要讓它成為下載資料的阻礙。另外,後設資料應該要比資料本身能存活更長的時間,就算多年過去資料已佚失,也還是能透過後設資料得知「曾經有這麼一筆資料存在」的訊息。
  3. 看得懂(Interoperable):資料本身使用共通、常見的格式儲存,並且在後設資料與其他相關敘述中使用清楚、易懂的語言描述資料本身的各種細節。不管是人或是電腦程式,都應該不用費太大的心力就能把這筆資料運用在不同的分析流程之中。
  4. 用得心安(Reusable):附上資料的使用授權(License)讓其他人知道怎麼在法律允許的範圍內使用你的資料。後設資料應該要豐富地表明資料的科學單位、產生方式、不確定性、引用說明等等,盡可能地讓其他人用得心安。

地科界當然也加入了這股開放資料的浪潮。早在 FAIR 論文出現的兩年前,地科界的各大出版商就已對此議題達成共識,形成了 COPDESS(Coalition for Publishing Data in the Earth and Space Sciences,地球與太空科學資料出版聯盟)這個團體。FAIR 出現後的不久,COPDESS 就決定要以它作為出版資料時的最高指導原則。在 2022 年的現在,聯盟中的某些出版社如 AGU 或 EGU 訂出了比較嚴格的規定,強制投稿者遵守符合 FAIR 的資料出版規範,而另外一些如 Elsevier 等等的出版商則只是柔性的「建議」投稿者考慮 FAIR 原則。個人認為,在大數據分析已成為科學界新趨勢的現在,以後對於學術出版與開放資料的要求想必會變得越來越嚴格。

在之後的文章中,我預計來談談具體來講要怎麼做,才能讓你的科學數據在出版時符合 FAIR (與地科界出版社)的原則。

--

--

Whyjay Zheng 鄭懷傑
地科人之眼

Postdoc at UC Berkeley Statistics, working on geoscience stuff: 🛰🌏❄🧊🌋🪐. Also loves 🏂🏕. Views = my own. | UC Berkeley 博士後研究,前面的 emojis 大致呈現我的興趣。觀點僅代表個人立場。