FAIR 原則:去哪裡存放科學資料?總之不是放在科學論文裡!

前一篇關於 FAIR 原則的文章中介紹了隨著科學論文出版資料時應該要考慮到的四項準則,其中一項準則是「Findable:資料與後設資料(Metadata)應該獨立被放在可被搜尋引擎查找的儲存庫」。我們這就來看看到底可以放在哪裡。

Photo by Paolo Chiabrando on Unsplash

隨著科學論文一同出版資料,傳統的作法是以附件的形式(Microsoft Excel 檔、CSV 檔,或者是某種軟體可讀取的二進位檔 )呈現在論文最後面,叫做「補充材料」的章節(Supplemental Material,也有些期刊則把它叫做 Supplementary Information)。在研究資料量快速增長的今日,這種作法已面臨到幾個問題:

  • 從使用者的角度來看,雖然期刊論文本身大都能被搜尋引擎的爬蟲索引起來,但補充材料則因為具有各種格式以及(對於非開放獲取性期刊來說)通常位於付費牆後,材料本身還有相關的描述是很難被搜尋引擎記錄下來的,增添使用者搜尋的困難度和花費時間。
  • 論文本身通常只有會有一個穩定且永久的識別連結(DOI),通常是指向文章的摘要以及後設資料例如作者、出版日期等等資訊。補充材料內的資料並沒有 DOI 直接連結,只要出版商把網頁架構換掉,取得資料的網址與通訊協定就可能會更動。雖然不會直接影響到資料的搜尋,但是會讓舊有的機器自動化讀取的流程失效。就像是你寫了一個腳本自動下載某個論文的資料,但某一天卻忽然發現因為網址換了所以不能用了這樣。
  • 從出版商的角度來看,當論文分析的數據量開始變大,又要把資料作為論文的附件,那麼管理、維護的責任就會落到出版商頭上,這些成本顯然不是他們願意承擔的。

以上問題的最終解法就是作一個獨立於任何出版商的資料專用儲存庫,把所有的研究資料都放在裡面,然後再長期維護,保持這些資料可隨時被搜尋、下載。聽起來很理想,但這種儲存庫的營運與維護需要花錢,而且不是像一般的科研計畫只燒三年五年錢,真的要弄的話,可能要有決心永續的燒下去。這可能嗎?我還不知道,不過至少在美國,我的觀察是有一批地科人決定從挑戰科研獎助計畫的模式開始,提議如果是針對資料管理、基礎建設相關的計畫,獎助的時間可以比三五年還長,這樣至少不會說弄好了一個新的資料儲存庫,結果資金就用完了,維持不下去。

幸好,在以上事情發生之前我們還是有一些選擇。以下是三個符合 FAIR 規範且目前在地科界很流行的資料儲存庫,而且幾乎都是免費的:

  1. Zenodo:Zenodo 是歐洲核子研究組織(CERN)架設的資料與軟體儲存庫。這個專案本來只是供 CERN 內部的工程師儲存、交流程式碼用的,不過 CERN 決定擴展專案的規模以支援歐盟執委會(EC,European Commission)決議的、想要讓所有歐盟資助的科研計畫資料公開的需求(OpenAIRE 計畫,Open Access Infrastructure for Research in Europe)。目前是透過 CERN、EC 和 OpenAIRE 的計畫資金維持營運。Zenodo 的最大特點是可以跟 Github 掛勾,把任一個 Github 的儲存庫內容複製過來,更可以在發佈 Github release 後自動更新儲存庫的內容和 DOI。這對程式碼、軟體類型的補充資料(像是作圖腳本、Jupyter Notebook 之類的檔案)非常友善。
  2. Pangaea:Pangaea 是由歐盟執委會和其他的德國政府機關(如德國科學基金會)資金支持的資料儲存庫,由阿爾弗雷德·魏格納研究所(AWI)和不萊梅大學負責管理營運。和收錄資料的領域雜七雜八的 Zenodo 不同,Pangaea 專門儲存地球與環境科學領域的資料,並且還依照這些學門的子領域分門別類,因此除了透過關鍵字搜尋之外,也可試著瀏覽相關分類找到可用的資料。
  3. Dryad:Dryad 是一個美國的非營利組織,負責營運同名的資料儲存網站。Dryad 跟 Zenodo 一樣都收錄各種研究領域的資料,不過不同的是 Dryad 對資料的要求更為嚴謹,有專門的團隊審核上傳資料是否符合各種開放資料的規範、後設資料是否充足等等。Dryad 的另一大特點是只接受 CC0 作為資料的使用許可,最大程度的開放使用者使用資料的權限。另外,Dryad 的收費模式是學術機構會員制,任何人使用資料是免費的,不過上傳資料的話只有隸屬於有訂閱會員的研究機構人員才是免費,不然的話要付一筆小額的上傳費當作營運與維護資料的費用。在 2020 年,Dryad 與 Zenodo 決定進行合作,在保留雙方的特點及區位之下進行未來發展方向的討論。就讓我們看下去將來會如何發展…

有了這些服務,相信在未來的論文中我們會越來越常看到指向資料儲存庫的外部連結。至於原本附在期刊裡的「補充材料」章節該何去何從,還需要寫嗎?我就留待下一次再來探討這個問題。

--

--

Whyjay Zheng 鄭懷傑
地科人之眼

Postdoc at UC Berkeley Statistics, working on geoscience stuff: 🛰🌏❄🧊🌋🪐. Also loves 🏂🏕. Views = my own. | UC Berkeley 博士後研究,前面的 emojis 大致呈現我的興趣。觀點僅代表個人立場。