致貢獻於實驗室的青春:透過機器學習快速取得高解析度分析資料

An-Sheng Lee 李安昇
地科人之眼
Published in
7 min readMar 10, 2023

想必許多研究生都有過這樣的經驗,沒日沒夜地蹲在實驗室中採集樣本、處理、上機分析取得能夠為自己論文或指導老師計畫貢獻的數據。往往這些過程是非常耗時、費工的,換來的卻只有少數的資料點,不管是對於研究生的青春還是研究人員的資源精力都是負擔,因此限制了科學發現或是工程探勘的量能。

Generated by Midjourney (CC BY-NC 4.0).

如何更有效率地獲得更多資料一直是我們所關心與努力的,常用的方式為迴歸 (regression)透過對較易獲取的間接資料以及較難獲得的目標資料建立模型來合成 (synthesize) 資料,簡單的例子為全球氣溫分佈,因為我們不可能高密度地在全球建立氣象站並且頻繁收取數據,所以我們就透過衛星取得的全球性資料去合成出全球氣溫,如此我們就獲得了有別於過往的資料覆蓋度與討論視角,而我們的研究概念便是如此。

在古海洋學研究中,科學家於各大洋中取得數公里長的沉積物樣本,透過對其測量碳酸鈣 (CaCO3) 以及總有機碳 (TOC) 含量來回推過去海洋中碳循環的歷史與機制,進而推敲出過去氣候的型態。然而量測這些定量數值的實驗流程相當繁複且耗時,因此亟需要一個合成模型來擴充有限的定量分析數據至整個大尺度的採樣資料。

近年來 XRF 岩心掃描儀的發展可以快速從沉積物樣本中取得高解析度的X光螢光數據,雖然其反映了樣本的物理、化學甚至是生物訊號,惟因缺少均質化的前處理實驗步驟 (也就是費時的部分) 所以常無法直接視為定量的化學分析數據。

透過高效能運算以及機器學習演算法的高學習力,我們有機會對X光螢光數據[較易獲取的間接資料]碳酸鈣、總有機碳[較難獲得的目標資料]建立出合成模型追求更加快速與準確的突破。

註: 本研究是由德國 University of Bremen GEOPOLAR團隊、AWI Marine Geology Laboratory in Bremerhaven團隊與台灣的台大地質系團隊合作開發,台大資工系林軒田教授提供相關技術指導。

圖 1、沉積物岩心分佈位置,不同顏色代表不同航次,矩形標記為 pilot study 所用之岩心,菱形標記為 case study 所用之岩心,圖取自 Lee et al. (2022)。

本研究收集了橫跨南北太平洋的海洋沉積物樣本 (30支岩心,總長約3.4公里,圖1),之中取特定深度量測了約2600筆的碳酸鈣與總有機碳定量數據,另全部岩心以1公分解析度量測X光螢光數據 (約5萬7千筆),兩種數據依深度配對 (pairing) 成所謂的[較易獲取的間接資料 — 較難獲得的目標資料]資料對(圖2 第一部分)。

接著使用1支岩心之資料做前導試驗 (圖2 第二部分),測試 (1) 數據前處理:Principal component analysis (PCA) 、 Non-negative matrix factorization (NMF) 以及 (2) 學習演算法:Ridged linear regression (LR)、kernel Support vector machine (SVR)、Random forest (RF) 何種組合建成的模型可以獲得最佳表現,並以其為後續建模演算法。

第三步 (圖2 第三部分) 便是將前步決定的演算法組合使用在完整資料上,為了嚴謹地衡量模型表現,訓練前先將3支完整岩心數據抽出作為 case study 資料集 (其實就是最終測試),再以剩下的資料以4:1比例做隨機分配成訓練與測試資料集。

圖 2、研究架構流程圖,分為三大部分,依序為資料取得 (data acquisition)、前導試驗 (pilot study)、完整建模 (the whole dataset) ,圖取自 Lee et al. (2022)。

於測試資料集中我們的模型在碳酸鈣與總有機碳值的合成上皆獲得相當優異的準確度 (R2值為0.96與0.78),然而於 case study 資料集中的表現卻下降至0.61與0,經過討論我們發現:

  1. R2會受資料變異度影響,資料變異度較小的小族群如 case study 資料集容易低估準確度。
  2. 校正被低估的準確度後仍可發現模型於測試與 case study 資料集中的表現有所落差,推測隨機分配的資料切分方式仍不夠嚴謹,必須將不同岩心的數據確實分在不同資料集以將 data snooping 的問題降到最低,也就是說練習卷和考試卷試題必須差異得更徹底以確保模型的考試卷分數代表其真實所學而非取巧。
  3. 雖模型準確度並非完美,但和常規所使用的半定量化學元素作為代表值 (proxy) 方式相比,我們的模型因為取用了完整的X光螢光訊號、加強了非線性關係的學習力並且繞過含有人為誤差的軟體操作過程,而取得較佳的準確度 (以碳酸鈣為例,圖3)。

註: 常規研究是使用掃瞄儀器廠商軟體從X光螢光數據中擷取、轉換出特定化學元素的半定量強度,這部分其實含有大量人為操作與經驗誤差。

圖 3、碳酸鈣模型於case study的表現,藍點為定量測量值、橘線為模型合成值搭配灰底的95%信賴區間、綠線為半定量鈣元素強度,abc分別為三支不同岩心,圖取自 Lee et al. (2022)。

最後,本研究的貢獻提供了

  1. 大區域適用模型:未來太平洋地區研究者可直接套用本模型以X光螢光資料合成出碳酸鈣與總有機碳數據,有效減少實驗負擔,流程中建議保留部分資料作驗證準確度之用,模型發佈於 Git repo
  2. 建模流程:未來研究者若發現樣本環境設定與本研究迥異 (如掃瞄儀器不同),或是驗證發現本研究模型準確度於該計畫資料上不佳,則可參考本建模流程自行開發,程式碼皆有開放於 Git repo
  3. 高解析度地化分析數據:本研究取有大區域約3.4公里長岩心,這些岩心皆使用本模型合成出碳酸鈣與總有機碳數據,資料點從2k提升至57k筆。所產出數據以及建模使用之數據皆發佈於 Pangaea

小故事:
這項研究其實是在一個天冷吃火鍋聚會時,筆者與來自AWI的Dr. Weng-Si Chao共同討論啟發的,當時他正苦惱著使用常規方法轉換出來的 Ca 值含有許多負值,因此我們兩人在文章上貢獻相當,之後沒研究靈感大家可以多吃火鍋 (或是多 party) 喔。

參考文章:

Lee, A.-S., Chao, W.-S., Liou, S. Y. H., Tiedemann, R., Zolitschka, B., & Lembke-Jene, L. (2022). Quantifying calcium carbonate and organic carbon content in marine sediments from XRF-scanning spectra with a machine learning approach. Scientific Reports, 12(1), 20860. https://doi.org/10.1038/s41598-022-25377-x

Github repo: https://github.com/dispink/CaCO3_NWP

推薦書目:

Abu-Mostafa, Y. S., Magdon-Ismail, M. & Lin, H.-T. Learning From Data: A Short Course. (AMLBook, 2012).

Müller, A. C. & Guido, S. Introduction to Machine Learning with Python: A Guide for Data Scientists. 1 edn, (O’Reilly Media, 2016).

Ng, A. Machine learning yearning. (deeplearning.ai, 2018).

--

--