數位人文系列2:中國歷史上發生過什麼自然災害?

經過上次段考後,小銘原本很討厭歷史,後來知道歷史的研究是多麼得來不易的,所以開始對歷史感興趣,每天都跑到圖書館找歷史紀載,當作吃飽飯後的休閒娛樂。

小精靈看著小銘一路的成長,欣慰的點了點頭。

小銘:「你知道嗎,我有一次就看到在明朝有發生過一次有史以來最大的地震,聽說那個時候好像死了很多人,在當時也帶給那個朝代很大的影響喔!」

小精靈:「哇~好可怕喔!那是發生在中國的哪個地區呀?」

小銘:「這個我就不知道了欸~紀載沒有紀錄的很詳細,可能別本有記錄到,但想到要去找我就覺得超麻煩的。」

小精靈:「哼!這個你就有所不知了!其實現在已經有可以查詢中國歷史上發生的自然災害系統啦!」

小銘:「什麼!!!竟然還有這種系統,也太方便了吧~你可以為我解釋詳細一點嗎?」

上回我們看到了蔡宗和老師與他的研究團隊如何在數位人文的領域中展現關於《明實錄》的研究,這次我們要介紹的是台大項潔老師及其研究團隊於2019年發表的研究成果,內容所涵蓋的是更大範圍的中國正史,而聚焦的主題是關於自然災害。

什麼是「正史」呢?簡單說就是中國歷代的官方史,自《史記》至《明史》,約跨越2500年,總共有24部(共約4000萬字),通常是下一個朝代根據上一個朝代留下的紀錄來編寫;24部正史當中有14部是《五行志》,當中所記載的內容為自然災害和神奇現象,另外,《本紀》當中亦有記錄災害事件;為要聚焦,本篇論文專特挑出《本紀》和《五行志》的內容作為研究的材料。

對於自然災害的紀錄,可能隨著不同朝代,以及不同的人描寫狀況,很難記錄的非常完整,有些事件可能在不同的記載裡會重複記錄到,或者有些會記錄的很少,難以整合清楚,所以國立臺灣大學資訊網路與多媒體研究所的項潔老師和其研究團隊一起做出一個可以查詢中國歷史上自然災害的時間、地點、影響範圍等等功能的系統,讓研究歷史可以更方便、更仔細。

為要得到更適切的結果,關於自然災害的資料需要先經過初步的整理,因此首先排除了人為的災害事件以及無法解釋的現象,接著將所有的自然災害分類成14種:水災、雨災、霜災、雹災、飢荒、旱災、寒災、雪災、風災、蝗蟲、螟災、瘟疫、地震、山崩。災害事件的記錄基本上需要包含時間(開始時間、持續時間、結束時間)、區域(地點、範圍)、嚴重性(影響、損害、連帶反應)以及頻率。

圖一:自然災害之標記內容

為要確保歷史文本紀錄內容的靈活性和可擴展性,研究團隊設計出一種標記語言WXML來進行資料標記,將事件的時間、地點、類型以及嚴重程度自動標註出來;另外,團隊亦開發出與GIS結合的搜尋檢索系統,可以將所得結果中之災害時間、分布和類型等資訊以圖表化的方式呈現,讓使用者可以鳥瞰資料整體的分佈情形,亦能對照詳細的災害事件列表。

什麼是標記式語言?XML?WXML?

前面提到的WXML是什麼呢?在解釋這個之前,必須先介紹一下XML,因為這裡所提的WXML格式便是源自於XML(Extensible Markup Language),是一種標記式語言,而標記式語言是一種人類可讀懂的語言,被電腦用來註釋電子文檔,讓電腦可以更好地理解文檔的樣式和結構。我們可以從XML的名稱,分成兩方面來解釋它:(1)標記型:使用標籤(計算機所能理解的信息符號)進行標記,比如我們比較熟悉的html也是標記型語言。(2)可擴展:html的標籤是已經定義好的,每個標籤都有特定的含義;而使用者可以自行定義xml中的標籤,並且可以寫中文標籤。來看一個範例吧!

圖二:以XML格式所列出的早餐店菜單

你覺得這個以XML格式所列出早餐店菜單容易讀嗎?是否就像一個比較奇怪的表格?裏面包含了表格名稱、食物名稱、價格、描述、卡路里等等資訊,它長這樣,是因為為了讓電腦比較好讀取裡面所包含的資訊。那其中的基本架構又是如何組成的呢?

圖三:起始標籤和結束標籤

起始標籤和結束標籤。他們分別以大於、小於的符號「< >」來表示。起始標籤代表這個內容從這裡開始,而結束標籤代表這個內容的最後面。起始標籤和結束標籤是XML格式裡不可或缺的一員,每一個內容都必須以起始標籤和結束標籤為頭和尾。 最後,這三項合在一起,便稱為一個元素。

接著,再來介紹父元素以及子元素。父元素便是包含子元素的元素,它代表著以下子元素之間的相關類別。而子元素則是被包含在其他元素中的元素,與父元素有一些關聯。因此若是以剛剛那個早餐範例,其中的<早餐目錄>就是所謂的父元素!

圖四:父元素及子元素

那WXML是什麼呢?其實就是Wuxin Markup Language,中文就是「五行標記式語言」。因為學者是通過《五行志》和《本紀》來研究中國古代的自然災害,所以他們根據歷史記載提煉出關鍵字來對文獻進行標記,把事件的時間、地點、類型及嚴重程度自動標註出來,就是利用了剛剛提到的XML格式。

下圖就是學者設計的WXML格式的部分內容。其中<災區>、</災區>就是前面提到的起始標籤和結束標籤。<災害地點>、<災害範圍>都是<災區>的子元素,<災區>就是他們的父元素,父元素和子元素有著包含的關係。如果在<種類></種類>這兩個標籤之間增加「洪水」二字,「洪水」便是標籤之間的內容,那這三者就構成了一個元素。

圖五:WXML五行標記式語言

項潔老師與他的研究團隊對《五行志》和《本紀》災害內容進行文獻擷取,開發了WXML語言來標記資料,建構了線上資料庫,做出了一個可以查詢中國歷史上發生的自然災害的系統,讓研究者能自由指定災害種類、時間段和地點等多項功能,可於設定後自動產出結果(包含數字、圖表、文字等型態),方便研讀整體資料的分佈情形。

目前系統功能只能處理災害種類、時間段和地點完全相同的災害事件,對於同一災害分散兩地志書的情形無法處理,往後可以再新增解決此問題的合併機制,另外,研究團隊自身提出了一些初步意見,他們認為正史中紀錄的自然災害可能無法如實反映實際發生的自然災害,應該再結合地方志(涵蓋了各地地理資料和人文歷史各方面的記載),如此,系統內就能擁有更多的災害資訊,提供研究者更豐富的呈現,讓研究者觀看並發想有趣的議題。

參考書目與資訊

1. On Natural Disasters In Chinese Standard Histories (DH2018 Digital Humanities conference 2018) https://dh2018.adho.org/en/on-natural-disasters-in-chinese-standard-histories/

2. 五行志https://zh.wikipedia.org/wiki/%E4%BA%94%E8%A1%8C%E5%BF%97

3. 本紀 https://zh.wikipedia.org/wiki/%E6%9C%AC%E7%B4%80

4. 法鼓佛教學院時間規範資料庫 http://authority.dila.edu.tw/time/index.php

5. 中華文明之時空基礎架構 http://ccts.ascc.net/

====================================
研究原創團隊:項潔教授(國立台灣大學資訊工程學系)

科普合作團隊:黃福銘教授、彭鈺湄、吳岱恩、鄭亞南、鄭紹琪、謝馨頤、何怡萱、林玠豪、田安芸、李庭瑩、馮正毅(東吳大學巨量資料管理學院)

指導計畫單位:科技部科教發展及國際合作司–前沿科技成果轉化暨應用推廣計畫
====================================

--

--