關係網路可視化 | 實際案例分享

Zheng-yan Yu

Published in

Vis It 有視沒事

8 min readOct 23, 2018

本文作者

本文介紹我跟同學合作的一篇論文，以一個數字化檔案庫為例，如何使用可視化工具幫助一般讀者對文本進行分析，同時連接細讀（close reading）與遠讀（distant reading）;並在文中展示這個可視化工具的設計過程，以及個人參加會議的感想。

稍早在會議上分享論文的設計思路，現在趕緊寫這篇文章，不然又會繼續拖稿了。

論文收錄於可視化Top 1會議 IEEE VIS 2018 的 VIS4DH （數字人文可視化）Workshop。

今天workshop的開場短講：

會寫這篇文章（以及這一系列的關係網絡文章），是因為去年底修了一堂博士生的課程。在課堂期末時，我跟一位同學合作，完成了一個交互可視化與一篇短論文，然後在今年初時，跟授課老師與同學一起修改這篇短論文，再發到今年的VIS4DH Workshop，最後很榮幸的被收錄了🎉

論文的作者，依次是：Sarah Campbell（同學）、Zhengyan Yu、Sarah Connell（數據項目負責人）、Cody Dunne（授課老師）。

可視化工具的簡要交互如下（gif圖）：

鼠標移到左邊的圓圈上，在中間的關係網絡可視化中，會顯示出這篇文本最常見的文本元素（In-text elements）；也可以直接對關係網絡做交互，看這個文本元素跟文本類別的關係；最右邊的是文本清單，點擊任何一個文本會直接連接到另一個網站，閱讀這個文本的完整內容。

不同顏色代表不同文本類別：戲劇（紅色）、虛構小說（紫色）、非虛構小說（藍色）、詩詞（綠色）。

細讀（close reading）與遠讀（distant reading）

這篇論文最主要探討的是 close reading 跟 distant reading。

Close reading 指的是傳統閱讀一個文本的過程，distant reading 在 close reading 的對立面，distant reading 提供了較為抽象的分析，可以針對一個文本或數個文本。

這兩個概念在數字人文（digital humanity）中，很常被探討與使用，雖然我在最後改論文的時候才知道hhh。

eMargin 是 close reading 的一個代表例子。 eMargin是一個協作工具，可以對文章、句子、單詞進行高亮或是撰寫備註：

Stefanie Posavec的這個作品是 distant reading的一個經典例子，有在關注可視化的人應該對這個作品不陌生：

樹狀結構代表了單詞結構，而不同的顏色代表不同的主題。

雖然有許多的可視化跟工具被開發來探討 close reading 跟 distant reading，然而只有少數的可視化可以同時結合 close reading 與 distant reading，並提供數據分析給使用者探索。因此，我們這篇論文的最主要的貢獻是，開發了一個可以同時進行 close reading 與 distant reading 的可視化分析工具。

此外，在論文當中，也公開了我們的設計思路，從草稿階段到完成作品，透明化這個過程，希望能對設計師或是其他研究數據人文相關問題的研究人員，在設計可視化工具的思路上有所幫助。

數據

我們獲得的數據有三類：

元數據

標題、作者、發佈時間、發布地點、文本類別。

2. 文本元素數據

組織名稱、位置名稱、人物名稱，下圖是人物名稱的例子：

3. 全文數據

從1526年到1850年匯集的文本（TEI-encoded），下圖是一個文本全文的部分截圖：

設計目標 & 設計過程

這裡展示我們從頭腦風暴階段到後續不斷改進的過程。在畫草稿階段，我跟Sarah Cambell同學各自畫了自己想要呈現的可視化，並討論這些可視化的優缺點。

弧線圖(Arc Diagram) 與 Node-link圖可視化

弧線圖（左邊）展示了文本元素跟文本的關係，若兩個文本元素（藍色方框）被紅線連接起來，代表這兩個文本元素屬於同一個文本。

Node-link圖可視化（右邊），展示了機構名稱跟發表地點的關係，若三角形（機構名稱）跟發表地點（圓圈）被連接起來，代表屬於同一個類型的文本，不同的顏色連接線，代表不同種類。

但這兩種可視化對一般使用者並不友好，在解讀上比較不直觀，加上容易產生視覺上的雜亂（visual clutter）。

多視角的可視化

這個草稿同時使用了兩種不同的可視化：左邊是概覽可視化，展示了文本的發佈時間分佈，數據分析維度較宏觀；右邊是Bipartite圖可視化，展示了文本元素跟標題、作者的關係，數據分析維度較微觀。

我們最後決定使用這個多視角的可視化展現方式。在看了許多的關係網絡可視化作品後，我們發現很多作品對使用者並不友好，在交互上或是信息獲取上，都不太直觀。用多視角的可視化，可以較好的解決這個問題。另外，使用Bipartite圖可視化可以減少視覺雜亂，為了讓一般使用者容易解讀，考量這個因素非常重要。

在決定使用的可視化樣式後，我們開始使用代碼導入數據，並繼續迭代修改：

概覽可視化

從左到右是迭代的設計修改過程，一開始使用半透明的圓圈來展示文本的發佈時間分佈。但我們想要讓使用者可以對每一個文本進行交互，所以每一個圓圈要可以讓使用者選取，但階段一有許多圓圈相互重疊，所以我們摒棄這個方式。階段二在階段一的基礎上修改，若圓圈重疊，我們增加的每一個圓圈的半徑，但視覺上仍有許多圓圈重疊；最後我們使用了蜂群圖（Bee Swarm），才解決這個問題。

Bipartite圖可視化

這裡展示了Top 20的文本元素的對應關係。一開始是將Top 20的文本元素對應到每一個文本，我們想要看這些文本元素到底在哪些文本有較高的出現頻率。但因為有401個文本，所以在視覺展現上非常差。我們在階段二摒棄401個文本，使用了文本類別來跟Top 20的文本元素展示對應關係，並將連接線曲線化，視覺雜亂的問題在階段二已經有顯著的改善，但仍有所不足。在階段三，我們將不同的線平均分佈，讓每一條線得以清晰展示。清晰展示關係線，在關係網絡分析中是非常重要的。

PS.在這一階段中，我自己不斷反思可視化設計師的重要性到底在哪。課堂中，只有我跟我同學是可視化設計項目的學生，其他都是Computer Science的本碩博學生。在代碼的作業上我們確實不如這些學生，但在可視化草稿構思階段與後續的設計修改迭代階段，我跟我同學這組獲得授課老師的高度讚揚，只有我們可以想出各種不同的可視化樣式，也只有我們在視覺上有更多的改進想法，這是在其他組別中所沒有的。
或許，設計本身而言就是一個不斷迭代的過程，身為設計師，在視覺上有較高的敏銳性、以及願意不斷的改進視覺呈現吧。