探討心理學研究數據處理與開放文化

用開源軟件 FormScanner 來自製電子掃描器、自由而來的進步

開放數據是最近的趨勢,香港政府響應架設新平台《資料一線通》。在心理學界,當代一些提倡者想推動開放數據來提升研究品質。在大學的第三年,我嘗試了學生研究員(即RA)的工作,看看不同心理學教授在研究甚麼,也啟發了我思考一下數據的價值。

傳統的做法是先人手批閱測驗卷,再將得分逐筆打入試算表中

先說一些數據處理的小觀察。據我親身體驗,資料輸入的過程非常煩複,要手動逐筆將一些手寫的回應打入電腦中。通常(我的大學)研究要測驗的對象都是小學生,學生研究員要實地走進小學裏,面對面用例如「韋氏兒童智力量表(WISC)」問他們一些問題。根據評分標準,研究員記下其答案及得分。

紅色所示部分是今次想改善的流程

時代進步了,有人說我們可以用手機App開一個試算表來記錄。不過似乎不太適用在今次的情況。因為額外的手機可能令受試小朋友分心,而且外借電子設備又有保安風險。研究職員又要花額外時間去指示學生幫手如何使用、行動網絡連線等總總問題。基於以上的問題,究竟可以以最少改變去大幅提升數據轉錄的效率呢?

問題概覽

  • 今次問題:轉錄手寫計分成機讀數據需時

最初解決辦法:改動問題計分卷

人類與電腦都可以明白的記錄表(在此用紅色只用作強調之用,實際標記用黑色)

解決方法還是回歸傳統。對於學生調查員,用紙筆來才是在小學現場數據收集一個最簡單的方法。不過我可以在學生調查員所用記錄紙上做一些改動(應該稱為記錄簿才對,因為每個測驗學生要在一個下午一次過進行拾多個測驗)。最初的想法是改動已有的記錄簿,加入像平時考試的多項選擇答題紙,加入電腦可讀的標記(Optical mark recognition)。

不過掃描佰多份 多頁 紙本記錄反而更加耗費時間。而且,最大問題是貿貿然去改動原本的記錄簿。這些變動又𧗠生了一堆棘手的問題,好像電腦標記與問題的排版、浪費已印好的記錄卷等。因此,修正方案改成額外附上 只有一面 刻有電腦可讀標記的紙,讓改卷員變成「考生」,用較低成本將計出的分數填在記錄紙。

提升數據錄入效率及準確性,用Sketch製作。
引入多一張紙的效率變化

學生RA面對面實地收集完,可以直接在記錄卷計分再掃描。再由教授的RA用 FormScanner 去消化這些原始紙質數據。在 FormScanner 可以設定:每一個問題答案的位置(XY像素坐標)、答案合成群組(如學生編號)、填黑的閥值、答案框樣式(圓形/方形)、紙張邊界定位點樣子(圓形或上圖的L字形四角)。兩位調查員可以像之前分開改卷,再檢查得出的分數是否一致(雙重檢驗或評分者間信度,具體例子有香港考試及評核局的網上評卷系統),不過新方案可以將改卷結果直接餵給機器去處理,所用的記錄紙可以透過之後詳述的開源跨平台軟件- FormScanner 來快速轉換手寫標記為機讀格式。另外,MC 紙上問題編號側,附上星號來代表該問題是該頁最後一題,方便調查員對應問題卷與此 OMR 記錄紙。同時,也可以分離小學實地收集原始與辦公室改卷記錄。

考慮人類使用者的度身訂造設計

改良方案:掃描並轉錄成機讀格式

FormScanner 的官方網站截圖(載點誌於文末)
測試有標記的樣本

一對一實地收集完,可以直接將記錄卷掃描,再由 FormScanner 去消化這些原始紙質數據。在 FormScanner 可以設定:每一個問題答案的位置(x, y 坐標)、答案合成群組(如學生編號)、填黑的閥值、答案框樣式(圓形/方形)、四角紙張邊界定位點樣子(圓形、L字形)、同一問題允許答案的數量(多選問題)。

FormScanner將從學校現場所得到的紙筆記錄轉成機讀格式,如csv檔案直接讓R讀取去作後續的數據清理與統計分析,更快找到研究問題的答案
掃描結果暫存在試算表一下,進行簡單數據檢驗與清理後,才輸出成其他數據格式

雖然計分這個步驟在辦公室內進行,研究員可以用Google問卷直接填寫數據,不過研究所記錄的科學數據皆是機密,含有個人私穩外泄的危險。相比起來,上述的掃描方案皆可以離線進行,不用將原始數據暴露在網絡上。

主要所用軟件

  • draw.ioInkscapeGIMPSketch:製作可機讀的計分紙

甚麼才是一個好方法?

不同工具各有優點,靈活運用方為上策。

數據收集與處理工具眾多,最重要還是因時制宜(Goodness-of-fit)。視乎情況採用最適合的方法來達到目的。在心理學中,因為人的心複雜,有不少角度都拋出來去剖析同一行為出現的原因。當代也有一些心理學家採用折衷主義,即使不同的理論各有缺點,相信只要可以為人類帶來正面效果就取其利,與其他治療法併用。另外,功能性固化是認知心理學中著名認知問題,描繪人類因工具的「原本」用途,無法想出一些創新的方法去解決問題。好像Excel不一定只能當作計數機,也可以變成畫布。

最近翻譯維基百科一則素質-壓力模式條文,所製的附圖。我是製作者User:Blacktc,上圖版權及描述頁,只需CC-BY即可。

開放數據,我認為是一種態度。在我最近協助補充中文維基百科心理學英文版)的內容時,資源共享幫到我𧗠生出更多新的意念。舉個例子,我剛巧留意中文維基百科首頁右下角「參與維基百科」的一個杯這幅(上圖最左面)不太關事的SVG圖(定義2維圖像的XML檔案),因而想到將它製成一個新的插圖,用來視覺化變態心理學中「素質-壓力模式」,解釋壓力對心理健康的影響。我再用CC-BY授權上載至維基共享資源,不論個人還是商用,其他使用者可以任意使用,只要給予標示製作者名稱即可。

自由而來的進步

《星空奇遇記:發現號》(Star Trek: Discovery, DSC) 第2季

數據、資料、知識,沒有第一步如何激起之後的千層浪。作為一個科幻迷,我時常思考未來究竟會怎樣呢?《星空奇遇記》是最吸引我的故事之一(冼樸,其著名瓦亞星人問候手勢🖖)。先進的科技:宇宙翻譯器、物質複製器、全息技術等去支持一個無錢的未來世界。推動人們學習的動力不再來自外在的物質,而是「自我進步、自我富足、為全人類更好」的Growth mindset。開放文化提供東西給人們去練習,Open for participantion。好像上述「杯」的例子,原本的設計是一個「透明筆筒」,不過我可以𧗠生其他產物(remix)。開放,有時候帶來意想不到的結果。

延伸閱讀

順帶一提

有人問我Excel例子中的做法,我就附上相關網上教學,不在此解釋。

欄列分級來組織數據層次
設定格式化的條件來自動標出有問題的地方

🐟Curtis Chan Chun Tsong

Written by

讀心理學,鐘意科技同效率相關題材。A Psychology student is hooked on technologies and productivity. #地鐵迷 #非火車迷 #科幻 #電子化 #硬筆書法#手寫 #metro #digital #handwritten #calligraphy

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade