上一篇我們談到了,什麼是易用性測試、為什麼要進行易用性測試,以及易用性測試所具備的要素。
這篇就讓我們來談談易用性測試進行時我們到底該準備些什麼呢?
易用性測試步驟
測試準備
1. 設定測試目標與測試任務清單
關於編寫可用性任務的建議可以參考 Write Better Qualitative Usability Tasks: Top 10 Mistakes to Avoid 這篇文章。文章中提到該如何更好的編寫任務,使受測者在執行時可以降低無效數據的產生。Maxxie Lin的文章中則介紹的目標、活動與任務的差別
一般來說測試通常會包含3~4個不等的主要任務,其中在包含數個不等的次要任務
主要任務:尋找復仇者聯盟這週末可訂票的影廳與場次 次要任務:透過電影尋找、透過影廳尋找、透過日期尋找、查詢席位、是否可訂票…
其中在測試時,會給受測者一個使用情境,讓他們能更快的了解操作的目的,也能更真實的接近真實情況。
尤其在進行任務的時候,受測者必須要先知道自己到底做這個是為了什麼才會知道他們到底想怎麼做。
假如你住在永和(永安市場站附近)。你跟朋友約好週末要去看復仇者聯盟,但是還沒有討論好地點跟時間。所以你決定先上這個訂票App看週末時哪家影院與時間可以訂票。
這裡有幾個關於撰寫任務的參考文章
2. 準備測試輔助工具
測試原型:依照測試的階段不同,使用測試的原型也相對不同。在初期階段可以用紙製原型進行。到了後期可以用prototype來模擬真實產品測試。如果想要使用其他的產品測試,也必須先確定該產品與你的目標一致。
事後問卷、資料收集問卷:事後問卷是為了要了解受測者對於測試的整體意見回饋(這是執行定量研究著重參考的依據之一)、資料收集問卷則是在測試進行的過程中研究員在一旁記錄的表格設計。為了更快速的執行,在事前須把所有資料都準備齊全。 除此之外還可以羅列一些可能會想知道的問題,在每個步驟結束後研究員可以進行簡單的提問來取得更多的資訊。
場地時間規劃:在確定任務後就會知道該準備哪些器材設備。以及適合在哪裡進行測試。為了保持不被別人干擾的情況下進行測試,最好有一個獨立的空間,公司裡面可以考慮在會議室裡進行。
再研究室的話通常會有測試的房間與觀察的房間將觀察員與測試者分開,其目的是為了減少受測者的壓力。
受測者招募
Nielsen (2000) 認為,5位受測者即可找出大部分的問題。而Thomas (2013)等人認為6–8位測試者中,大部分的易用性問題在前六位即可找到。但如果受測者是有類別的,則每個類別至少要有4個。
在Tom Landauer和Jakob Nielsen提出了在n位受測者中發現可用性的數量為:
N(1-(1- L)n)
其中N是設計中可用性問題的總數,L是在測試單個用戶時發現的可用性問題的比例。L的典型值為31%,是我們研究的許多項目的平均值。
測試(觀察與紀錄的評估方式)
易用性測試執行的重點是在用戶執行任務的過程下,觀察並紀錄其經過。觀察與紀錄的評估方式為下列
效率(Efficiency):
效率包含多個面向,但整體來說,效率代表使用者在短時間內完成任務,且錯誤發生的機率小。計算方式為:任務完成率/任務平均花費時間 。
- 任務完成與否 (task success):受測者是否成功的完成任務。
- 任務是否有錯誤(error):受測者在什麼情況下發生了錯誤。任務失敗、任務延遲、按錯按鈕等等皆為錯誤。
- 任務時間 (task time):受測者完成任務所費時間。通長花費的時間越短,對使用者體驗則越正面。
滿意度(Satisfaction):
使用者完成任務過程中是否感到不安或不愉快。
學習性 (learnability):
受測者的學習歷程,歷程的難易、快慢為學習性;學習性差對於剛使用產品的使用者,可能因為此障礙進而放棄使用。
學習性常用的計算方式,可以前述任務時間、錯誤、完成等來做為計算;將受測者安排一定時間的多次測試,來檢視指標的變化。
測試評估表格製作
Yuming Cheung有詳細的介紹,該如何正確的使用評估表格,這裏有一份免費的google試算表範例(網路資源)
你需要做的事情有
- 在前面幾個直欄寫下測試的問題(如:電影訂票、查找電影、影院查詢等主要任務)
- 在大任務後面寫下要使用的步驟或腳本
還有其他的重要的質量屬性,其中之一是實用性(utility) 可用性與實用性對於用戶來說一樣重要,因為當這個產品並不是你想要的東西時,多簡單多好操作都沒有用 實用性(utility):是否提供使用者所需要的功能
易用性(Usability):這些功能的易用性與舒適性
有用性(Useful):可用性(Usability)+實用(utility)
測試(開始時)
- 在開始測試前,可以跟測試者說明你的目標是測試產品(網站,App等),而與受測者本身的智能高低/產品熟練度高低無關。
- 說明如何進行測試(如何使用測試的材料、紀錄的方式等等)。記得取得受測者攝影&錄音的同意
- 鼓勵受測者在進行測試時,進行放生思考
- 試後問卷或試後訪談,以及解釋測試結束後的數據、個人資料的處理方式
結果分析
完成測試後,測量的結果與數值會因著產品的不同而不同。但是普遍來說「任務成功與否」、「任務是否出錯」、「花費時間」是相對重要的,只是會依照商品性質的不同而重要程度發生改變。
我們可以根據上圖,從高到低開始解決,也可以根據產品的特性,來決定該解決問題的排序。但問題的排序應以先了解是什麼原因導致問題的發生,而問題的性質又是什麼。接者以問題發生的平率/嚴重程度來決定問題的優先處理順序為準則進行排序。
另外還有一個也是用來輔助測試的SUS (System Usability Scale) 量表。是目前較為人知及運用,測量使用者滿足的五點量表,題目共有10題:Google問卷連結點我
SUS的評量主是採用了”quick and dirty“的方法。可以將第4項和第10項報告為可學習性的單獨度量,以及由所有十項組成的原始SUS分數。
十項組成的原始SUS分數(個別題目的分數沒有意義,加總後的分數才是 SUS 分數) 正向題:第 1,3,5,7,9 題,將各題的分數減 1,得到每題的分數,例如第一題原始分數是 3 分,減 1 後是 2 分。
負向題:第 2,4,6,8,10 題,用 5 減去每一題的分數,例如第二題是 4,5 減 4 等於 1,這題分數就是 1 分。 最後將所有題目分數加總乘以2.5,得到SUS總分(此分數非百分比)。
另外一個研究發現SUS分數均值在68分,所以也有人認為低於均值就代表易用性不及格。關於SUS量表的詳細介紹可以參AlfredCJJ的文章以及Jeff Sauro的文章。裡面有介紹到SUS總分的評級方式
但是要記得一件重要的事情SUS總分的評級越高只代表用起來容易&簡單。而且與用戶的熟悉度有一定程度的關係,因此評級越高並不代表是使用者真正需要的,也不見得就是最好的。要記得與測試過程中使用者真正的需求一起進行評估。
當然還有一些是根據網站/UI進行的評估測量表。關於這個部分可以參考啟發式評估(Heuristic Evaluation)的文章喔!