了解可用性評估:淺談 SUS 量表及其應用

AlfredCJJ
10 min readMar 16, 2023

--

Hi 大家好,我是 UX/UI 設計師 Alfred。在使用者體驗的領域中,可用性評估是相當重要的環節,因為它讓我們能夠更好地了解產品的易用性以及使用者對於產品的看法。

在這篇文章中,我要和大家分享一個被廣泛使用的可用性評估工具 — SUS 量表 (System Usability Scale)。我們將會探討 SUS 量表的使用方式和分析方法,並分享 SUS 量表的優缺點。此外,我們也會討論如何將 SUS 量表和其他可用性評量問卷結合使用,以獲得更全面的可用性評估。讓我們一起來探索 SUS 量表在使用者體驗研究中扮演的重要角色吧!

▍系統可用性量表 SUS (System Usability Scale) 是什麼?

SUS (System Usability Scale) 是由 John Brooke 於1986 年所編制的系統可用性量表,該量表包含了 10 個題目,每個題目都是以 5 點評量的方式進行。其中一半題目的陳述句為正向敘述,另一半則為負向敘述。透過這 10 組題目的評量,最終可以計算出一個 SUS 分數,該分數可用於後續的系統可用性分析。

SUS的十組題目,圖片來源:Bangor, Kortum, and Miller, 2008.

▍SUS 量表受歡迎的原因:

SUS 量表是評估系統或產品可用性時最廣泛的工具之一,在一項未公開的產業研究中指出目前大約有 43% 的專業機構進行整體評估時,將SUS作為測試後問卷,可以想見其受歡迎的程度,而 SUS 之所以受到研究人員的喜愛的原因包含以下幾點:

  1. 題目正反相間,讓答案更客觀:SUS量表中奇數的問卷是目是正面語氣,偶數的題目是負面語氣,這樣的好處是有時候使用者會受到前面答題的影響,而正反語氣間隔的設計可以讓使用者保持中立思考,讓測量結果更加客觀。(注意:目前正反語氣的問卷結構設計學界還是有不同見解,文章後續會說明)
  2. 具有良好的信效度及靈敏度:在評估一個標準問卷的好壞時,我們通常會看這份問卷的信效度及靈敏度,而 SUS 量表不但具有良好的信效度,同時經過研究,SUS 可以在不超過 15 個樣本下得到該系統的真實評價,非常靈敏。
  3. 問卷結果可轉化為百分數:透過簡單的數學,即可計算出百分數的 SUS 分數,易於理解與分析。
  4. 具有完整的評量表:SUS提供了完整的評量表讓施測者進行後續分析,包含百分數所對應的用戶形容產品級別產品百分等級 (PR值)臨界值等,可做全方位的分析。
  5. SUS量表可額外測量易學性和可用性:經由不同學者針對SUS量表所做的因素分析,發現SUS量表存在兩個因子,其中SUS的第四題和第十題被分析出來可以代表易學性,其餘問題則仍可用來代表可用性。(注意:目前對於額外測量的易學性仍有爭議,文章後續會說明)
  6. 完全免費:無論是商業還是研究用途,只要在出版報告中申明來源,都可以免費使用SUS。

▍如何計算 SUS 分數?

其實計算SUS分數十分簡單,透過以下3個步驟就可以輕鬆計算出SUS分數:

  1. 計算每題項的原始得分:將奇數題(正向題組)分數轉化為x-1;偶數題(負向題組)則將分數轉化為5-x
💡 這裡轉化分數的用意是將原本 1–5分 的量表分數轉化為 0–4分 來計算,
同時將奇數題與偶數題校正為相同計分方式。

2. 加總原始得分:將每題原始得分進行加總

3. 轉化成百分數:將總分乘以2.5即得到SUS分數

▍從 SUS 分數中額外獲得易學性分數?

SUS可以額外量測易學性。雖然說SUS最初的設計只是用來評估可用性,但有學者發現 SUS 實際上有兩個因子;SUS量表中的第 4 題和第 10 題被發現可以用來反映易學性。所以當我們今天想從 SUS量表中得到額外得到易學性分數時,我們可以將第4題和第10題的原始得分加總後乘以 12.5,即可額外得到易學性的分數。

雖然我們可以從SUS分數中額外獲得易學性的分數,但最新的研究對於這項解釋卻採取了保留態度,這部分文章後面會再補充說明。

▍如何分析 SUS 分數

在我們完成 SUS 分數的計算後,如果我們想要了解這個分數究竟代表什麼意思該怎麼辦呢?這部分已經有學者幫我們進行了研究;AT&T Labs 的Bangor, Kortum 和 Miller 在 2009 年發表了一篇文章來解決這個問題。他們在 SUS 問卷的结尾增加第 11 題(如下圖),讓使用者使用像是 Poor、Ok、Good 等形容詞來評價該使用者介面。

圖片來源:uxpajournal.org

這樣做的用意是讓SUS分數與這些形容詞產生關聯,透過這樣的方式,間接得出了一個 SUS 評量表:

圖片來源:questionpro

在這個評量表中可以將自已測出來的 SUS分數 用來與使用者描述的形容詞對照,來了解分數代表的使用者意義為何。例如低於12.5分為「想得到最糟糕的 (worst imaginable)」。另外,Bangor等人也基於他們研究的數據庫對SUS分數作出了接受範圍的解釋:

<50:不可接受

50–70:臨界值

>70:可接受

上述的標準大概就是在形容詞「ok」以下,都是令人無法接受的,而介於「ok」到「good」之間的產品也是處於留校察看的臨界值中。

除此之外,SUS 更方便的地方在於,我們也可以將 SUS 的分數轉換為百分等級 (PR值) 來解釋,透過百分等級我們可以更好的與總數據庫裡其他產品或系統的可用性程度,另外評量表也提供產品級別 (Grade),更方便的為產品進行評級。(如下圖)

圖片來源:Measuring U

▍SUS是可用性研究中最方便好用的評量方式之一

SUS基本上是目前在可用性研究上最完整且最具可靠性的標準化評量之一。像是研究學者 Tedesco 和 Tullis 就曾將 SUS 來和其他可用性量表來做比較,包含QUIS、CSUQ、微軟產品反應卡等。他們用不同的可用性量表來測量同一組網站,結果發現雖然這些量表在大樣本下所得出的結論相同 (結論皆為A網站表現高於B網站),但SUS可以在只有 8 個樣本下得到 75% 的正確結論數

圖片來源:researchgate

尤其當我們觀察 SUS 與第二名 CSUQ 量表的差距,在 8 個樣本下 CSUQ 還只有 50% 左右的正確結論數,但SUS已經可以得出75%的正確結論了,顯示SUS十分靈敏。而 8 個樣本通常也是我們在進行可用性質化研究中所要求的最低人數,這也是為什麼SUS量表在可用性研究中如此受歡迎的原因,它非常適合配搭在可用性質化研究中。

▍雖然SUS很好用,但你不知道的SUS的問題

SUS雖然長期以來被使用在可用性研究中,但SUS也有一些令人詬病的缺點:

  1. 資料庫從 2011年 以來已經沒有在更新了:當我們開心地用SUS的評量表來解讀SUS分數時,需特別注意該評量表是建立在 2011 年 Jeff Sauro 研究中的總數據庫,而該數據庫已不再提供數據更新。這部分建議可以搜尋其他以 SUS 為量表進行產品比較的相關研究,或者可以建立起自己企業的數據庫來進行相關定義。
  2. 正反語氣存有疑義:根據最新的研究,有研究學者對 SUS 量表的正反語氣設計產生了疑義;SUS量表被證實存在著雙因子,而這兩個因子被證實是由正反語氣所產生。不過研究人員也曾經把偶數題的負面語氣改為正面語氣,但結果與原本的量表設計差異不大。有鑒於 SUS 長期以來在所有研究中信效度及靈敏度的良好表現,目前還是建議可使用正反語氣的 SUS 問卷,但如果你想要自己設計問卷,則不建議學 SUS 採用正反語氣來做問卷架構。
  3. 易學性的分數可以被拋棄了:如前面有提到的,基於有學者發現 SUS 具有雙因子的存在,但究竟雙因子是可以被加以提取出來利用的易學性,還是正反語氣所造成的呢?再經過其他學者研究後,證實了可能是後者。因此目前已經傾向在 SUS 中拋棄提取易學性分數。

▍Combo 技!搭配 UX-LITE 和 SUPR-Q 評量一起用

前面提到了 SUS 的缺點在於總數據庫已經過時且不會在更新了,但如果我們還是想透過 SUS 進行標竿測試該怎麼辦呢?

  1. 建立自己的數據庫:SUS除了提供評量表外,也鼓勵施測機構建立自己的數據庫;如果是有規模的企業,可以嘗試建立起自己的SUS數據庫,無論是和自家產品或競品,都可以透過自己的數據庫長期追蹤比較。
  2. 搭配最新的可用性量表 UX-LITE:如果你希望縮短你的問卷,且又有持續更新的資料庫做對照,可以試試研究學者 Finstad 在 2010年 推出了基於使用者體驗的可用性量表 UMUX 的輕量化版本 — UX-Lite ,該量表與 SUS 評量結果有著高度相關,而且只有兩個問題:

1. [這個系統的] 功能符合我的需求。

2. [這個系統] 很容易使用。

其中 UX-Lite 的第 2 題基本上與 SUS 的第 3 題一致,因此你除了可以單獨使用 UX-Lite 作為一個簡短的測試問卷之外,你也可以選擇在 SUS 問卷尾端增加 UX-Lite 的第 1 題,變成一個包裹著 UX-Lite 的 SUS 題組;如此一來你既可以得到一個 SUS 評量分數,同時也可以得到 UX-Lite 評量分數,進而得到更多的可用性分析結果。

3. 使用可用性量表 SUPR-Q:你的另一個選擇是採用 SUPR-Q 量表,該量表是基於 SUS 的延伸而開發出來的,同樣也有持續更新的資料庫可供對比。SUPR-Q 使用了 8 個問題來測量使用者對於網站體驗品質的感知,包括 1 個整體分數和 4 個評測類別分數;分別是可用性、外觀、信任和忠誠度。而評量中構成可用性的因素項目為:

1. 這個網站很容易使用。

2. 在這個網站上導航很容易。

這些項目的平均得分也與 SUS 高度相關,因此你可以選擇透過 SUPR-Q 來進行可用性評量,並且透過回歸方程式的計算,得出等效的 SUS 分數。這樣你既可以得到 SUPR-Q 分數 進行分析,同時也可以取得SUS的等效得分,對於網站而言,SUPR-Q 也是 SUS 的一個可行替代品。

至於 UX-Lite 和 SUPR-Q 可以怎麼利用與分析,就不在今天的討論範疇了,未來有機會我會再另外寫一篇文章介紹它。

最後,希望這篇文章能提供你一些在可用性研究上的啟發,如果你喜歡這篇文章的話請不吝給個掌聲,也歡迎在下方留言分享你的想法和經驗。如果你想了解更多關於個人成長和設計方面的分享,請點擊我的個人主頁關注我,我會不斷分享更多的文章和見解,感謝您的閱讀!

NO AI TRAINING: Without in any way limiting the author’s exclusive rights under copyright, any use of this publication to “train” generative artificial intelligence (AI) technologies to generate text is expressly prohibited. The author reserves all rights to license uses of this work for generative AI training and development of machine learning language models.
禁止人工智慧訓練:在不以任何方式限制作者的版權專有權的情況下,明確禁止使用本出版物「訓練」生成式人工智慧 (AI) 技術來產生文字。作者保留將本作品用於生成式 AI 訓練和機器學習語言模型開發的許可使用的所有權利。

--

--