Sitemap
BON DATA

옆 동네 데이터 분석가의 글방

자기 보고 지표 (Self-reported Metrics) — Part 1 설계 방법

사용자 경험을 정확히 측정하는 설문, 어떻게 설계할 것인가?

12 min readFeb 2, 2025

--

본 글은 Measuring the User Experience: Collecting, Analyzing, and Presenting UX Metrics 중 CH5 Self-Reported Metrics 를 요약하는 내용입니다. 3가지 파트로 나누어 블로그 글에 공부한 내용을 좀 더 상세히 보기 쉽게 남기려고 합니다.

Press enter or click to view image in full size
출처 직접 찍은 사진

목차

Part 1 — 설계 방법 [현재 글]
📍 어떤 척도로 평가할 것인가?
📍 언제 어떻게 수집할 것인가?
📍 설계 가이드라인 및 유의점
📍 분석할 시 유의점

Part 2 — 상세 가이드
📍 태스크에 대한 평가 (Post-task Ratings)
📍 전체 경험에 대한 평가 (Overall User Experience Ratings
)

Part 3 — 상세 가이드
📍 온라인 서비스에서의 평가 (Online Services)
📍 다른 종류의 자기 보고 지표 (Other types of Self-reported metrics)

Self-Reported Metrics: 사용자 경험을 측정하는 방법

데이터 분석을 하다 보면 사용자의 행동을 수치화 및 지표화하기 어려운 지점에 맞닥뜨리게 된다. 특히, 정량적으로 설명하기 힘든 사용자 경험(UX)에 대한 궁금증이 자연스럽게 생겨난다.

사용자 경험을 가장 직접적으로 배울 수 있는 방법은 사용자의 의견을 듣는 것이다. 즉, 사용자에게 그들의 경험을 묻는 것이다. 하지만 좋은 데이터를 얻기 위해 어떻게 질문해야 할지는 명확한 정답이 없다.

Self-Reported Data란?

Self-reported data(*한국어로는 자기 보고 지표로 변역된다.)는 사용자가 직접 응답을 선택하는 데이터를 의미한다. 이러한 데이터는 크게 두 가지 유형으로 나뉜다.

  1. Subjective Data: 주관적인 데이터로, 사용자의 개별적인 감정과 인식에 기반한다. 이는 객관적인 측정값(objective data)과 대비된다.
  2. Preference Data: 사용자의 선호도를 반영하는 데이터로, 특정 기능이나 디자인을 선호하는지 여부를 나타낸다. 이는 성능(performance) 데이터와 반대 개념이다.

참고로 최근 연구에서 UX를 평가할 때 가장 많이 고려되는 요소는 감정(emotion), 즐거움(enjoyment), 아름다움(beauty)이다. 단순히 시스템이 작동하는지 여부를 넘어, 사용자가 실제로 어떤 느낌을 받았는지 파악하는 것이 UX 향상에 중요하다.

Self-Reported Data의 가치

Self-reported data는 단순한 피드백 그 이상이다. 이는 사용자가 시스템을 어떻게 인식하고 상호작용하는지를 파악하는 중요한 정보가 된다. 특히, 사용자의 주관적인 반응은 미래에 서비스에 재방문하거나 제품을 구매할 가능성을 예측하는 데 가장 좋은 변수 중 하나로 작용한다.

예를 들어, 특정 웹사이트의 디자인이 아름답다고 느낀 사용자는 같은 정보를 제공하는 다른 웹사이트보다 해당 사이트를 더 자주 찾을 가능성이 높다. 감정적인 만족도가 높은 경험은 충성도를 형성하고, 이는 장기적인 사용자 유지(retention)와 직결된다.

📍어떤 척도로 평가할 것인가?

Likert Scales (리커트 척도)

Press enter or click to view image in full size
Reference

리커트 척도는 주로 5점 척도로 구성되며, 응답자들이 각 문장에 대한 동의 정도를 선택할 수 있도록 한다. 일반적으로 양 극단의 선택지 2개에만 라벨을 붙이거나, 중앙을 포함하여 3개의 선택지에 라벨을 붙이는 방식이 많이 사용된다. 이는 연구자의 선택에 따라 달라진다. 리커트 척도의 주요 특징은 문장을 통해 동의 정도를 나타낼 수 있으며, 중립 응답이 가능하다는 점이다. 또한, 보통 오른쪽으로 갈수록 동의하는 방향으로 구성된다. 문장에 ‘Very’, ‘Extremely’, ‘Absolutely’와 같은 극단적인 단어를 포함하면 응답자가 강한 동의를 선택할 가능성이 낮아지므로, 이를 피하는 것이 좋다.

Semantic Differential Scales (의미미분법 척도)

Press enter or click to view image in full size
Reference

의미미분법 척도는 선택지의 양 극단에 서로 반대되는 특성을 가진 형용사를 배치하는 방식이다. 주로 5점 또는 7점 척도로 구성되며, 단어 선택이 매우 중요하다. 예를 들어, ‘Friendly vs Unfriendly’와 ‘Not Friendly vs Hostile’은 미묘하게 다른 의미를 가지며, 이러한 차이가 응답자의 인식을 달라지게 만든다.

Likert vs Semantic Differential: 어떤 것이 더 나을까?

Reference

연구 결과, 두 척도는 모두 동등하게 잘 작동하는 것으로 나타났다. 일반적으로 응답자들은 묵인 편향(acquiescence bias) 때문에 ‘동의’라는 단어가 포함된 문장에 더 쉽게 동의하는 경향이 있다. 하지만 실제 실험 결과에서는 리커트 척도보다 의미미분법 척도에서 더 높은 평균값이 나왔기 때문에, 묵인 편향이 항상 강하게 작용한다고 볼 수는 없다. 따라서 연구 목적과 질문의 성격에 맞게 적절한 척도를 선택하는 것이 중요하다.

📍언제 어떻게 수집할 것인가?

언제 : Self-Reported Data의 수집 시점

[1] 태스크에 대한 평가 “Post-task ratings”, “Quick-ratings”

  • 개념 : 개별 태스크가 끝나자마자 바로 수집
  • 장점 : 특정하게 문제가 되는 태스크와 인터페이스의 부분을 바로 집어낼 수 있다.
  • 목표 : 사용자들이 생각한 가장 어려운 태스크들에 대한 인사이트를 얻는 것이다.
Press enter or click to view image in full size
태스크에 대한 평가 예시 https://usersnap.com/blog/customer-feedback-examples/

[2] 전체 경험에 대한 평가 “Post-study ratings”, “Overall experience ratings”

  • 개념 : 전체 세션이 종료된 후 마지막에 수집
  • 장점 : 효과적으로 전체에 대해 평가할 수 있다.
  • 특이점 : 더 자주 보이는 형태로, Exit Survey와 같이 웹사이트에서 목적을 달성한 뒤에 수집하는 경우가 많다.
  • 목적 : 하나의 연구 내에서 다양한 디자인 대안을 비교할 때 유용하다. 또는 당신의 제품 또는 웹사이트를 경쟁사와 비교할 때 유용하다.
Press enter or click to view image in full size
Press enter or click to view image in full size
전체 경험에 대한 평가 예시

어떻게 : Self-Reported Data의 수집 방법

사용자의 경험을 효과적으로 측정하기 위해서는 데이터를 어떻게 수집할 것인지에 대한 고려가 필요하다. 대표적인 수집 방법은 다음과 같이 분류할 수 있다.

[1] 언어적으로 말하기

사용자가 개별 태스크가 끝난 직후 실험자에게 구두로 평가를 전달하는 방식이다. Quick-ratings과 같은 단일하고 빠른 평가를 수집할 때 적절하다. 하지만, 직접 실험자에게 말하는 방식이기 때문에 사용자가 불편한 피드백을 회피할 가능성이 높고, 이에 따라 결과가 편향될 위험이 있다.

[2] 종이에 작성하기

설문지나 평가지를 제공하여 사용자가 직접 작성하도록 하는 방법이다. Quick-ratings과 Post-study ratings 모두에 적절하며, 간단한 선택형 질문뿐만 아니라 주관식 응답도 함께 받을 수 있다는 장점이 있다. 하지만, 데이터의 디지털화 과정이 필요하며, 분석 전 추가적인 정리가 요구될 수 있다.

[3] 온라인 툴을 활용하기

랩탑을 두고 온라인 설문 툴을 이용하여 데이터를 직접 입력할 수 있도록 하는 방법이다. Google Form, Qualtrics, Typeform, SurveyMonkey 등의 툴이 대표적이며, 실험이 끝난 후 개별적으로 응답할 수 있도록 함으로써 사용자들이 보다 솔직한 피드백을 남길 가능성이 높아진다. 또한, 자동화된 데이터 정리가 가능하여 효율성이 뛰어나다.

각 방법은 연구 목적과 환경에 따라 적절하게 선택되어야 한다. 어떤 방식을 사용하든, 응답자의 편향을 최소화하고 신뢰도 높은 데이터를 확보하는 것이 가장 중요하다.

*참고 : Social Desirability Bias

Self-reported data를 수집할 때, 응답자들은 대면 인터뷰나 전화 조사에서 더 긍정적인 피드백을 주는 경향이 있다. 익명 웹 서베이에서 얻는 응답보다 대면 조사에서 응답자들이 사회적으로 바람직한 답변을 선택하는 경우가 많다. 이를 줄이기 위해 서베이를 익명으로 진행하거나, 평가자가 자리를 비우도록 하는 방법이 있다. 또한, 서베이를 집에서 작성하도록 하면 응답의 솔직성을 높일 수 있으나, 태스크 수행과 평가 간의 시간 격차가 생겨 부정확한 결과를 초래할 수 있다.

📍 설계 가이드라인 및 유의점

다양한 척도를 활용한 Triangulation

한 가지 방법만으로 데이터를 수집하기보다 다양한 척도를 활용하면 더 신뢰할 만한 결과를 얻을 수 있다. 여러 방법을 조합하여 수집된 데이터의 평균을 비교하면 더 정확한 평가가 가능하다.

Press enter or click to view image in full size
Reference

예시:

  • 만족도 지표가 하락하면, 매출 및 체류 시간 변화를 함께 분석한다.
  • 사용성 테스트에서 낮은 성공률이 나오면, 질적 연구를 수행해 문제점을 찾는다.
  • 데이터 분석에서 오류율이 높은 기능을 발견하면, 고객 지원 데이터를 확인해 해당 문제의 신고 빈도를 검토한다.

포인트 개수: 짝수 vs 홀수

뜨거운 감자와 같은 주제이나, 본 책에서는 현실 세상에서는 중립적인 반응이 유효한 반응이며 평가 척도에 포함되어야 한다고 주장한다.

전체 포인트 개수

설문 척도의 포인트 개수가 9개를 초과하면 추가적인 유용한 정보를 제공하지 못한다. 따라서 5점 또는 7점 척도를 사용하는 것이 일반적이다.

5-point vs 7-point Scale

연구에 따르면, 7점 척도가 5점 척도보다 응답의 정확성이 높거나 약간 더 유리한 경우가 많다. 연구 목적에 따라 적절한 척도를 선택해야 한다.

척도 개별 포인트에 숫자 표기 여부

본 책에서는 5개 ~ 7개를 넘지 않는 적은 포인트 개수라면, 각 자리에 숫자를 추가하는 것은 불필요하다고 보았다. 하지만 개수가 늘어난다면 참여자들이 잘 따라올 수 있도록 숫자를 추가하는 것은 유용하다. 대신, 0과 음수는 기입할 경우 참여자들이 안 누르려고 하는 경향이 있었다.

📍 분석할 시 유의점

평균 계산

예로 Likert 척도의 경우, 각 항목에 1 ~ 5의 숫자를 부여하여 평균을 구한다. 엄밀히 말해 인터벌 데이터는 아니지만, 척도 간 거리가 일정하다고 가정하는 것이다. 만족도를 비율로 표현할 경우, 0을 기준으로 시작하는 것이 추천된다.

Press enter or click to view image in full size
Reference

응답 분포 확인

평균값이 동일하더라도 실제 응답 분포는 다를 수 있다. 예를 들어, 5점 척도에서 평균이 2.5라 하더라도 다음 두 경우는 의미가 다르다.

  1. 2 / 2 / 3 / 3 (대체로 중립적인 응답)
  2. 1 / 1 / 3 / 5 (극단적 응답 포함)

극단 응답 확인

응답 분포에서 극단적인 평가를 한 사용자들의 데이터를 직접 확인하는 것이 필요하다. 가장 긍정적인 평가와 가장 부정적인 평가를 한 사용자들의 특성을 분석하여 UX 개선 방향을 도출할 수 있다.

Top-box 및 Top-2-box 분석

Press enter or click to view image in full size
Reference

Top-box (최고 점수만 포함) 또는 Top-2-box (상위 두 개 점수 포함) 방식으로 분석하는 것이 가능하다. Top-2-box는 일반적으로 7점 및 9점 척도에서 사용되며, 이 경우 인터벌 데이터가 아닌 빈도 데이터로 해석된다. 또한, top-box 분석을 사용할 경우, 이진 데이터로 표현되기 때문에 신뢰 구간을 Adjusted Wald Method를 통해서 계산할 수 있다.

경영진 보고 시, 단순 평균 대신 top-box score가 요구될 수도 있으므로, 결과를 공유하는 대상에 따라 적절한 지표를 선택하는 것이 중요하다.

본 글은 Measuring the User Experience: Collecting, Analyzing, and Presenting UX Metrics 중 CH5 Self-Reported Metrics 를 요약하는 내용입니다.

Part2, Part3도 다음 글로 이어갑니다.

Part 2 — 상세 가이드
📍 태스크에 대한 평가 (Post-task Ratings)
📍 전체 경험에 대한 평가 (Overall User Experience Ratings
)

Part 3 — 상세 가이드
📍 온라인 서비스에서의 평가 (Online Services)
📍 다른 종류의 자기 보고 지표 (Other types of Self-reported metrics)

Citation

William (Bill) Albert, Thomas S. (Tom) Tullis,
Chapter 5 — Self-Reported Metrics,
Editor(s): William (Bill) Albert, Thomas S. (Tom) Tullis,
In Interactive Technologies,
Measuring the User Experience (Third Edition),
Morgan Kaufmann,
2023,
Pages 109–151,
ISBN 9780128180808,
https://doi.org/10.1016/B978-0-12-818080-8.00005-4.
(https://www.sciencedirect.com/science/article/pii/B9780128180808000054)

--

--

BON DATA
BON DATA

Published in BON DATA

옆 동네 데이터 분석가의 글방

Bokyung Choi
Bokyung Choi

Written by Bokyung Choi

옆 동네 데이터 분석가, 데이터로 유저의 행동을 이해하고 인과관계를 파악합니다. Contact me through 🔗 https://www.linkedin.com/in/b-choi/ 🗂 https://www.slideshare.net/choibokyung/presentations

No responses yet