Escala Likert aplicada à experiência do usuário — Parte 1

10 min readMar 11, 2019

Alguns anos atrás, antes de sequer pensar em trabalhar na área de User Experience, fiz minha primeira reunião com um UXer. Nessa, houve um momento em que, com muita naturalidade, esse colega mencionou uma pesquisa com escala Likert feita em nosso aplicativo. Confesso que nesse dia tive um misto de sentimentos: animação, por ver que metodologias reconhecidas estavam sendo utilizadas para avaliar a experiência do usuário, mas também preocupação com a possibilidade de que a metodologia não estivesse sendo tratada com seus devidos cuidados.

Com o tempo foi possível perceber que pesquisas com escala Likert são muito comuns nessa área e o principal motivo é simplesmente a popularização do termo e que, na verdade, na grande maioria dos casos em que esse tipo de trabalho é conduzido não se sabe do que de fato se trata a escala Likert.

Não sou radical a ponto de dizer “Se você não estudou Likert, não deveria utilizá-lo!”, ou mesmo afirmar categoricamente “Você está utilizando a escala Likert errado!”, ainda que tal afirmações fosse um título mais apelativo para este texto. Mas o fato é que essa técnica não foi feita pensando em ser utilizada para avaliar a experiência digital de um usuário , por tanto, é preciso ficarmos atentos a algumas de suas restrições. Dessa forma, acredito ser válido primeiramente entendermos como surgiu e como funciona a metodologia para assim pensarmos na melhor forma de aplicá-la em nosso dia a dia. Então, vamos lá?

Rensis Likert — Criador da escala Likert

Na década de 30 a realidade era completamente outra: num mundo não digital, entrevistar pessoas e analisar os resultados era muito mais difícil. Nesse contexto, Rensis Likert — então trabalhando em sua tese de Ph.D pela Columbia University e futuramente diretor do Institute of Social Research em Michigan — publicou em 1932 o livro “A technique for the measurement of attitudes”, onde apresentou ao mundo a sua escala que tinha como objetivo quantificar o que ele chamou de “atitudes sociais”. Sua hipótese era que essas atitudes geravam uma família de comportamentos demonstrados em ações mais específicas que poderiam ser mensuradas com maior facilidade. Combinando o que foi identificado em relação a cada umas dessas ações, Likert acreditava ser possível chegar a um número final que representasse um constructo, ou seja, uma nova dimensão que não é exatamente igual, mas que funcionaria para fins práticos como a própria atitude social que se pretendia mensurar.

Em resumo, estamos falando de um questionário com múltiplos itens com alternativas que vão de “(1) aprovo fortemente” a “(5) desaprovo fortemente”, onde a combinação dos resultados desses itens teria o potencial de traduzir em algum nível o comportamento de interesse do pesquisador.

No contexto de pesquisas de usabilidade a satisfação do cliente provavelmente seria o constructo o qual temos a intenção de quantificar e, para fazer isso pela metodologia de Likert, devemos fazer algumas afirmações ao usuário verificando seu grau de concordância com cada uma delas. Tais afirmações devem remeter aos elementos que acreditamos compor a satisfação do usuário em relação ao serviço oferecido: rapidez, facilidade, eficiência, por exemplo. Com alguns itens dedicados a cada uma dessas dimensões, chegaríamos a um número final indicativo do quanto o usuário está satisfeito, podendo identificar inclusive qual fator é seu “calcanhar de Aquiles”. Esse tipo de pesquisa, visando ter um resultado representativo, deveria ser aplicado a grande número de voluntários (isso dentro das restrições de 1932, lembra?). Então, algo como 200 usuários já seria um número muito satisfatório, sendo aceitável menos do que isso quando existem limitações (sempre temos!).

Likert ao ver o que temos chamado de escala Likert

Você se lembra das últimas pesquisas que respondeu nesse formato? Talvez tenha achado que seria simples e no final ficou bem na dúvida em qual alternativa marcar em alguns itens? Comigo foi assim! O esforço cognitivo nesse tipo de pesquisa é grande e, por isso, alguns fatores devem ser observados na construção desse formulário

As alternativas devem ser claras

Na construção de formulários para pesquisas com escala Likert em geral temos cinco tipos de alternativas:

Grau de concordância: concordo ou discordo;
Frequência: frequentemente ou nunca;
Qualidade: muito bom ou muito ruim;
Probabilidade: definitivamente ou nunca;
Importância: muito Importante ou sem importância.

A literal associada à cada alternativa tem pouca importância na avaliação final do resultado: o que nos importa é o número da resposta. Por tanto, procure definir textos que facilitem a interpretação do respondente. É comum vermos alternativas como “(1) concordo totalmente”, “(2) concordo parcialmente”, “(3) nem concordo nem discordo”, “(4) discordo parcialmente” e “(5) discordo totalmente”.

Não é difícil perceber que “(2) concordo parcialmente” e “(4) discordo parcialmente” significam exatamente a mesma coisa para qualquer um que interpretar ao pé da letra, mas ainda assim estão em lados opostos da escala.

É fundamental a escala apresentar extremos nitidamente opostos e pontos intermediários claros. Uma boa prática que vem sendo adotada é utilizar algo como “Numa escala de 1 a 5, onde 1 representa ‘concordo totalmente’ e 5 representa ‘discordo totalmente’ indique seu grau de concordância”.

Número de alternativas

Como já foi mencionado, o esforço cognitivo na escolha da alternativa é grande, muito maior do que imaginamos quando estamos preparando o questionário. Após tantos anos de pesquisas com escala Likert já se sabe que o recomendado é utilizar entre 5 e 7 alternativas (mais ou menos do que isso pode dificultar a resposta do voluntário).

Usar um número par ou ímpar decide se sua escala tem ou não um ponto neutro. As duas opções têm seus benefícios, mas essa discussão é um pouco complexa e ficará para outro momento. Apenas tenha em mente que na forma desenvolvida por Likert a escala tem sim um ponto intermediário, ou seja, deveriam ser utilizadas 5 ou 7 opções.

Consistência do questionário

Para o teste ter resultados válidos é importante que seja entendido da mesma forma por todo mundo. As palavras utilizadas devem ser escolhidas com atenção para garantir a inexistência de diferentes interpretações para as mesmas afirmações. Por hora, o importante é saber que duas pessoas com a mesma opinião devem ter respostas muito parecidas no seu formulário (caso isso não seja verdade o seu questionário necessita ser refeito). A fim de verificar a consistência do questionário, podemos usar do Coeficiente Alfa de Cronbach, um índice publicado em 1951 por Lee J. Cronbach no artigo “Coefficient alpha and the internal structure of tests” do periódico Psychometrika, o qual será discutido com mais atenção no próximo artigo, assim como possíveis alternativas.

Número de itens

Devemos ter uma quantidade de itens (as afirmações que os usuários avaliar o grau de concordância) suficiente para acumular dados e tirar as conclusões necessárias, porém, dependendo da complexidade do seu constructo podem ser necessários mais itens. Recomendo pensar em dimensões que compõe seu constructo(rapidez, facilidade e eficiência são possibilidades já citadas) e, para cada dimensão, utilizar algo em torno de 3 a 6 itens de forma a chegar no final em algo em torno de 15 a 25 itens.

A escala Likert é o que chamamos de escala somada: seu valor estatístico vem justamente da soma das respostas de cada um dos itens. Quando alguém faz uma pesquisa com apenas uma pergunta ou quando opta por não usar um ponto neutro não está fazendo algo necessariamente errado, mas também não está utilizando a escala como foi planejada. Pelo rigor técnico, quando isso acontece não podemos chamar de escala Likert e passamos a dar o nome de “escala do tipo Likert”. Dessa forma entende-se o formato do formulário mas ainda assim assumimos que nem todas as premissas originais estão sendo seguidas.

Cuidados com a interpretação dos resultados

Depois de aplicar o teste e coletar os resultados chega a hora da análise e, com aquele monte de números, a primeira coisa que se faz, normalmente, é calcular a média de tudo. Se seguíssemos todo o rigor técnico da estatística a análise já estaria errada.

Na escala Likert as respostas são ordinais, ou seja, os números de 1 a 5 servem apenas para representar ordem, não têm propriedade escalar e por isso não temos interpretação correta para um valor como 3,5. Tentando exemplificar isso de forma prática: numa escala onde 3 representa neutro e 4 representa concordo, 3,5 não pode ser “neutro e meio”. A escala não prevê pontos intermediários, esse é um problema significativo mas que envolve muito mais uma questão de semântica do que analítica.

Além disso, e mais importante: mesmo que consideremos escalar as alternativas não são lineares, ou seja, a “distância” entre algo como “(3) Neutro” e “(4) concordo”, não será necessariamente a mesma entre “(4) Concordo” e “(5) Concordo fortemente”. Mais uma vez, este fenômeno faz com que calcular a média em uma escala Likert não faça sentido algum de um ponto de vista mais formal.

Isso significa que todos os estudos que já vimos estão errados? Claro que não! Ninguém pode te proibir de fazer uma conta específica em sua própria pesquisa. O erro verdadeiro não está em calcular a média, mas nas conclusões que podem ser extraídas de uma média calculada indevidamente. É possível identificar experiências melhores e piores com essa metodologia mas, por favor, jamais diga baseado numa escala Likert algo como a experiência A é duas vezes melhor que a experiência B. Esse tipo de quantificação sim é errada pela falta de linearidade da escala.

A não linearidade é um fator crítico a ser observado ao tirar conclusões da pesquisa e seu problema é mais acentuado quanto menor o número de itens do formulário. Com isso, o perigo de se usar a média em um estudo que utiliza vários itens para chegar à informação de um constructo é bem menor.

Quando sua pesquisa for composta apenas por uma afirmação aplicada a vários indivíduos (e sabemos que isso é o que mais acontece em nossa área) a média é uma estatística muito mais traiçoeira e sua interpretação deve ser muito mais cuidadosa. Fique realmente atento para jamais fazer afirmações que quantifiquem diferença entre duas notas, sejam elas de duas experiências distintas ou da mesma experiência com pequenos ajustes.

Ok. Se não podemos usar a média, o que podemos fazer?

Alternativas à média

Podemos olhar outras estatísticas como a moda, a amplitude e principalmente a mediana. Não estaríamos cometendo nenhum erro, mas a interpretação é mais difícil. Minha principal recomendação é olhar para uma tabela que mostre a proporção de respostas que cada alternativa recebeu. Esse tipo de visão deveria ser útil para você entender como seu usuário enxerga a experiência oferecida, principalmente quando temos uma pesquisa com apenas um item (justamente quando deveriamos dar menos atenção à média). Além disso, nesse cenário você pode fazer afirmações do tipo “a experiência A teve duas vezes mais avaliações ‘(5) Muito satisfeito’ do que a experiência B” sem risco de cometer qualquer erro.

Testes de Hipótese

Outra questão que deve ser levantada é: como poderíamos determinar se uma nota é significativamente maior do que outra?

Apenas observando a média é natural afirmar que a experiência A é melhor do que a B, mas na verdade sabemos apenas que a média da nota da experiência A é melhor do que a B na amostra observada. Para determinar se a experiência é de fato melhor precisamos extrapolar a amostra e, para fazer isso, precisamos de um teste estatístico. Nesse caso mais uma vez a escala traz dificuldades já que normalmente os testes que utilizamos comparam a média supondo, mais do que alinearidade, a distribuição normal dos dados. Mais uma vez: podemos discutir isso de forma mais detalhada nos próximos textos, mas a principal alternativa para fazer um teste estatístico válido seria usar os testes de Kruskal Wallis ou Mann Whitney, que têm por base a mediana e não a média.

Ainda assim posso dizer que em minha vivência nunca vi uma pesquisa de experiência utilizar testes estatísticos para determinar qual delas é melhor e por isso acredito que assumir a distribuição normal dos dados é um erro com o qual não precisamos nos preocupar tanto nesse momento.

Conclusão

Agora já sabemos que a pesquisa popularmente chamada de Likert em UX não é exatamente como a escala foi planejada (o que não precisa ser um problema!). Entendemos o que é a verdadeira escala Likert, algumas de suas limitações e variações. No próximo artigo veremos formas mais práticas de aplicar a real metodologia Likert numa pesquisa de usabilidade, assim como boas práticas ao utilizar escalas do tipo Likert como já vêm sendo aplicadas em nossa disciplina.

Dúvidas e sugestões relacionadas ao tema são sempre bem-vindas e podem entrar para a lista de assuntos que pretendo abordar nessa série de textos!

Escala Likert aplicada à experiência do usuário — Parte 1

Written by Renato Leite