Escala Likert aplicado à experiência do usuário — Parte 2

12 min readMar 27, 2019

Como planejar uma pesquisa usando escala Likert

Na parte 1 desta série entendemos o que é a escala Likert, agora vamos ter um olhar mais atento aos detalhes, passando por boas práticas e o que devemos evitar. Discutiremos alguns aspectos culturais envolvidos nesse tipo de pesquisa, dicas de construção do formulário, a existência do ponto neutro e verificação da consistência. Nesse processo vamos passar por alguns detalhes matemáticos úteis aos interessados, pois fundamentam os argumentos, mas que não precisam assustar os avessos às fórmulas, já que não são essenciais para o entendimento geral do conteúdo. Prometo!

No mundo de análise de dados existe uma frase muito famosa: “Garbage in, garbage out”. Esta máxima é muito utilizada porque deixa claro que não existe qualquer cuidado ou técnica no processo de análise que possa te salvar quando seus dados são inadequados, no nosso caso originados por uma pesquisa mal feita. Sendo assim a preparação da pesquisa é fundamental e para isso é preciso ser empático com os seus usuários, levando em conta quem responderá suas perguntas.

Fatores comportamentais

Antes de saber se um cliente gosta do seu serviço precisamos saber quem ele é. Não é novidade que a amostra de pessoas que responderá à pesquisa deve representar bem a totalidade de clientes, mas nem sempre os diferentes perfis são levados em conta no momento da criação do formulário. Assim como devemos pensar no perfil dos clientes na construção de uma experiência, temos que fazer o mesmo na preparação de uma pesquisa.

Qual é a idade do seu usuário?
Qual o seu nível de educação?
De que região ele é?
Como foi sua criação?
Eles vão conseguir entender suas perguntas como você gostaria na forma que estão escritas? E como vão reagir a essas perguntas?

Você deve levar em conta essas entre outras perguntas quando estiver no seu processo de construção. Ok, ok, não somos capazes de prever completamente a reação do seu usuário a um formulário, isso talvez seja mais difícil do que avaliar a satisfação em si, mas faça essa reflexão.

apresentado no artigo publicado em 2002 por

Em 2002 o artigo “Cultural Differences in Responses to a Likert Scale”, de Jerry W. Lee, Patricia S. Jones, Yoshimitsu Mineyama e Xinwei Esther Zhang, apresentou um estudo com americanos, japoneses e chineses. Nessa pesquisa cada item verificava a frequência com que o entrevistado tinha determinados sentimentos, sendo que as respostas eram dadas em alternativas que iam de 1 a 4 ou 5 (a quantidade de alternativas também era objeto de estudo). A alternativa 1 indicava que o entrevistado quase nunca tinha o sentimento em questão e o maior número da escala indicava que quase sempre tinha o sentimento.

Como o formulário era impresso, foram observadas algumas adulterações. Alguns respondentes criavam e marcavam uma nova alternativa 0, isso aconteceu muito mais vezes em itens associados a sentimentos negativos do que positivos, dando indícios de que alguns entrevistados não se sentiam confortáveis em assinalar 1 como a frequência mínima que tinham certos sentimentos negativos. Ainda é curioso ver que isso aconteceu para 4% dos entrevistados japoneses e apenas para 0,6% dos entrevistados americanos. A diferença não é grande o bastante para confirmar estatisticamente que japoneses tem esse comportamento mais frequentemente que americanos, mas é um forte indício.

A questão aqui é mais profunda do que apenas qual nacionalidade tem esse comportamento, perceba que os respondentes tiveram o trabalho de manualmente alterar o questionário que lhes foi entregue e inserir uma nova alternativa para poderem dar sua resposta. Imagine o tamanho do desconforto que desencadeou esse acontecimento e qual a proporção de pessoas que tiveram o mesmo tipo de desconforto mas não chegaram ao ponto de alterar o questionário.

“Alter controlling for age and education, the odds of a Japanese respondent writing in a zero on a negative-fellling item were found to be more than 11 times grater than the odds of an American doing so.” (Lee, Jones, Mineyama e Zhang)

Esse experimento é um bom exemplo de como perfis distintos podem regir de forma diferente ao seu formulário. Ser empático também no processo de pesquisa e pense em possíveis interpretações para suas perguntas faz a diferença no resultado do estudo. Caso tenha disponível, utilize personas que representem seus clientes para cobrir da melhor forma os diferentes olhares que sua pesquisa receberá e leve isso em conta em cada passo de sua construção. Faça pesquisas piloto para testar seu formulário, aproveitando para observar e até perguntar a percepção do entrevistado. Não deixe pequenos detalhes atrapalharem seu trabalho.

Construção de uma pesquisa Likert

Não se deixe enganar, não existe um guia definitivo de como criar qualquer pesquisa. Essa é uma ciência que sempre estará em evolução e tudo o que sabemos são métodos que tem funcionado melhor do que outros. Ninguém te trará respostas, no máximo boas sugestões. Dito isso, acredito que alguém que trabalhe com UX deve utilizar as boas práticas da disciplina nesse trabalho e assim adaptar qualquer proposta à sua realidade. A Co-criação pode ajudar, não precisamos fazer o trabalho sozinhos correndo o risco de desperdiçar boas ideias guardadas na cabeça de colegas. Use o poder coletivo sempre que possível para ter mais e melhores ideias em cada etapa da construção, então engaje seu time.

Com o time reunido e post-its em mãos:

Defina o sentimento ou percepção que seu formulário quer mensurar. Parece óbvio, mas tome cuidado, ela deve ser clara e tem que traduzir o que você quer saber de fato. Pode ser algo como a “satisfação do usuário ao tentar completar uma determinada tarefa no aplicativo”. Em outras palavras, determine o constructo. Uma boa definição vai facilitar todo o processo e orientar a interpretação dos resultados.
Tangibilize o seu constructo. Pense nos principais fatores que podem compor a opinião do seu respondedor: Rapidez, facilidade, eficiência, visual, acessibilidade ou quaisquer fatores que sejam relevantes ao usuário (cuidado, sempre use a perspectiva dele). Um bom número de dimensões para compor o constructo é entre 3 e 6, embora exceções não sejam nenhum problema.
Escolha os itens. Chegue às perguntas ou afirmações que juntas te ajudarão a entender a percepção do usuário em relação à dimensão, seja preciso e evite palavras vagas. Em geral perguntas funcionam melhor do que afirmações. Você deve fazer o usuário avaliar de forma objetiva o que achou de cada elemento que influencia na percepção da dimensão. Avaliar se um texto é muito longo, muito difícil ou muito formal são aspectos diferentes e deveriam ser tratados em itens diferentes, possivelmente de uma mesma dimensão. Suas perguntas devem, em conjunto, te dar uma boa ideia do que o usuário pensa da experiência em relação a essa dimensão. Do ponto de vista da análise, entre 3 e 5 perguntas é um bom número para cada bloco de perguntas, mas sem regras absolutas, faça a quantidade de perguntas necessárias para tirar suas conclusões.
Decida quais serão as alternativas para cada item. Para cada afirmação ou pergunta dê opções que permitam ao respondente escolher com tranquilidade. Seja claro e evite desconfortos desnecessários, pois eles podem afetar as respostas em todas as perguntas a partir dali. Além disso é importante definir o número de alternativas que serão utilizadas, como veremos em breve.
Tenha muito cuidado com as palavras. Mesmo depois de formular a base do seu questionário, revisite-o e peça para que outras pessoas o leiam e digam o que entendem. Os autores de um texto sempre terão uma leitura viesada de sua criação.

Também é útil incluir no início do formulário uma pergunta mais genérica sobre a percepção geral do usuário em relação ao constructo, essa resposta não deveria ser usada de forma isolada, mas sim para identificar quais dimensões mais impactam na percepção do entrevistado.

Durante todo o processo seja empático, pense em quais fatores podem ser relevantes para o seu usuário durante a experiência e como cada um pode reagir às suas perguntas e às alternativas fornecidas. Toda pesquisa assume que o respondente diz o que sente de fato e não é difícil fazer com que isso não ocorra. Qualquer incomodo ou distração podem ser suficientes para que as respostas não traduzam a verdade. Não deixe seu entrevistado cansado demais com a pesquisa, 25 questões já deveriam ser mais que o suficiente, evite se prolongar muito mais do que isso.

Quantidade de alternativas

No último artigo já falamos brevemente, sobre isso. Responder um questionário é sempre mais difícil do que gostaríamos, não subestime a dificuldade da sua criação. Mais alternativas significam ainda mais esforço cognitivo envolvido nas respostas, por isso não exagere, de 5 a 7 alternativas, para uma escala Likert, já são o bastante.

Usar um número par de alternativas também pode ser uma opção, nessa caso deixa de existir um ponto central na escala, que representa a neutralidade. Em “A statistical examination of the relative precision of verbal scales”, Worcester RM e Burns TR defendem essa prática citando ‘o desejo do entrevistado em agradar o entrevistador’ e ‘ter respostas socialmente aceitas’ como fatores que fazem com que um posicionamento neutro oculte um real sentimento ou posicionamento mais difícil de assumir

Ainda assim essa é uma decisão difícil, lembra da pesquisa em que os japoneses criavam uma nova alternativa que, para eles, era mais adequada? Isso retrata o quanto é desagradável para o respondente ser forçado a escolher uma alternativa que não lhe agrada. Esse tipo de desconforto, mesmo que em um único item, pode impactar as respostas por todo o questionário.

A decisão de adotar ou não uma escala ímpar precisa levar em conta o problema que ele pode trazer: Respostas neutras em alguns casos podem agregar pouco valor à análise e por isso não seriam desejáveis. Quando se acredita que as respostas neutras atrapalham o estudo podemos desconsiderá-las com a consequência de diminuir o número de respostas válidas e ter menos dados disponíveis.

Se sua amostra for grande o bastante para não sofrer demais com essa perda de volume, o ponto neutro deixara de ser um problema, como sugerem Matell MS e Jacoby J em “Is there an optimal number of alternatives for Likert scale items? Effects of testing time and scale properties”.

“the decision would seem to depend on the level of ‘uncertain’ responses one is willing to tolerate” (Matell e Jacoby)

O cenário que temos hoje facilita as entrevistas, que acabam acontecendo em maior número, e acredito que as respostas neutras numa pesquisa sobre experiência do usuário tendem a ter um impacto muito menor do que o que era temido pelos teóricos que defendem número par de alternativas. Na publicação do Marketing Bulleting, “The Mid-Point on a Rating Scale: Is it Desirable?”, Ron Garland apresenta evidências de que a presença ou não de um ponto neutro causa sim distorções significativas nos resultados de uma pesquisa. Levando tudo isso em conta, assim como a maior parte dos pesquisadores, eu indico adotar uma escala com ponto neutro. Opte por apenas 5 alternativas a não ser que tenha um bom motivo para aumentar a quantidade.

Consistência Interna

Imagine uma pesquisa Likert longa onde uma mesma pergunta aparece em dois momentos diferentes. Se a pergunta é a mesma, deveríamos esperar que a resposta fosse a mesma, certo? Da mesma forma usuários com opiniões parecidas deveriam ter respostas parecidas quando respondem ao mesmo questionário. Para que isso aconteça, suas perguntas e alternativas devem ser claras, sem deixar espaço para diferentes interpretações. Infelizmente isso nem sempre acontece, e faz com que a resposta passe a ser, em algum nível, aleatória de acordo com o que o usuário entende naquele momento. Alternativas demais tendem a acentuar esse efeito.

Quando fazemos uma pesquisa com formulário inconsistente os resultados não nos dão nenhum indício, mas lembre-se, sua análise não se torna válida apenas por que os problemas não foram identificados.

É fundamental testar sua pesquisa, usar voluntários para verificar se o seu trabalho feito até o momento não tem algum furo, se alguém que não estava envolvido na criação da pesquisa consegue responde-la facilmente. Apesar de em muitos casos esse teste não ser feito, é bem clara a sua importância. Menos trivial, mas também importante é o reteste, aplicar novamente o teste nos seus primeiros voluntários, poucos dias depois do primeiro.

Num cenário perfeito, todas as pessoas que participaram do teste da pesquisa deveriam dar as mesmas respostas no reteste, se as respostas forem destoantes significa que seu teste é internamente inconsistente. Essa é uma má notícia que deveria fazer suas pesquisa ser reformulada, mas que pode te salvar de conclusões equivocadas.

Dificilmente, todas as respostas do teste vão ser iguais às do reteste, um bom critério para decidir se a diferença observada é aceitável é utilizar o Coeficiente de Confiança Alfa de Cronbach, que é mais fácil de calcular do que a fórmula pode fazer parecer.

Alfa de Cronbach, assustador na fórmula e no nome

Essa fórmula mede a relação entre a variabilidade das respostas de cada voluntário nas duas aplicações e a variabilidade das respostas das diferentes pessoas, levando em conta também o número de itens da sua pesquisa.

Para fazer essa conta vale pedir ajuda àquele colega que tem mais facilidade com número, se ele usar o SAS, SPSS, R, Python ou alguma outra ferramenta do tipo vai conseguir calcular isso bem rápido, caso isso não seja possível a combinação google, excel e um pouco de boa vontade permitem que isso se resolva sem dor de cabeça.

Com o número final em mãos basta verificar a tabela para saber como está a consistência do seu formulário:

É desejável que a consistência interna de diferentes pesquisas seja comparável, e por isso métricas como essa são estabelecidas. Isso traz credibilidade para o seu estudo, pois elimina a subjetividade em determinar se seu formulário está suficientemente consistente. Ainda assim, essa conta que parece tão complicada não passa de uma regra para padronizar o bom senso.

Fazer tudo isso dá trabalho, eu concordo. A boa notícia é que quando se valida a consistência de um formulário ele pode ser reutilizado em situações análogas ao longo do tempo, sem ter que passar por todas as etapas anteriores, desde que aplicado a públicos também análogos.

Caso não seja possível por qualquer motivo calcular o alfa de Cronbach, ainda assim veja do seu próprio jeito o quanto as respostas do teste e do reteste são destoantes. Se acreditar que a diferença não é grande demais siga em frente com a pesquisa, mas lembre-se que esse nível de diferença apareceu para as mesmas pessoas na mesma experiência, ou seja, se for usar a pesquisa para comparar experiências, esse nível de diferença pode ser ocasionado simplesmente por aleatoriedade, e não ter nada a ver com as alterações que estão sendo testadas. Para usar um termo conhecido, pense que diferenças na mesma ordem de grandeza que a diferença entre o teste e o reteste em cada um dos items, estão dentro da margem de erro. Para dizer que uma variação é significativa, ela precisa ser bem maior do que a diferença vista entre teste e reteste.

Reforço que este último paragrafo não tem nenhuma base científica, não está certo e me fará ter pesadelos, mas sem dúvidas é uma prática melhor do que ignorar completamente a questão da consistência do questionário.

Armazenamento dos resultados

Posso parecer óbvio com essa recomendação, mesmo assim ela se faz necessária. Antes de fazer qualquer teste, saiba como e onde vai guardar os resultados.

Os resultados da pesquisa precisam gerar conhecimento permanente, por isso devem ser guardados de forma organizada para que os interessados possam acessar sempre que necessário. Falaremos disso na Parte 3, mas lembre-se que o resultado da sua pesquisa será ainda mais útil se puder ser comparado com uma nova pesquisa no futuro. Então, novamente, guarde seus dados de forma segura e disponibilize-os de forma prática.

Conclusão

Muitas coisas podem afetar o resultado de uma pesquisa , com a escala Likert não é diferente e uma pesquisa com resultados muito distorcidos pode ser até pior do que não ter pesquisa alguma. Sendo assim, principal responsável ou não, sempre faz parte do papel de cada um dos envolvidos ficar atento a potenciais pontos que possam fazer com que o resultado de uma pesquisa seja adulterado. Dedique atenção às fases iniciais da sua pesquisa, ter que refaze-la posteriormente custará muito, em termos de tempo e dinheiro.

A última parte dos artigos que falam de Likert tratará da fase seguinte, a análise. Abordará temas importantes como normalidade e testes de hipótese, o uso de apenas um item, o uso de Likert ao fim de um fluxo, o efeito J e como a escala pode se encaixar num plano de avaliação da experiência mais robusto.

Enquanto isso comentários, perguntas e sugestões são sempre bem-vindos!