Escala Likert aplicada à experiência do usuário — Parte 3

Itaú
Itaú
Feb 11 · 16 min read

Renato de Cerqueira Leite

Como analisar e interpretar resultados de uma pesquisa Likert

Se você lida com pesquisas Likert em UX e quer uma visão mais técnica de como pode utilizar os resultados, mas nunca tem tempo ou tem alguma dificuldade para estudar assuntos de estatística, chegou a sua hora!

Quem leu a parte 1 e parte 2 desta série já sabe que uma escala Likert é composta de múltiplas perguntas, ainda assim no mundo de UX costumamos ver essa escala sendo aplicada com apenas uma pergunta diretamente na plataforma digital de interação com o usuário. Em ambos os casos precisamos tomar certos cuidados durante a análise para não cometer alguns erros que são mais comuns do que gostaríamos. Vamos ver a seguir boas práticas para os dois tipos de pesquisa, passando por padrões de comportamento humano e técnicas estatísticas, mas de forma a tornar a matemática que funciona por trás de tudo tangível e compreensível sem ter que mergulhar em toda a teoria.

Análise da média

Finalmente, com questionário pronto, testado e aplicado, temos as respostas em mãos. Chega o momento de analisar os dados e, como já falei na parte 1, a primeira coisa que fazemos normalmente é calcular a média. Vamos assumir que cada item da escala Likert tem cinco alternativas com caráter ordinal, ou seja, têm uma ordem, como Likert propôs em seu artigo.

Para podermos fazer contas, transformamos as alternativas em números, que mantém as propriedades ordinais. Se a escala vai de ‘-2 a 2’, de ‘0 a 4’ de ‘1 a 5’ ou qualquer outra possibilidade não faz a menor diferença já que eles apenas representam desde palavras e expressões até emojis ou estrelas. Até aqui tudo bem, apenas transformamos de forma simples as palavras ou símbolos em números, mas isso traz uma consequência curiosa e bastante contra-intuitiva.

Coloque-se na posição do usuário e pense numa situação em que você daria uma avaliação “regular” a um item do questionário. O que seria necessário para fazer a situação passar a merecer uma avaliação “boa”? Quanto ela precisa melhorar? Agora, com essa nova experiência “boa”, quanto ela precisa melhorar para receber o “ótimo”? Conseguimos quantificar o tamanho dessas duas melhorias? e se conseguirmos, esses “tamanhos” são iguais?

Assim como a diferença entre uma experiência “regular” e uma “boa” não é necessariamente a mesma que a diferença entre uma experiência “boa” e uma “ótima”, numa pesquisa Likert a diferença entre “3” e “4” não é necessariamente igual à diferença entre “4” e “5”. Esse conceito nada trivial e contra-intuitivo faz com que calcular a média deixe de fazer sentido. A uniformidade das “distancias”entre os números da escala é o que chamamos de linearidade.

Na estatística poucas coisas podem ser ditas definitivamente erradas, ninguém vai te proibir de fazer uma conta específica. Nessas situações dizemos que sua conta não faz sentido. Você pode calcular a média de cada item, mas esse número não tem todas as propriedades comuns para essa estatística. Por isso a metodologia original prevê múltiplas perguntas.

Como cada item é não-linear a interpretação de número decimais passa a ficar mais confusa e mais do que isso, relações comparativas entre os notas aplicadas ao constructo não fazem sentido, ou seja, se sua nota passa de 4 a 4,2 não deveríamos afirmar que a experiência está 5% melhor.

Likert é uma escala somada, a opinião de cada usuário é composta por todos os itens e preferencialmente é assim que os números devem ser analisados. Quando a análise é feita desta forma, com vários itens e uma amostra grande o suficiente, os efeitos do Teorema do Limite Central começam a aparecer, e por isso os problemas relacionados ao uso da média são reduzidos, como relatado por Carifio J. e Perla R. em “Resolving the 50-year debate around using and misusing Likert Scales”.

Likert scales (collections of items) as opposed to individual Likert items are not ordinal in character, but rather are interval in nature and, thus, may be analysed parametrically with all the associated benefits and power of these higher levels of analyses. (Carfio J. e Perla R.)

Base do Teorema do Limite Central Clássico

Para ilustrar esse efeito e o que a fórmula assustadora acima representa, criei um programa que simula resultados de pesquisas de escala Likert. Os gráficos abaixo comparam os resultados obtidos em pesquisas com apenas 1 item com os de pesquisas com 15 itens. Nessas simulações garanti que, mesmo aleatórias, as respostas representassem o mesmo grau de satisfação, com isso a média calculada nos dois casos deveriam ser proximas, sendo que sua variação é somente atribuída à aleatoriedade da amostra. Vamos aproveitar o momento para visualizar o impacto que o volume de respondedores traz nos resultados, vendo a distribuição de respostas para 20, 200, 2.000 e 20.000 entrevistados. Caso alguém pretenda reproduzir a simulação, todas as respostas seguem uma distribuição de probabilidade Beta(4,1.5) ajustada para escala discreta de 1 a 5.

Observe a diferença no formato dos gráficos. Veja que independente do número de respostas, para apenas 1 item a forma sempre se mantém parecida, com as respostas acumuladas nas únicas cinco alternativas possíveis, com maior concentração perto da média. A incerteza para determinar a média também se mostra bem maior.

Na simulação com 15 itens não temos apenas cinco possibilidades de respostas, temos a soma de todas as combinações possíveis de respostas de cada item. Se um entrevistado responder quinze vezes com a nota mínima, seu saldo final é 15, se sempre der a nota máxima terá o total de 75. Note que, mesmo depois de uma transformação para que esses números fiquem na mesma escala de 1 a 5, a forma do gráfico fica bem diferente. No lugar de cinco blocos de respostas começamos a perceber que começa a se formar uma curva, que fica mais clara quanto mais itens e mais entrevistados temos. Esse efeito não é nenhuma novidade, na verdade é tão previsível que pude descrever os gráficos antes mesmo de fazer as simulações. Formalizado em 1889 por Francis Galton em “Natural Inheritance”, esse é o efeito do Teorema do Limite Central, que já foi introduzido por Pierre-Simon Laplace em “Théorie analytique des probabilités” de 1812, e já começava a ser discutido em 1733, por Abraham de Moivre.

No cenário ideal esse gráfico seria o mais parecido possível com o que chamamos de forma de sino, característica da distribuição Normal. As figuras demonstram visualmente o que Carfio J. e Perla R. dizem na citação acima quando afirmam que no caso de múltiplos itens os dados podem ser considerados lineares. Nessas condições os problemas que temos relacionados à ordinalidade e à não linearidade são minimizados e técnicas de estatística paramétrica podem ser utilizadas de forma aceitável (já listo algumas possibilidades).

Como vimos, numa escala de apenas um item, não importa o quão grande seja o número de respostas, a forma da figura se mantém a mesma, concentrada em apenas cinco alternativas, impedindo que a linearidade seja garantida, fazendo com que técnicas estatísticas baseadas na média não possam ser utilizadas e sua interpretação comprometida, precisando ser tratada com cuidado.

Dessa forma, chegamos à conclusão de que só quando temos múltiplos itens e grande volume de respondedores a média pode ser tratada da forma que estamos acostumados e isso inclui:

  • Calcular a média geral: Usar a média de todas as respostas para chegar num valor que represente bem o que os usuários responderam sobre sua percepção da experiência apresentada
  • Testes de hipótese: Como toda pesquisa feita com uma amostra, temos limitações inerentes, e por isso para tirar conclusões confiáveis, como a “média é maior do que um valor x” ou “a média em uma pesquisa é maior do que a de outra” ou até mesmo identificar se a “média de dois grupos (homens e mulheres, por exemplo) é igual”, precisamos fazer um teste de hipótese com significância estatística.
  • Comparar médias: Respeitando as conclusões dos testes de hipótese, podemos fazer afirmações que comparam quantitativamente as médias. Nesse cenário a afirmação “a experiência A tem avaliação 10% melhor que a B” faz mais sentido.
  • Média das dimensões: Se suas dimensões (os blocos de perguntas), assim como recomendei, também tem múltiplos itens, então a média pode ser utilizada, desde que com cuidado, para gerar insights de oportunidades de melhoria da sua experiência.
  • Avaliar respostas individuais: Vindo do campo da psicologia, esses formulários tem a intenção de caracterizar cada respondedor em nível individual. Nesse cenário você pode observar com mais atenção o conjunto de respostas de entrevistados que te chamam atenção
  • Identificar fatores mais relevante: Caso seja utilizada uma pergunta sobre a percepção geral da experiência, é possível estudar as respostas dos indivíduos que dão as menores notas e identificar o que elas tem em comum, quais fatores da experiência foram problemáticos e os levaram a essa opinião. As vezes alguns aspectos da experiência tem um impacto bem maior do que outros na percepção final do usuário, e deveriam ser prioridade.

Lembre-se que, analisar e comparar itens individualmente nos exige os mesmos cuidados que numa pesquisa com um único item.

Likert como parte de um fluxo de navegação

A pesquisa com Escala Likert feita da forma original como já apresentei é sem dúvidas muito legal e tem potencial para trazer muitos insights para a evolução da sua plataforma, mas não existe bala de prata. Sejam quais forem os pontos positivos de uma metodologia, ela também tem seus pontos negativos.

Uma pesquisa como parte de um fluxo faz parte da experiência e se você inserir um formulário de vinte perguntas tenho uma má notícia sobre o que o usuário vai achar disso. Nosso objetivo sempre é avaliar a experiência, e não estraga-la!

Quando desenhamos experiências tentamos simplifica-las, reduzir passos e pedir apenas as informações essenciais. Qualquer pergunta feita ao cliente durante a experiência deve ser tratada como um tipo de atrito e ser utilizada levando em conta o tamanho do desgaste causado. Depois de alguma reflexão, raramente você vai chegar à conclusão de que deve abordar um cliente com vinte perguntas, até por que se o fizer a chance de abandono é imensa. Caso ainda assim essa seja a opção adotada, podemos oferecer algum tipo de recompensa ao usuário como forma de incentivo à conclusão da tarefa, ainda que isso possa impactar em suas respostas.

Oferecer recompensas pode causar um viés em sua pesquisa, mas esse não é o único fator que pode ter esse efeito. Não é difícil manipular os números de uma pesquisa dentro de um fluxo, isso pode até deixar seus números mais bonitos e agradar os chefes ou investidores, mas lembre-se que a opinião que importa é a do usuário, então tome cuidado nas decisões tomadas e analise os resultados com consciência dos possíveis viéses.

Ainda assim, se for colocar uma pesquisa na sua experiência, é recomendado que ela seja curta, causando o menor atrito possível com seu usuário, por isso é natural optar por apenas uma pergunta, ainda que tenha todas as implicações que já tanto reforcei.

Agora imagine que os usuários decidem realizar uma tarefa em sua plataforma através de um fluxo muito bem pensado por você e sua equipe, mas infelizmente essa tarefa é complexa e exige diversas informações e decisões. Ao longo das telas algumas pessoas vão ficar confusas (ou cansadas, distraídas e etc.) e vão desistir da tarefa, digamos que esse é o grupo A. O que será que esses usuário que nem conseguiram completar a tarefa pensam da experiência que vocês ofereceram? Qual nota dariam?

Outros usuários vão seguir o “caminho feliz” e finalizar a tarefa com sucesso, ainda que parte deles tenha tido dificuldades, vamos chama-los de grupo B. E esses, o que acharam e que nota dariam? Seria totalmente esperado que o grupo B avaliasse a experiência de forma mais positiva que o grupo 1, que nem conseguiu finalizar a tarefa.

Quando colocamos uma escala do tipo Likert ao final de um fluxo, falamos apenas com quem conseguiu completar a experiência, ou seja, sua pesquisa retrata a opinião do grupo B, e não a opinião de todos usuários que iniciaram a tarefa. Estamos ignorando completamente o grupo A que não só costuma ser grande como às vezes é bem maior que o grupo B. O potencial impacto que isso tem na nota obtida em sua pesquisa é extremamente significativo e oculta justamente os problemas que fazem os usuários abandonarem a plataforma. Esse tipo análise não é errado, mas é viesado, ou seja, produz resultados distorcidos.

As consequências de usar dados viesados podem ser terríveis, mas também podem ser mínimas, tudo depende da sua situação e da consciência. Quando for interpretar os resultados, tenha em mente o viés de sua pesquisa e leve isso em conta em suas conclusões, que precisam ser relativizadas.

A percepção da experiência quando coletada ao fim de um fluxo é superestimada e não representa a percepção da totalidade dos seus usuários. Ainda assim pode ser útil, gerar insights, e ser parte importante do acompanhamento da qualidade do seu fluxo de navegação, desde que combinada com outros indicadores. A taxa de completude da tarefa é importante nesse caso, pois, continuando no exemplo de grupos A e B, se coletamos opinião apenas do grupo B, devemos em primeiro lugar saber qual porcentagem do total de usuários eles representam e, não menos importante, monitorar esse número para entender se as alterações feitas diminuem ou aumentam a taxa de abandono da tarefa, complementando a informação sobre a satisfação de quem consegue completar.

Uma alternativa seria aplicar a pesquisa no mesmo formato, mas não ao final da iteração. Podemos abordar o usuário que iniciou a tarefa na próxima vez que o usuário acessar a plataforma. Nesse formato temos o beneficio de abordar tanto o grupo A quanto o B, porém o tempo entre a ação e a abordagem é maior, de forma que existe o risco de que a experiência já não esteja tão fresca na cabeça do usuário, ocasionando maior dificuldade em responder a pesquisa e, possivelmente, alguma distorção no resultado.

Alguma vez você já entrou no aplicativo do uber, recebeu a solicitação de avaliação do motorista e não conseguiu se lembrar exatamente de como foi a corrida ou respondeu de qualquer jeito para eliminar a tarefa e usar o aplicativo como pretendia quando o abriu? Quem já passou por algo do tipo deveria entender o risco dessa estratégia. Num dia a dia como o nosso, cheio de interações digitais e com um enorme volume de informações processadas mentalmente sem descanso, é normal que o usuário esqueça os detalhes, positivos e negativos da experiência que teve, prejudicando pesquisas que abordam o usuário muito tempo depois da tentativa de execução de uma tarefa.

Somado ao viés do momento da abordagem, a pesquisa do tipo Likert com apenas um item traz limitações quanto ao uso da média. Os valores decimais produzidos pela escala tem um significado nebuloso e devem ser interpretados com cautela, provavelmente melhorar uma nota de 3.5 para 4 é mais fácil que melhorar a nota 4 para 4.5. Isso deve ser levado em conta ao tratar a média como o KPI (Key Performance Indicator) que muitas vezes serve inclusive como meta.

Claro que a média é uma medida resumo muito boa, e levar a nota média para um fórum executivo pode ser mais conviniente, ainda assim a distribuição das respostas entre todas as notas deveria ser mais relevante. Suponha que você quer comprar um produto caro no mercado livre. Você não conhece os fornecedores nem as marcas e vai confiar sua escolha ao que você vir nas avaliações. Qual é o seu processo? Você vai seguir cegamente a média ou vai analisar toda a distribuição das avaliações?

A média é um bom atalho, mas não te trará todas as informações. É importante ver quantas notas mínimas foram dadas, e provavelmente investigar o motivo disso. Sugiro sempre que você observe uma tabela (um gráfico seria ainda melhor) com a distribuição das notas recebidas, com essa visão podemos ver com mais clareza qual é a percepção que os seus usuários estão tendo da sua plataforma. Ainda assim tenha cautela em suas conclusões, sejam elas positivas ou negativas, olhando esses números existe uma grande chance que você observe um comportamento bastante comum.

Efeito da curva J

Não deveríamos avaliar os resultado de uma pesquisa olhando somente para nossos próprios resultados. Sempre que possível veja o resultado de outras pesquisas que avaliam coisas similares, se estiver avaliando seu app, tente entender qual é a avaliação dos seus concorrentes e também dos que não são concorrem diretamente, veja se consegue identificar padrões comuns nas pesquisas, efeitos que podem ser creditados a outros fatores que não a experiência oferecida.

Muitas coisas impactam as notas que o seu aplicativo recebe, o principal deles é o padrão de comportamento humano. Observe o formato dos gráficos abaixo e repare na concentração de respostas em cada alternativa. Temos um pico claro em cinco estrelas, outro bem menor em quatro estrelas e na sequência vemos menos respostas quanto menor a nota. A exceção é a nota mínima, quando temos um novo pico, não tão grande quanto o de cinco estrelas, mas ainda assim significativo.

Notas de alguns dos apps mais buscados na Google Play (maio/2019)

Principalmente quando a escala likert é aplicada em forma de avaliação com 5 estrelas é muito comum encontrar esse formato nos resultados. Isso não é uma regra, e até pode acontecer por acaso, mas quando o resultado tem esse formato, que comparamos com um J, geralmente estamos diante de um comportamento em massa. Esse comportamento costuma acontecer em avaliações de aplicativos, principalmente quando solicitadas durante o uso, e não ao final de uma tarefa específica.

Os usuários que se mobilizam a fazer a avaliação geralmente tem bons motivos para tal. Quem gosta muito da experiência se mobiliza para dar a nota máxima, assim como quem realmente não gosta do que viu pode fazer questão de demonstrar isso com a nota mínima. As pessoas que não têm experiências extremas tem uma taxa de resposta muito menor à pesquisa, com volumes de resposta que influenciam menos na média final.

Na prática temos um grande volume de avaliações máximas, típico de avaliações do tipo 5 estrelas, levando a média de partida para perto de 5, causado apenas pelas pessoas que gostaram do app. Experiências excepcionais geram picos ainda maiores da nota 5, aumentando a nota final. Na comparação com outros apps a proporção de notas 4, 3 e 2 costuma ter pouco efeito para diferenciação. Quando temos esse fenômeno é normal termos uma concentração de notas variando em torno de 4.5, de forma que o volume de notas 1 é decisivo no quanto a média final fica abaixo disso.

Normalmente, quando vemos médias muito inferiores a 4.5 é notável uma imensa concentração de notas 1, muitas vezes causadas por indisponibilidade ou falhas críticas que impedem que o usuário utilize a ferramenta.

É claro que precisamos evitar essas falhas críticas, mas não devemos nos satisfazer com notas superiores a 4. Como vimos antes nessa escala não temos linearidade e, a grosso modo, para levar o um app da nota 3 à nota 4 precisamos principalmente que o aplicativo funcione e que o usuário consiga realizar as tarefas desejadas. A partir daí cada décimo é mais difícil de ser conquistado. Sua nota não traduz a experiência do usuário, mas sim as opiniões mais extremas, levar seu aplicativo a quase 5 exige não só que as pessoas gostem do que viram, mas que se importem suficiente para avaliarem com 5 estrelas.

Quando pedimos a avaliação ao fim da tarefa temos um viés positivo nas notas. Avaliações posteriores que funcionam como um pedágio tendem ser menos criteriosas, chegando ao extremo do Uber (que envolve outros fatores), onde talvez seus amigos sejam todos passageiros nota 4.9, ainda assim apresentando um pouco do efeito da curva J, que faz com que as notas extremas tenham peso significativo.

Proposta de uso de Likert

A forma ideal de usar uma pesquisa Likert foi descrita na parte 2, mas sabemos que isso nem sempre é possível. Pensando nas formas mais comuns, existem algumas práticas que são importantes para chegar a conclusões eficientes.

Faça a pesquisa com uma amostra representativa dos seus usuários. Isso significa que cada pessoa que usa sua plataforma ou tenta executar uma tarefa tem a mesma importância. É muito comum fazermos uma pergunta ao final de uma tarefa, e isso introduz um viés ao resultado. Procure capturar a opinião também de quem não terminou o fluxo. Se não for possível não se esqueça que essas pessoas existem ao interpretar o resultado.

Acompanhe o resultado da pesquisa ao longo do tempo. Cada atualização pode ter um impacto na sua avaliação, entenda qual alteração foi responsável por cada variação da sua nota.

Associe a resultado da pesquisa a outras métricas. A pesquisa Likert te dá alertas e base para comparação com outras aplicações ou fluxos. Ela não te dá conclusões sozinha sobre as causas da nota. Para isso use testes AB e observe atentamente variações de métricas como tempo na página, scroll, bounce, taxas de conversão (final ou parcial).

Compartilhe resultados!

Lembre-se sempre que um número sozinho tem muito pouco a dizer, só conseguimos chegar a conclusões conforme comparamos métricas, portanto sempre avalie resultados anteriores e disponibilize seus resultados para seus colegas. É bem provável que em algum momento haja uma passagem de bastão e outras pessoas assumam a responsabilidade das interfaces que hoje você cuida, e essas pessoas vão precisar dos dados que você coleta. Além disso outros colegas que estão trabalhando próximo de você também podem tirar proveito das suas informações.

É muito comum ver pesquisas serem feitas, atenderem a seus propósitos iniciais e que posteriormente são abandonadas, com os aprendizados ficando restritos às memórias daqueles que foram responsáveis por sua condução. Guarde seus dados de forma organizada e segura, de preferência de forma facilmente acessível por outras pessoas e propague essa cultura. Dessa forma você também terá mais dados disponíveis para o entendimento do comportamento dos seus usuários.

Conclusão

Muitas coisas podem afetar o resultado de uma pesquisa , com a escala Likert não é diferente e uma pesquisa mal interpretada pode ser até pior do que não ter pesquisa alguma, sendo assim (como principal responsável ou não) faz parte do papel de cada um dos envolvidos ficar atento a potenciais pontos que possam fazer com que o resultado de uma pesquisa seja adulterado.

Garanta que sua amostra represente as características dos seus usuários e leve em conta qualquer fonte de viés que consiga perceber. Organize e disponibilize seus resultados de forma corporativa e com isso tire o maior valor possível.

Lembre-se das limitações que seu tipo de pesquisa pode ter e adapte sua análise. Use técnicas avançadas apenas quando elas fizerem sentido e analise seus dados de forma completa, vendo toda sua distribuição e não apenas a média, levando em conta o viés comportamental que os usuários tem em situações parecidas.

Renato de Cerqueira Leite é coordenador de CX no Itaú Unibanco

Itaú

Written by

Itaú

Estamos aqui para contar histórias sobre cultura, educação, esporte, mobilidade urbana e ações que mudam o mundo para melhor. Acompanhe em medium.com/itau ;-)

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade