Você está falhando com o teste A/B

Murilo Cassiano
Tech at Quero
Published in
6 min readSep 3, 2019

Saber os custos reais dos testes e seu impacto na receita é imprescindível para deixar de falhar em seu processo

Quem trabalha ou trabalhou com produto pelo menos uma vez na carreira já se deparou com a seguinte situação: o principal stakeholder ou alguma liderança da empresa tem uma ideia que gostaria de testar. Ele propõe então que seja feito um teste A/B para validar a hipótese.

Logo você se lembra do lean startup e que o jeito certo de tomar decisões nas empresas é por fatos e dados e que sem isso cairíamos nas velhas políticas e decisões por HiPPO (“highest paid person’s opinion”). Sem pestanejar, você decide fazer o teste A/B, mesmo estando descrente da modificação. Afinal, com isso você conseguiria refutar ou provar a alternativa proposta baseado em dados e além disso, seria apenas um teste A/B e “não custa nada testar”, certo?

Errado. Fazer testes A/B custa, sim, e pode custar mais caro ainda quando feito de modo equivocado.

Quanto custa um teste A/B

Imagine que a proposta fosse de alterar parte do layout da página de checkout do seu site. O teste A/B foi bem planejado e ocorreu em apenas 50% do tráfego, direcionando 25% para cada variante.

O critério de parada também foi bem definido, baseado em uma confiança de 95% , com uma detecção mínima de 5% o que no caso necessitaria de uma amostra mínima de 15.000 casos por variação dado uma conversão de 28% do grupo controle [1].

Agora vamos supor que o seu volume de acessos médio seja de 60.000 acessos por mês (sim, os números foram imaginados para a parada ocorrer coincidentemente com o fim do mês). Podemos, então, entender como esse teste A/B impactaria a conversão no caso em que a alternativa fosse 5 pontos percentuais pior que o baseline.

Pelo exemplo imaginado, haveria uma queda de 4,5% na receita total no mês para uma conversão 5 p.p abaixo da conversão do baseline, significando, para muitos, um fracasso ao tentar atingir metas financeiras, ou pior, pode significar usuários frustrados que provavelmente procurarão serviços do concorrente: perda de mercado.

Na tabela abaixo podemos ver o impacto gerado na receita para cada simulação de diminuição na conversão:

Pelo exemplo exposto, é fácil perceber o quanto o negócio pode ser impactado por teste A/B quando se tenta provar uma solução sub-ótima. Mas, além disso, pode-se ter prejuízos maiores ainda decorrentes da má execução do teste A/B.

Erros comuns em teste A/B

Alguns exemplos de erros comuns são:

  • Estabelecer critério de parada incorreto: Isso pode fazer com que o teste A/B continue por mais tempo, gerando impactos negativos prolongados na receita. Na alternativa contrária — teste rodando por menos tempo — geraríamos um teste inconclusivo por não possuir a confiança esperada.
  • Teste A/B desbalanceado: Nesse caso, um dos lados do teste A/B recebe uma quantidade de tráfego maior que o outro, tornando o teste A/B injusto e fazendo com que uma variante sobressaia sobre a outra — não porque é melhor, mas porque recebeu mais visitas. Os resultados disso podem ser catastróficos, quando não detectados, já que podem levar os envolvidos a virarem o site para a pior alternativa e ainda levá-los a acreditar que estão pautados por dados.
  • Aplicar teste A/B em processos variantes no tempo e generalizar: Nesse caso, imagine um teste A/B de preço que foi rodado em novembro. Ele indicou que baixar 5% todos os preços, em relação ao baseline, era a melhor alternativa já que gerava um grande aumento de receita devido a um aumento no volume de venda. Agora imagine que expandir essa conclusão para o mês de janeiro seria totalmente equivocado, uma vez que, em novembro, a sensibilidade de preço é maior por conta da Black Friday. Além disso, o aumento de demanda que ocorre nessa época por diminuição de preço não ocorre de modo tão acentuado em fevereiro.

Por que um teste A/B pode custar tanto?

Ao executar um teste A/B, para que os resultados realmente sejam considerados confiáveis, utiliza-se o conceito de intervalo de confiança. Em estatística, o intervalo de confiança nada mais é do que “a frequência com a qual o intervalo observado contém o parâmetro real de interesse quando o experimento é repetido várias vezes” [2].

Em outras palavras, o intervalo de confiança indica o quão seguro você pode estar de que o seu experimento reflete de fato a realidade. Isso significa que, para uma tomada de decisão, precisa-se de um nível de confiança mínimo, em geral, 95% (podendo variar, dependendo do quão certo você precisa estar sobre aquele resultado).

A questão financeira entra em cena por uma razão: o intervalo de confiança é proporcional ao tamanho da amostra. Logo, para se ter uma confiança mínima aceitável, precisa-se de um tamanho de amostra mínimo. O problema é que esse tamanho de amostra mínimo implica em rodar o teste e deixar que uma solução sub-ótima destrua parte da sua receita somente para se provar como solução pior.

Aposte no melhor

Dado que uma moeda foi arremessada para cima cinco vezes e que, nas cinco vezes, a moeda caiu “cara”, isso implica que a moeda está viciada? Não, porque você tem um intervalo de confiança baixo. No entanto, se tivesse que apostar no próximo arremesso, com certeza não apostaria em “coroa”.

Do mesmo modo que não esperamos ter um intervalo de confiança grande para apostar na alternativa vencedora até o momento, existem algoritmos que também “apostam” na melhor solução com base na experiência passada. Eles fazem isso trocando dinamicamente as proporções das variantes de teste, alternando entre aproveitamento da melhor solução até o momento Exploitation, e descoberta de outras alternativas Exploration.

Tendo tudo isso em vista, percebemos que testes A/B podem custar caro porque carecem de uma confiança mínima e essa confiança depende de uma amostra grande o suficiente, que por sua vez implica em “gastar” parte do seu tráfego em uma solução sub-ótima — isso sem contar com os possíveis erros de metodologias de teste.

Sabemos que errar é importante para aprendizado e evolução de modelos e do negócio em si, no entanto deve-se saber do custo que um erro ou solução sub-ótima pode gerar para assim colocar todos os fatores na balança e decidir se o teste vale a pena ou não.

Nos próximos artigos, nossa equipe de cientistas de dados falará mais sobre um dos algoritmos mencionados, o “multi-armed bandit”, que, ao contrário do teste A/B, não aguarda resultados totalmente conclusivos para tirar proveito da melhor variante testada até o momento.

E, se quiser deixar de falhar nos testes A/B, siga o guia de boas práticas escrito por Marcus Oliveira, líder de Data Science da Quero Educação.

--

--