Guia do Mochileiro para Testes A/B

Published in

Buser

21 min readAug 28, 2023

Ao longo da minha experiência profissional em startups, notei que os Testes A/B são, ao mesmo tempo, muito importantes para experimentar ideias e também confusos de se interpretar. Assim, decidi criar este guia para resumir e orientar o planejamento e a análise de Testes A/B de forma clara, confiável, prática e ainda em português.

O guia é voltado especialmente para profissionais de diversas áreas que estão fora do núcleo de dados, como gerentes de produto, designers, entre outros cargos comuns nos squads de startups, que também são stakeholders desses experimentos (por vezes com muito mais responsabilidade do que o cientista de dados analisando o experimento). Em outros artigos, entrarei em mais detalhes técnicos de testes A/B.

Nota: ao final deste artigo, você encontrará um glossário de termos e links úteis como calculadoras de Testes A/B e exemplos práticos.

Sumário

Parte I: Conceitos, Planejamento e Boas Práticas

Motivação
Tipos de Teste A/B
Planejando um Teste A/B
Avaliação do Teste: A Hora da Verdade
Boas Práticas: evitando problemas reais
Como Documentar: O Roteiro do Relatório
Glossário: O Dicionário do Teste A/B

Parte I: Conceitos, Planejamento e Boas Práticas

Motivação

Se você trabalha numa startup ou em qualquer empresa que valorize dados, sabe que testar hipóteses faz parte do dia a dia. Isso pode ser tão simples quanto alterar a cor de um botão ou tão complexo quanto mudar todo um algoritmo de recomendação. A ideia é sempre a mesma: você tem uma versão/variante atual do seu produto (o famoso grupo A ou controle) e uma nova versão/variante que você acha que pode ser melhor (o grupo B ou tratamento). A pergunta que todos querem responder é: “Qual versão realmente manda melhor?”

Mas, ei, os testes A/B não são exclusividade do mundo das startups ou do marketing digital. Eles são uma forma de experimentação científica e têm sido amplamente utilizados em pesquisa acadêmica, principalmente na área médica. Sim, estamos falando de avaliar a eficácia de medicamentos, vacinas e tratamentos médicos. O grande trunfo desses testes é ser um experimento randomizado, fato que isola o tratamento em questão e prova que o efeito observado entre A e B é causal.

Em fases iniciais, quando você tem poucos testes e o risco é baixo, uma análise rápida e superficial pode ser suficiente. Contudo, à medida que sua empresa cresce e as apostas aumentam, você precisa de uma abordagem mais rigorosa. É aqui que a estatística entra em cena e os testes A/B se tornam essenciais. Afinal, quando você tem mudanças mais arriscadas e resultados menos óbvios, um “achismo” não vai colar.

Grandes empresas como Uber e Netflix levam isso muito a sério. Para dar uma ideia, o Uber tem mais de 1.000 experimentos rodando em sua plataforma a qualquer momento. A Netflix, por sua vez, submete cada alteração de produto a um rigoroso processo de teste A/B. Você pode ver mais sobre essas práticas em bigtechs aqui, mas deixo alguns exemplos:

“Today almost all product decisions are made with some input from one or more A/B tests.” — Johan Rydberg, Spotify
“In fact, every product change Netflix considers goes through a rigorous A/B testing process before becoming the default user experience.” — Netflix Tech Blog
“There are over 1,000 experiments running on our platform at any given time.” — Anirban Deb et al., Uber

Não, você não precisa ser uma gigante da tecnologia para tirar proveito dos testes A/B. Organizar e documentar esses testes pode não só melhorar a qualidade das suas entregas, mas também acelerar o ciclo de experimentação. Assim, você explora mais oportunidades em menos tempo, encontrando os melhores caminhos mais rapidamente.

Tipos de Teste A/B

Não vamos nos perder em detalhes técnicos por agora (isso fica para a seção Avaliação do Teste), mas é bom você saber que temos dois grandes jogadores no campo dos testes A/B: o Método Frequentista e o Método Bayesiano.

Frequentista: Imagine que você está jogando dardos com duas técnicas diferentes: uma é a forma que você sempre jogou (a nossa versão A) e a outra é uma técnica nova que você quer testar (a versão B). No Frequentista, você só pode avaliar o resultado depois de um número mínimo de arremessos com cada técnica (aqui entra o nosso sample size). Depois disso, você se pergunta: “Qual a chance de a técnica nova ter se saído melhor só por sorte?” (o famoso p-value entra aqui). Se essa chance for baixa, você pode concluir que a técnica nova (versão B) é realmente melhor.

Bayesiano: Agora, imagine que você continua jogando dardos, mas o Bayesiano permite que você confira o placar a cada arremesso. Não precisa esperar atingir um mínimo de arremessos. A cada lance, ele te diz: “Com base no que vimos até agora, qual é a probabilidade de a técnica nova (versão B) ser melhor que a antiga (versão A)?”. Isso te dá a liberdade de ajustar sua estratégia mais rapidamente.

Ambos os métodos te levam ao mesmo lugar, se bem feitos. A vantagem do Bayesiano é que ele te dá respostas mais rápidas e geralmente precisa de menos dados para uma conclusão. Isso porque o método Bayesiano atualiza constantemente suas previsões com base nos novos dados, incorporando também informações anteriores para chegar a conclusões mais robustas mais rapidamente.

Entraremos em mais detalhes sobre os prós e contras de cada abordagem depois. Agora, entenderemos como de fato planejar um Teste A/B.

Planejando um Teste A/B

Antes de apertar o botão “Iniciar” no seu experimento, tem um monte de coisas que você precisa considerar. Estamos falando de objetivos claros, métricas bem definidas e estimativa de que você terá dados suficientes para tirar conclusões válidas. É a hora de pensar em possíveis problemas que podem dar dor de cabeça mais tarde e planejar onde e como você acompanhará as métricas. Ah, e não esqueça de tentar estimar quanto tempo tudo isso levará ou definir um período limite para seu experimento.

Defina Hipótese e Métricas

Antes de tudo, você precisa de uma hipótese e um objetivos bem definidos. Pode ser algo como:

“Uma abordagem de comunicação por e-mail mais agressiva que a atual neutra aumenta o engajamento em relação a uma mais neutra?” Objetivo: gerar mais visitas para o site do produto por meio da abertura do email e clique em algum call to action (CTA).
"Um design mais limpo da página de produto aumenta as vendas?" Objetivo: gerar mais conversões com o mesmo tráfego.
“Um cupom de 15% aumenta a receita por usuário mais do que um cupom de 10%?” Objetivo: gerar maior retorno financeiro por usuário, em média.
“Enviar um email 7 dias após a última compra aumenta as conversões nos próximos 30 dias?” Objetivo: reengajar usuários para novas compras.

Essa hipótese deve ser super clara, e junto dela vem a métrica principal (ou north star metric) que dirá se sua hipótese é verdadeira ou não.

Métricas Principais e Secundárias

Mas calma lá, você não olhará só para uma métrica, certo? Além da métrica principal, tenha também métricas secundárias (ou guardrails) que funcionam como sinais de alerta. Por exemplo, se você está focado no engajamento de emails (CTOR), mas não quer que a taxa de rejeição (bounce rate) passe de 5%, fique de olho nela. Se ultrapassar, pare o teste.

Escolhendo Métricas de forma inteligente

Muita gente usa a taxa de conversão como métrica principal (você vai ver isso na grande maioria dos exemplos na internet), mas nem sempre ela é a estrela do show. Se você dá um desconto na sua versão B, a conversão pode até aumentar, mas o retorno financeiro pode ser menor no final do mês e gerar menos dinheiro na mesa. Nesse caso, pode ser melhor focar na Receita Média por Usuário (ARPU, de Average Revenue per User), que considera tanto a conversão quanto o valor gasto por cliente. Outras métricas comuns em CRM, por exemplo, são:

Open Rate de email (OR): quando se quer saber se somente o assunto do email engaja mais (taxa de abertura de email);
CTOR: quando se quer medir se houve mais engajamento da abertura até o CTA no email (o cliente abriu o email e clicou em algum link que leva ao seu produto).

Tipicamente, essas métricas caem em três casos:

taxas de conversão: quando são taxas a partir de respostas binárias do tipo “converteu” ou “não converteu”;
valor por conversão: quando são valores contínuos a partir das conversões, como receita ou custo por conversão;
valor por participante: quando avaliamos o valor retornado em média para cada participante do teste, convertendo ou não. É o caso do ARPU.

Essas diferenças são importantes, pois cada uma delas tem um comportamento estatístico diferente (uma distribuição de probabilidade diferente), o que levará a abordagens diferentes na hora de avaliar os experimentos.

Às vezes, uma só métrica principal só não basta. Você pode combinar métricas do mesmo tipo para ter uma visão mais completa, e até reduzir vieses. Por exemplo, em emails, você pode usar (1 * open_rate + 2 * conversion_rate) / 3 para dar uma importância maior à conversão sem deixar a taxa de abertura fora do foco. Parece complicado, mas é uma forma de equilibrar os indicadores quando você não quer priorizar apenas um.

Note que ARPU = revenue / impressions = (conversions * avg_ticket) / impressions = (conversions / impressions) * avg_ticket = (conversion_rate * average_ticket). Logo, o ARPU é um bom balanço entre taxa de conversão e ticket médio.

Pré-teste: checkup dos dados

Após escolher sua hipótese e métricas principal e secundária, você já pode pensar e documentar sobre como coletará os dados necessários para rodar esse experimento, de preferência fazendo estimativas sobre o volume de dados necessários. É o momento de checar se você terá dados suficientes, se você consegue separar as variantes aleatoriamente e se será fácil acompanhar esses usuários posteriormente.

Intuitivamente, se você tem uma amostra de 10 usuários com conversão de 10% e outra amostra com 1000 usuários e 10% de conversão, em qual caso você confia mais nesses 10% de conversão em média? É por isso que o volume de dados ajuda a tomar decisões. No método frequentista, você precisa calcular um volume mínimo de amostra. No método bayesiano, isso não é obrigatório, mas indicado para ter uma noção mínima, e ainda vale a ideia de que quanto mais dados, melhor. Na seção Calculadoras você verá alguns links úteis e mais detalhes disso.

Avaliação do Teste: A Hora da Verdade

Então, você planejou tudo direitinho e seu teste A/B está no ar. E agora, como saber se deu certo ou não? Essa é uma das partes mais complicadas, mas, felizmente, temos ferramentas para descomplicar isso. O jeito de avaliar seu teste dependerá muito da métrica que você escolheu. Cada métrica tem sua própria pegada e, por isso, uma forma específica de ser analisada (tecnicamente, cada uma tem uma distribuição diferente e tratamento distintos).

Neste guia, vamos focar nas três métricas-chave que mencionamos antes: taxas de conversão, receita por conversão e receita por usuário/impressão/participante. E, para simplificar, partiremos do pressuposto mais comum: você quer saber se a versão B é melhor que a versão A.

A seguir, mergulharemos em como avaliar essas métricas usando os dois tipos de testes que você já conheceu: o Frequentista e o Bayesiano.

Frequentista: O Passo a Passo

Então você escolheu o bom e velho método Frequentista para o seu teste A/B. Como fazer a avaliação? Aqui vai o roteiro:

Rode as Variações: Mostre as versões A e B para os usuários e comece a coletar os resultados. Continue até atingir o sample size que você calculou no planejamento.
Hora da Calculadora: Chegou no sample size? Ótimo. Agora, some as impressões (ex: usuários que participaram) e as conversões de cada versão e jogue esses números numa calculadora de teste A/B Frequentista. Configure a potência (power) para 80% (padrão) e marque a opção de “one-sided test” (ou teste unicaudal, o que estiver disponível), já que você quer descobrir se a versão B é melhor que a A (tem métrica superior à métrica de A).
O Veredito: Olhe para o p-value que a calculadora te deu. Se for menor que 5% (que é o valor típico; lembra da analogia dos dardos no início do artigo?), pode abrir o champanhe: a versão B é a vencedora! Rejeite a ideia de que B é igual a A. Se o p-value for maior, segure a comemoração. O teste não mostrou diferença significativa entre as versões, então é melhor encerrá-lo sem grandes alardes.

Importante: Não tome decisões antes de atingir o sample size. Fazer isso pode levar a conclusões erradas e, acredite, você não quer isso.

Bayesiano: O Passo a Passo Ágil

Escolheu o Bayesiano? Boa! Aqui você tem mais liberdade e respostas mais rápidas. Veremos o nosso novo roteiro:

Rode as Variações: Como sempre, comece apresentando as versões A e B para os usuários e colete os resultados.
Check-up Diário: No Bayesiano, todo dia é dia de análise. Use uma calculadora de teste A/B Bayesiana para inserir as impressões e conversões diárias. Se fizer sentido para o seu caso, adicione também a receita gerada por cada versão. A calculadora (que construí e indico ao final do artigo) vai te dar as probabilidades de B ser melhor que A para cada métrica, dando uma visão bem completa do experimento (faça uma comparação com a interpretação disso com o p-value relendo a analogia dos dardos no início do artigo).
Hora do Veredito: Fique de olho na métrica principal. Se ela atingir uma probabilidade alta (por exemplo, acima de 95%) de B ser melhor que A, você tem um vencedor! Mas se isso não rolar em um tempo razoável, melhor encerrar o teste. Com as probabilidades em mãos, avalie o risco de seguir com a versão B ou manter a A.

Como se nota, o Bayesiano é bastante flexível, mas isso não significa que você deve tomar decisões apressadas. Espere os resultados se estabilizarem para ter mais confiança no veredito. Se possível, faça gráficos desses resultados por dia para acompanhar melhor.

Nota: Junto com a probabilidade de B ser melhor que A, é comum informarmos o risco de perda (expected loss) de cada versão, mas isso fica mais claro na documentação da própria calculadora que indico usar.

Boas Práticas: evitando problemas reais

Muita coisa funciona na teoria, mas pouco vejo sobre aprendizados e boas práticas reais em testes A/B. Aqui vão algumas dicas de ouro para você não derrapar no seu teste A/B:

Menos é Mais: Se você tem uma nova ideia, mude apenas UM elemento de cada vez. Isso te ajuda a isolar o efeito e ver se realmente fez diferença. Mudou tudo de uma vez? Não vai saber o que realmente impactou.
Cuidado com as Variantes: Se o tráfego é baixo, não invente de usar mais de duas variantes. Isso complica a análise (matematicamente falando). Se insistir em mais variantes, ajuste a significância no Frequentista ou a perda esperada no Bayesiano.
Não fique mudando de Métrica Principal: Escolha UMA métrica principal (ou uma combinação). Pode até olhar para outras, mas defina a principal antes de começar o teste. Mudar a métrica após ver os resultados é pedir para se enviesar.
Resista à Tentação: Já falamos isso, mas não custa repetir: no Frequentista, esperar o sample size é lei. Tenho certeza (vi na prática) de que muitas decisões são tomadas com calculadoras frequentistas e nenhuma preucupação com sample size. No Bayesiano, a amostra mínima não é obrigatória, mas é interessante calcular qual seria ela no caso frequentisa só para checar limitações de público ou orçamento (sabendo que o bayesiano chegará em conclusões bem mais rápido que o sample size). Idealmente, no caso bayesiano, defina uma janela de tempo razoável (uma sprint por exemplo, em testes típicos de páginas de websites ou testes de CRM) e, se não houver vencedor, mude de estratégia para não perder tempo.
Dados Certos, Resultados Certos: Se a calculadora pede conversões, não coloque receita ou outros números. Cada métrica tem sua própria matemática (como comentei, cada uma tem sua distribuição de probabilidade).
Seja Transparente: Tudo precisa ser replicável. Documente bem os dados para qualquer pessoa poder checar os resultados, inclusive as contas. Isso facilita a divulgação e análises passadas.
Teste Interno: Inclua membros da equipe nas variantes para pegar bugs mais rápido e consertá-los (não inclua esses casos nos dados da avaliação)
Teste A/A para Aquecer: Antes de entrar de cabeça nos testes de um produto, faça um teste A/A para medir o nível de “ruído” nos dados. Você precisa vencer esse ruído antes de qualquer coisa. Repita esse processo de tempos em tempos (a cada semestre ou ano).
Dias da Semana são importantes: Se o comportamento varia conforme o dia da semana, tente equilibrar isso na análise, especialmente se o teste for curto. Mantenha na sua análise um mesmo número de cada dia da semana (ex: 7 dias, de segunda à domingo).
Defina uma janela de atribuição para conversões: pouca gente nota isso, mas é importante definir uma janela fixa para dizer que uma dada conversão pode ter sido influência da exposição a sua nova versão B. Pense em um usuário que visitou sua home e comprou seu produto na mesma sessão, e em outro que visitou a home, mas comprou 7 dias depois por um anúncio de email.

Como Documentar: O Roteiro do Relatório

Documentar um teste A/B é tão crucial quanto executá-lo. Você quer que qualquer pessoa com o mínimo de conhecimento em testes A/B possa entender o que aconteceu, certo? Então, aqui vai o esqueleto básico de um bom relatório:

Contexto e Hipótese: Comece explicando o motivo do teste. Qual é o problema ou oportunidade que você está atacando?
Métrica Principal e Secundárias: Especifique quais métricas você usará. Existe algum risco associado a esse teste? Coloque isso aqui.
Coleta e Acompanhamento dos Dados: Descreva como você coletará e monitorar os dados. Se estiver usando o método Frequentista, dê uma ideia do tempo necessário para alcançar o sample size. Caso use o bayesiano, dê uma noção de quanto tempo deseja rodar para tirar conclusões.
Resultados: O miolo do relatório. Inclua a estatística usada (p-value ou probabilidades, dependendo do método), impressões, conversões, receita gerada e qualquer outra métrica que faça sentido. A ideia é que qualquer pessoa possa pegar esses dados e chegar às mesmas conclusões. Inclua contextos adicionais como dificuldades ou imprevistos encontrados.
Conclusão e Recomendação de Ação: O famoso “Call to Action”. Mesmo que o teste não tenha sido conclusivo, sempre há algo a aprender e a comunicar ao time. Um teste não foi feito para guardar na gaveta: sempre devemos ter algum acionável associado a ele, mesmo quando nossa hipótese não é validada. Neste último caso, pode-se pensar em novas abordagens para buscar o mesmo objetivo.

Glossário: O Dicionário do Teste A/B

Aqui está um resumo dos termos mais usados em testes A/B. Guarde bem, porque você vai ouvir bastante essas palavras:

Teste A/B: Basicamente, é um experimento (nome mais formal que "teste") em que você compara duas versões diferentes de algo para ver qual é a melhor. “teste” aqui não significa “tentativa”, mas sim “experimento”.
Variante/Variação/Alternativa/Versão: São os sinônimos chiques para as diferentes versões no seu teste. Geralmente, a versão B é a novidade que você quer testar.
Impressão ou Participante: Cada pessoa que participa do experimento, e que será alocada aleatoriamente entre os grupos no instante em que interagir com seu experimento. Pode ser um usuário, uma visita ao site, etc. Tecnicamente chamado de randomization unit, representa "o quê" ou "quem" está sendo analisado (em geral, usuários).
Sample Size ou Tamanho Mínimo da Amostra: No mundo Frequentista, é o número mágico de participantes mínimos que você precisa para fazer a análise.
Métrica Principal (north star metric): É o indicador número 1 do seu teste. É ela que dirá se você venceu ou perdeu.
Métrica Secundária (guardrails metrics): São métricas auxiliares que você também acompanha, seja por curiosidade ou precaução.
Viés de Seleção: É um erro sistemático que faz com que os grupos teste e controle não sejam totalmente aleatórios. E quando isso acontece, seu teste fica enviesado e deixa de ser randomizado (erros de cookies, por exemplo). Às vezes são difíceis de enxergar, mas você evita isso deixando a divisão entre A e B genuinamente aleatória. Mesmo assim, na hora de analisar, o analista pode envisar fazendo um corte dos usuários tal que o resultados ficam enviesados. Deixo dois exemplos não tão triviais em e-commerce:

Exemplo 1: Em uma página de busca, filtros foram adicionados com um teste A/B. Obsevou-se que na versão B, pessoas que interagiram com o filtro tiveram uma conversão muito superior às pessoas do grupo controle, com significância estatística. Pode-se achar que é uma boa implementar os filtros, mas na verdade quem usou filtro já era mais engajado naturalmente que o grupo controle, escolhido aleatoriamente, de forma que isso é um viés. É preciso considerar também quem estava em B e não usou filtros.
Exemplo 2: você quer testar uma nova estratégia de promoção para aumentar as vendas, e decide oferecer um cupom de 20% para um grupo de clientes e comparar os resultados com um grupo de controle que não recebe o cupom. Se você decidir dar o cupom apenas para clientes que já fizeram compras no passado (talvez porque você acha que eles são mais propensos a comprar novamente), enquanto o grupo de controle é composto por novos e antigos clientes, você introduziu um viés de seleção. Por que isso é um problema? Clientes que já fizeram compras antes podem já estar mais inclinados a fazer uma nova compra, independentemente do desconto. Isso torna a comparação injusta e os resultados do teste não seriam válidos para estimar o efeito real do cupom de desconto na população geral de clientes.

Viu a sutileza? Para evitar esses problemas, sempre tente montar hipóteses simples, que não precisem selecionar subgrupos de usuários diferentes entre controle e tratamento.

8. p-value: No Frequentista, é a chance de os resultados serem um acaso. Quanto menor, melhor. Tipicamente usamos 5% como limite, ou seja, se você observa B ser melhor que A na amostra, p-value menor que 5% indica a rejeição da hipótese de que B é igual ou pior que A, a favor da hipótese de que B é melhor que A.

9. Probabilidade de B ser Melhor que A: No Bayesiano, é a chance, baseada nos dados amostrais, de que a versão B é a melhor. Geralmente, 90% ou 95% são bons indicadores. Note que é uma métrica mais "palpável" para empresas devido ao senso comum sobre probabilidades.

10. Risco (Expected Loss): No Bayesiano, é uma métrica avançada que mede o risco de você errar ao escolher uma versão. Quanto menor, melhor para tomar decisões. É correlacionada com a probabilidade anterior, então via de regra basta focar na probabilidade de B ser melhor.

Parte II: Ferramentas e Prática

Calculadoras: As Ferramentas do Negócio

Quando se trata de análises de testes A/B, existem algumas calculadoras online que podem ser úteis. O problema é que muitas delas são focadas apenas em taxas de conversão. No entanto, deixo duas recomendações:

1. ABTestGuide: Essa é uma das primeiras opções que você encontrará no Google. Eles oferecem três produtos principais, porém focados apenas em análise de taxas de conversão:

Cálculo de Sample Size para testes frequentistas.
Calculadora Frequentista para testes A/B.
Calculadora Bayesiana para testes A/B.

2. Bibliotecas Pessoais Open-Source: Pela carência de sites mais completos/práticos, desenvolvi duas bibliotecas pessoais e open-source, sendo que a bayesiana cobre uma gama mais ampla de métricas, incluindo conversão, receita por compra e receita por usuário. Ela também é mais informativa e completa. Confira os aplicativos públicos que disponibilizei online:

Teste A/B Frequentista (inclui cálculo de sample size). Código-fonte aqui.
Teste A/B Bayesiano (recomendado). Código-fonte aqui.

Ambas as bibliotecas também permitem uso direto no python, basta seguir a documentação de cada uma nos links acima (galera de dados: fiquem à vontade para propor refatorações ou melhorias).

Recomendação

Se você será o analista, pode escolher entre os dois métodos. No entanto, a recomendação geral é optar pelo método Bayesiano. Ele acelera o ciclo de experimentação e oferece insights mais profundos. Sinta-se à vontade para fazer seus próprios testes comparativos com dados fictícios para entender melhor.

Para quem quiser se aprofundar na matemática por trás das análises, eu incluí referências detalhadas nos aplicativos acima.

Exemplos práticos

Demonstraremos o uso da biblioteca com um exemplo simples, mas realista. Deixo as respostas separadas dos "enunciados", caso você queira exercitar sozinho antes de lê-las.

Novo layout de página web

Suponha que você quer testar um novo layout de uma página web do seu produto, por exemplo a homepage de um e-commerce. O objetivo é deixar a home mais "limpa", com informações essenciais e navegação mais intuitiva, sob a hipótese de isso irá melhorar as conversões da home para páginas de produto (métrica secundária) e também a conversão em vendas (métrica principal). Sua home tem cerca de 10k acessos por dia, sua taxa atual de conversão em vendas é de 12%, e a conversão da home para páginas de produto é de 35%. Espera-se que essa melhoria gere no mínimo um ganho de 5% relativos em conversão de vendas, e não espera-se prejuízos em receita por usuário, pois a mudança não beneficia produtos mais baratos.

Q1: Quem deve definir a impressão/participante: visitas ou usuários únicos? Como fazer esse sorteio no momento dos acessos à home?

Q2: pela abordagem frequentista, qual o sample size desse experimento e por quanto tempo teríamos que rodá-lo?

Q3: Imagine que após 2 semanas você tenha os seguintes resultados para as versões A/B: 142k/144k impressões, 17.040/18.720 conversões em compras, 49.700/51.120 conversões da home para página de produto e R$ 852.000/R$898.560 em receitas. Pela abordagem frequentista, o que podemos concluir? E sob a ótima bayesiana?

Q4: Supondo que os acessos por dia fossem da ordem de 1k, e que os resultados após duas semanas fossem todos os valores da Q3 divididos por 10, o que poderíamos concluir em cada método?

Respostas

Q1: O ideal é que cada usuário que entra na home seja atribuído a apenas uma alternativa, pois caso o sorteio fosse para cada acesso, um usuário poderia ver duas páginas diferentes na home e isso é um erro grave. Por isso, deve-se sortear as versões por usuário. Para cada acesso na home, deve-se avaliar se ele converteu após certo tempo (janela de atribuição), por exemplo 24h.

Q2: Basta inserir as informações na minha calculadora, na aba Test Planning. É um teste right-sided (queremos focar na hipótese de que B tem conversão maior que A) e com métrica binária (taxa de conversão). A resposta é 36.5k impressões (sample ou amostras) por versão, levando 1.14 semanas para alcançar esse volume.

Q3: Pelo método frequentista, sabemos que superamos o sample size mínimo, logo podemos jogar os dados na calculadora e avaliar as taxas de conversão. Usamos a aba Test Evaluation, preenchemos e clicamos em "Run Experiment". O p-value é muito menor que 5%, logo podemos declarar B vencedora, com 13% de conversão vs 12% do controle. Neste método, não temos uma forma fácil de avaliar ARPU, então vamos ver a ótica bayesiana.

Pelo método bayesiano, preenchemos analogamente, na aba "A/B Testing using Summary Information", e rodamos o experimento. Os resultados vem em tabelas e de forma mais palatável: um resumo de métricas e de definições seguido dos resultados estatísticos sob o ponto de vista do controle e do tratamento (estamos interessados neste último).

Em "Summary", Note que a conversão foi melhor (A/B 12%/13%), ticket médio foi um pouco pior e receita por usuário um pouco melhor (já sabemos que B trouxe mais dinheiro). Na seção "Statistical Results", para o tratamento, vemos que:

a chance de B ser melhor que A (chance_to_beat) em conversão alcançou 100% (B é vencedor em conversão);
a chance de B ter ticket médio superior a A é de 0.01%, ou seja, não afetou o ticket médio, conforme esperávamos;
a chance de B ter mais ARPU que A é 99.65%, superando nosso patamar padrão de 95%, logo B trás mais dinheiro por usuário participante. Isso é resultado da conversão ter aumentado (ARPU = conversion_rate * average_ticket)

Q4: No frequentista, o sample size seria atingido em 74 dias, o que é muito tempo. Pelo método bayesiano, em duas semanas, após preencher os dados na calculadora, a chance de B vencer A em conversão é de 99.47%, sem prejuízo em ticket médio, o que permite encerrá-lo com sucesso.

Conclusão: Onde Vamos a Partir daqui?

Parabéns, você chegou ao fim deste guia introdutório sobre testes A/B! Se você é um gerente de produto, designer, ou qualquer profissional que trabalha em squads de startups, espero que este guia tenha esclarecido alguns dos conceitos e práticas que podem parecer complicados à primeira vista. A verdade é que, com as ferramentas e o conhecimento certos, qualquer um pode executar e interpretar testes A/B de forma eficaz e informativa.

Na Buser, estamos melhorando constantemente nosso ciclo de experimentação, seja planejando melhor os testes, tomando mais cuidados com as métricas e vieses que comentei na seção de Boas Práticas e padronizando melhor nossa comunicação de resultados. Tudo isso resulta em uma cultura melhor de experimentação na empresa que transborda o time de dados em si. Previamente, quando estive na Quero Educação, pude ajudar também a impulsionar essa cultura e isso rendeu uma boa história neste outro artigo, um pouco mais técnico.

Mas, é claro, esta é apenas a ponta do iceberg. Este guia foi projetado para ser um recurso inicial e prático, especialmente para aqueles que não têm um background em análise de dados ou estatísticas. No entanto, para aqueles que desejam se aprofundar na mecânica técnica e nos métodos estatísticos por trás dos testes A/B, fique ligado! Pretendo publicar uma série de artigos mais aprofundados que irão explorar as complexidades e nuances da análise de testes A/B.

Se você tem alguma pergunta ou gostaria de saber mais sobre um tópico específico, sinta-se à vontade para deixar um comentário ou entrar em contato. O mundo dos testes A/B é vasto e cheio de nuances, mas estou animado para continuar destrinchando esse tema para desmitificar e democratizar o acesso ao tema.

Até a próxima!

Guia do Mochileiro para Testes A/B

Sumário

Parte I: Conceitos, Planejamento e Boas Práticas

Parte II: Ferramentas e Prática

Parte I: Conceitos, Planejamento e Boas Práticas

Motivação

Tipos de Teste A/B

Planejando um Teste A/B

Defina Hipótese e Métricas

Métricas Principais e Secundárias

Escolhendo Métricas de forma inteligente

Pré-teste: checkup dos dados

Avaliação do Teste: A Hora da Verdade

Frequentista: O Passo a Passo

Bayesiano: O Passo a Passo Ágil

Boas Práticas: evitando problemas reais

Como Documentar: O Roteiro do Relatório

Glossário: O Dicionário do Teste A/B

Parte II: Ferramentas e Prática

Calculadoras: As Ferramentas do Negócio

Recomendação

Exemplos práticos

Novo layout de página web

Conclusão: Onde Vamos a Partir daqui?

Written by Luan Fernandes