Como o efeito de spillover pode nos levar a tomar decisões de negócio equivocadas

Victor Matheo
Loft
Published in
6 min readNov 26, 2021

Um enorme desafio de áreas de data e decision science dentro de empresas é conseguir mensurar o benefício ou malefício de uma tomada de decisão estratégica. Muitos já devem ter escutado os questionamentos: O que vai acontecer com as nossas vendas se oferecermos descontos nos nossos produtos? E se melhorarmos as fotos dos nossos anúncios? Ou se adicionarmos um brinde?

Em muitos desses casos de perguntas como “e se”, uma ferramenta muito poderosa surge ao nosso favor: os testes AB. Com essa metodologia, fugimos do “e se” e montamos a hipótese que desejamos validar, na qual uma parte do público vê o cenário atual e outra parte vê o cenário a ser validado. Então, selecionamos algumas métricas chave para a validação da hipótese, executamos o teste comparando as duas realidades e, por fim, optamos pelo cenário que melhor se comporta frente aos objetivos.

Geralmente, esse tipo de estratégia de teste AB funciona muito bem quando fazemos mudanças pequenas, normalmente em ambientes muito controlados e digitais como, por exemplo, quando queremos testar a presença de um botão novo, textos em uma página, campos de formulários, etc.

Entretanto, existe um conjunto grande de situações onde simplesmente não conseguimos executar testes A/B desse tipo, seja por inviabilidade de sustentar os múltiplos cenários do teste ou para não prejudicar a experiência e confiança de pessoas usuárias. Para citar algumas, que fazem parte da nossa realidade aqui na Loft:

  • Mudanças de preço: não devemos mostrar preços diferentes para diferentes pessoas ao mesmo tempo na nossa plataforma. Além disso, queremos que mudanças de preços sejam eventos pontuais.
  • Mudanças estruturais nos imóveis: podemos realizar decoração, reparos ou até mesmo uma reforma estrutural. Depois que essas mudanças são feitas, não temos como mostrar versões diferentes para pessoas compradoras.

Áreas como inferência causal e análise de políticas buscam responder questões como essas, às quais não conseguimos ter os dois lados da moeda convivendo ao mesmo tempo. Em particular, no contexto de políticas públicas, essas limitações são comuns. Um exemplo disso é que não podemos estimar o impacto de tablets na educação fornecendo livros de papel para metade dos estudantes de uma escola enquanto a outra metade recebe um tablet.

Dentro desse contexto, ferramentas como controles sintéticos e análises de diferenças entre diferenças são ferramentas poderosas para nos ajudar a responder esse tipo de pergunta. Entretanto, temos que ter muita atenção nas premissas desse tipo de análise, e esse texto busca alertar para um armadilha muito comum que pode impactar a tomada de decisão nesse tipo de método.

Imagine o cenário hipotético, o qual desejamos entender se reduzir o preço de nossos produtos em 5% geraria alguma melhora na nossa volumetria de vendas. Para isso, montamos um experimento bem simples: Separamos o portfólio em dois grupos aleatórios, e observamos o histórico de alguma métrica relevante para o nosso portfólio ao longo do tempo. Por exemplo, aqui na Loft uma métrica relevante é agendamentos, fazendo isso vemos um gráfico desse tipo:

Legal, parece que fizemos um belo trabalho de separar grupos de apartamentos distintos com performance histórica correlacionada.

Agora no nosso próximo passo, vamos aplicar um desconto para os apartamentos do Grupo A (Azul). Esperamos por mais um mês, e vemos os seguintes resultados de performance:

E os primeiros resultados parecem validar nossa hipótese, o teste levou a uma alta diferenciação, mais de 70% entre os grupos. Historicamente os grupos nunca estiveram tão descolados, nossa diferença entre diferenças tem excelentes p-values, vamos conseguir aumentar significativamente nossas vendas, mesmo com essa sazonalidade de Agosto diminuindo as vendas do nosso controle. Graças ao nosso fantástico teste, vamos ter grandes resultados.

Parece que chegamos a um final feliz e uma grande decisão de negócio foi tomada, alavancando muito as vendas!

Eis que surgem os seguintes questionamentos: Será que a causa do aumento de agendamentos foi realmente o desconto? Será que a mudança de preço de um grupo impactou o desempenho de outros grupos, visto que eles competem entre si?

Spillover — Quando o efeito das suas ações não impacta apenas o seu grupo de teste!!

Em termos simples, Shpitser e colegas definem: “O efeito causal chamado de Spillover quantifica o grau ao qual o tratamento em uma unidade afeta a saída de outra unidade”. Por exemplo, esse efeito é muito comum em experimentos realizados em redes sociais, onde as pessoas podem interagir entre si e vazar a hipótese entre o grupo de teste e o grupo de controle.

O impacto disso na avaliação de experimentos é que metodologias como a diferenças das diferenças assumem que não existem interações entre o grupo de tratamento e o grupo de controle. Violar essa suposição leva ao aparecimento de viés nas análises e consequente invalidade dos resultados.

Uma forte hipótese que temos quando construímos uma análise de diferenças das diferenças entre um tratamento e controle é que o efeito da nossa ação de preço impacta apenas os apartamentos do grupo de tratamento, afinal o grupo de controle não teve nenhum de seus preços modificados, certo? Como a mudança de preço poderia impactar ele?

As mudanças de preço do grupo de teste podem impactar o grupo de tratamento, se houver uma competição pelas pessoas compradoras entre esses dois grupos! Imagine dois anúncios muito parecidos, se para um desses anúncios concedemos um desconto relevante e para outro não, as pessoas que navegam pelo nosso site que originalmente seriam direcionadas ao segundo anúncio na prática poderiam ser direcionadas para o primeiro anúncio. Então não é que toda a diferença entre os grupos é explicada pelo ganho de performance do grupo A, mas sim uma possível migração de performance entre o Grupo A e o Grupo B.

É importante ressaltar que quanto mais substituíveis são os produtos, maiores são os vieses de análises desse tipo. No limite, se temos 2 anúncios idênticos com preços diferentes, é natural acreditar que quase todo o fluxo de pessoas deve fluir para o anúncio mais barato.

Resolvendo o problema: Incluindo todos os competidores no grupo de teste.

Para resolver esse viés na nossa análise, devemos incluir no nosso grupo de tratamento não apenas os apartamentos que tiveram o preço alterado pela ação, mas todos os apartamentos que podem ter sua performance impactada pela ação, seja pela diminuição direta do preço ou pelo aumento da competitividade devido a ação em apartamentos similares.

Existem diversas técnicas para medir o efeito do spillover e estimar como formar o grupo de tratamento da maneira correta. Uma delas é gerar grupos de controles com produtos que não competem com aqueles onde a ação foi destinada como, por exemplo, prateleiras muito diferentes de supermercados ou grupos com grande afastamento geográfico, ações em São Paulo não devem gerar efeitos em lojas físicas em Brasília, por exemplo.

No caso da Loft, poderíamos usar um bairro como grupo de tratamento para nosso teste de preços e outros bairros para um grupo de controle, contanto que acreditemos que esses bairros não competem diretamente pelo interesse da pessoa compradora!

Mas aí surge a questão, como montar esses controles com bairros diferentes? Qual o melhor bairro para controle? Deveríamos usar uma combinação desses bairros?

A solução para esses problemas é a metodologia de controles sintéticos, que otimiza a construção de grupos de controle a partir das nossas opções candidatas ao controle, escolhendo a melhor composição e formulação desses grupos. Se trata de uma modelagem mais sofisticada que o método de diferenças das diferenças padrão, conseguindo gerar controles mais robustos a mudança de fatores comuns e trazendo ferramentas estatísticas interessantes, como intervalos de confiança.

Com essas ferramentas de inferência causal conseguimos remover o viés dessa solução e chegar em análises e resultados mais representativos da realidade com potencial de agregar valor na tomada de decisões num contexto amplo, como em contexto de tomada de decisões em empresas, estudos acadêmicos ou mesmo avaliação de impacto de políticas públicas.

Esse post foi inspirado pelo artigo “8 Common Pitfalls of Running A/B Tests”, e é o primeiro texto de uma série do nosso blog de DS sobre paradoxos e armadilhas que podemos cair num contexto de inferência causal, tomada de decisão e todo o seu conjunto de questões “e se” aplicadas aos nossos desafios de negócio. Para acompanhar os próximos posts, podem se inscrever no nosso blog do Medium.

Quer fazer parte da Loft e nos ajudar a simplificar o mercado imobiliário?

Confira nossas vagas! (ps.: estamos com vagas abertas no nosso time de Ciência de Dados!)

Acesso: carreiras.loft.com.br e saiba mais! #TransformeComAGente #OJeitoLoft

Referencias

[1] Modeling Interference Via Symmetric Treatment Decomposition — Shipitizer, Tchetgen, Andrews (2021): https://arxiv.org/abs/1709.01050

[2] Understanding Causal Inference with Synthetic Control method and implementing it in Python, Towards Data Science, 2021: https://bit.ly/3qMnQU6

[3] Difference-in-Differences: https://diff.healthpolicydatascience.org/

[4] 8 Common Pitfalls of Running A/B Tests: https://towardsdatascience.com/online-controlled-experiment-8-common-pitfalls-and-solutions-ea4488e5a82e

--

--