Experimento Controlado: Estimando os Efeitos das Ações Tomadas

Big Data Brasil

Published in

Big Data Blog

8 min readDec 17, 2020

por Ruan Nogueira, Cientista de Dados na Big Data

Quando um projeto de ciência de dados é desenvolvido, há normalmente dois objetivos que norteiam todo o trabalho:

Realizar a previsão de uma determinada grandeza de interesse para um determinado cenário. Por exemplo, estimar o faturamento de uma loja de tamanho T, com N funcionários e que realiza um preço de vendas médio P.
Encontrar o cenário necessário para que a determinada grandeza de interesse esteja em um ponto ótimo. Por exemplo, estimar o tamanho exato T da loja, o número exato de funcionários N e o preço médio de vendas P que tornarão máximo o seu faturamento.

De forma resumida, o interesse é o de prever e/ou otimizar uma ou mais grandezas. E, para que um projeto possa alcançar estes dois grandes objetivos, o universo da ciência de dados disponibiliza inúmeras ferramentas. As opções vão desde modelos lineares simples até modelos mais sofisticados que compõem o estado da arte do aprendizado de máquina.

Entretanto, independente das técnicas utilizadas, é necessário saber algo fundamental a respeito do projeto: quão bem sucedido ele é? Em outras palavras, as suas previsões são bem assertivas? Ainda, os parâmetros otimizados são de fato os que geram o ponto ótimo? Estas perguntas são partes intrínsecas do trabalho e as suas respostas conduzem às decisões do projeto.

Felizmente, para projetos de previsão, frequentemente o dado histórico disponível é útil também para o processo de validação. Se há disponível na base de dados tanto as condições passadas (considerando nosso exemplo seriam as informações T, N e P históricas) como a própria grandeza de interesse associada a estas condições (no nosso exemplo seria o faturamento histórico), pode-se desenvolver o modelo preditivo e realizar testes para estimar a sua precisão. O uso destes dados históricos para a avaliação é simples:

Usualmente selecionam-se algumas amostras da base e realizam-se as estimativas das suas grandezas a partir do modelo desenvolvido.
Em seguida, comparam-se os valores obtidos com os valores históricos reais e a partir de alguma métrica estima-se a assertividade esperada.

Desde que respeitadas algumas condições, esta simples abordagem de teste proporciona uma avaliação consistente da qualidade de um projeto de previsão.

Por outro lado, ter a estimativa de desempenho teórica nem sempre é o suficiente. Quando o objetivo do projeto é a otimização, o interesse não é somente o de analisar as estimativas, mas também de gerar recomendações de ações para se chegar no tão esperado ponto de otimalidade. Desse modo, a medida para validar o desempenho do projeto não é a assertividade esperada do modelo, mas sim a avaliação do efeito das intervenções recomendadas. Nesse caso, a base histórica utilizada para gerar as estimativas teóricas não seria mais de grande ajuda.

Na realidade, pode haver outras variáveis que não estão contidas na base de dados e que influenciam na grandeza de interesse. Também, pode haver variáveis disponíveis que apresentam fortes relações com a grandeza mas são de natureza não causais. Portanto, a escolha das variáveis que serão otimizadas é de suma importância.

Então, se os dados disponíveis não são suficientes, como estimar o efeito das intervenções? Esta questão foi e continua sendo um desafio presente em toda sociedade: a vacina e os remédios funcionam? As medidas econômicas foram responsáveis pelo crescimento do PIB? Quanto de fato as mudanças nos parâmetros T, N e P da loja impactam no faturamento? Departamentos inteiros em diversas instituições e empresas tem se empenhado em encontrar tais respostas e muitas delas surgem do famoso, e tema deste texto, experimento controlado.

O Experimento Controlado Teórico

Um experimento controlado é um experimento realizado em um dado sistema, no qual deseja-se validar uma hipótese de que uma entrada aplicada a um conjunto de amostras é responsável por uma determinada resposta neste conjunto. Neste tipo de experimento testa-se o sistema em uma condição, na qual quaisquer outras entradas do sistema são mantidas constantes, ou seja, somente há a possibilidade de alteração no valor da entrada de interesse.

Para realizar o experimento, separam-se dois grupos de amostras. Em um deles, são aplicadas as ações associadas à hipótese e no outro nenhuma ação é executada. O primeiro grupo é comumente chamado de Grupo de Tratamento (GT) e o segundo de Grupo de Controle (GC). Como as ações são realizadas exclusivamente no GT e quaisquer outras entradas são mantida constantes em ambos os grupos, geram-se fortes indícios de que a diferença da resposta do GT para a resposta do GC, é de fato, devido às ações tomadas.

Como exemplo de um experimento controlado, imagine que deseja-se entender o efeito de uma recomendação otimizada para uma loja visando obter o maior faturamento possível, de modo que:

A loja tenha tamanho T
Número de funcionários N
Preço médio de vendas P

Separam-se então, antes de promover as alterações nos parâmetros T, N e P, dois grupos de lojas: o GT e o GC. No GC não será realizada nenhuma alteração, enquanto no GT serão feitas as mudanças necessárias para que se chegue aos valores de T, N e P recomendados. Após o início do experimento, coletam-se as informações de faturamento de ambos os grupos. Com os dados coletados em mãos, inicia-se a validação da hipótese verificando se houve diferenças nos valores de faturamentos dos grupos. Caso a diferença entre o GT e o GC seja positiva é dito que o experimento corroborou com a hipótese.

O Experimento Controlado na Prática

No mundo real, não é possível manter constantes todas as outras possíveis entradas de um sistema. No exemplo das lojas poderia haver outros fatores além dos parâmetros T, N e P que seriam impactantes e que poderiam ter valores de entrada diferentes entre os grupos, como: horários de funcionamento, localização, disponibilidade de produtos, entre outras.

Deste modo, se há outras entradas que não são constantes, não é possível afirmar que toda a diferença entre as saídas são decorrentes das ações tomadas. Portanto, para minimizar estes problemas e estimar melhor o efeito das ações no mundo real, pode-se utilizar certas abordagens. Entre as mais comuns estão:

Fazer o controle de variáveis que não vão compor a recomendação.
Aleatorizar a escolha das amostras que irão compor cada grupo.
Desenvolver um intervalo de confiança ¹ que representa uma variação natural esperada da métrica avaliada.

Variáveis de Controle

Quando há disponível a informação histórica de uma variável que estará fora da recomendação é possível aproveitá-la tanto no processo de otimização como na avaliação do experimento. No primeiro caso, a variável entra como uma dimensão a mais a ser explorada pelo modelo, mas não recomendada. Assim, a depender da técnica utilizada, é possível estimar as relações dessa variável com a métrica de interesse, possibilitando uma compressão maior do sistema e recomendações mais precisas.

Já no caso de aproveitar a informação no processo de validação, pode-se estratificar os grupos do experimento em subclasses e fazer os cálculos da diferença entre os pares grupos-subclasses. Diferentes conclusões entre estes estratos poderiam trazer a informação se a variável extra interfere também ou não no sistema. Seguindo o exemplo das lojas, acreditando-se que a localização causa um impacto na avaliação, pode-se verificar a diferença do faturamento entre GT e GC comparando as lojas que em cada grupo estariam em locais semelhantes. Se as lojas de só um determinado local apresentam resultados positivos, pode ser que parte do efeito medido não seja das ações tomadas mas sim da localização.

Seleção Aleatória

Na segunda abordagem, a qual é usada amplamente em experimentos, selecionam-se as amostras de forma aleatória para compor os grupos. Esta seleção nada mais é do que uma amostragem de toda a população, que tem por objetivo tentar gerar grupos que tenham características semelhantes.

Como a escolha é aleatória, com o aumento do número de amostras, a divisão tende a ser cada vez mais semelhante a própria população. Em outras palavras, ao gerar a divisão de forma aleatória, o desbalanceamento das diferenças intragrupo é minimizado.

Para exemplificar este conceito, considere novamente as recomendações para as lojas e a variável de localização. Ao dividir aleatoriamente as lojas que vão compor o GT e GC, perde-se a capacidade de escolher qual grupo recebe qual loja e portanto, não é realizado o controle pela variável localização. Porém, a aleatoriedade gera um benefício: em troca da perda de controle, têm-se a confiança que com o aumento do número de amostras a quantidade de lojas de diferentes localidades tendem a estar na mesma proporção em ambos os grupos. Logo, o desbalanceamento entre os grupos diminui e tende-se ao experimento de controle teórico, onde as outras entradas do sistema são mantidas constantes.

Medindo a Incerteza

Por fim, existe o intervalo de confiança, que não ajuda de fato a minimizar o problema, mas ajuda a quantificar a incerteza. Um intervalo de confiança dirá o quanto pode-se confiar na medida de avaliação, ou seja, a partir de qual diferença entre as saídas do GT e do GC pode-se atribuir, com maior grau de confiança, que o efeito medido foi devido a recomendação.

Como exemplo, pode-se estimar a variação esperada da diferença do faturamento médio das lojas entre os grupos GT e GC, a partir do dado histórico, ou seja, antes mesmo de dar início ao experimento. Desta forma, após o processo de avaliação, pode-se dizer se o resultado superou esta variação natural entre os grupos e assim obter uma maior confiança de que as ações tiveram impacto significativo.

Conclusão

Fazer a avaliação de intervenções em um sistema é primordial para determinar se o projeto proposto está sendo bem sucedido. Entretanto, realizar essa avaliação requer cuidados, especialmente quando a complexidade dos sistemas envolvidos é alta e há a presença de variáveis que fogem do controle do experimento.

Deste modo, é relevante que antes do início da execução do projeto seja feita uma boa análise do comportamento da métrica de interesse e do método de avaliação que será utilizado. A falta destes primeiros passos pode levar a conclusões erradas sobre a performance das ações tomadas, gerando a possibilidade de ilusões que no longo prazo trazem consequências negativas e podem descredibilizar um projeto de sucesso.

Apesar dos perigos, hoje existem diferentes métodos para minimizar os frequentes erros de apuração e o importante é despender tempo e energia suficientes para colocá-las em prática, sem negligenciar esta etapa. Com uma boa dose de análise, uma noção prévia do funcionamento do sistema e algumas precauções pode-se garantir a melhoria e continuidade de projetos que apresentam grande potencial para serem bem sucedidos.