Entre causas e efeitos: como identificar causalidade em meio a correlações

Big Data Brasil
Big Data Blog
Published in
10 min readOct 8, 2020
Placa de luzes neon embaixo de janela com vista para cidade, em dia nublado, com os dizeres “Data has a better idea”.
Photo by Franki Chamaki on Unsplash

por Pedro Soares, Cientista de Dados na Big Data.

Ciência de dados e aprendizado de máquina são áreas ligadas ao desafio de previsão. Os modelos baseados em correlações são excelentes para acertar valores futuros. Podemos, por exemplo, prever a quantidade de itens vendidos em uma loja, onde abrir uma nova filial, prever fraudes, entre outras aplicações que vêm revolucionando o mundo. Essas técnicas nos ajudam a identificar padrões e a desenhar estratégias para lidar com eles. No entanto, o próximo passo para a área de negócios é entender como agir para mudar o cenário e não apenas aceitá-lo.

Quando se pensa em mudar o cenário, estamos considerando implementar uma política de intervenção. Para tomar decisões desse tipo, é necessário identificar as relações causais entre ação e resultado. Assim, ficamos mais informados sobre o que fazer para chegar aonde desejamos. A realização de experimentos e testes A/B auxilia no entendimento dessas relações, mas o que fazer quando não é possível realizar experimentos? Ou ainda, o que fazer quando o experimento realizado contém algum viés? Nesta publicação, vamos abordar como outras áreas da ciência lidam com essas questões.

O que é causalidade?

Para começar, vamos definir o que é causalidade. A causalidade é a diferença entre resultados potenciais. Vamos explicar melhor o que isso quer dizer com um exemplo. Imagine que uma empresa pretende oferecer um curso para seus funcionários. Do ponto de vista de um desses funcionários, há duas escolhas: fazer ou não o curso. Como podemos ajudar essa empresa a avaliar o efeito desse curso na produtividade de seus funcionários? Para simplificar, vamos imaginar que o único retorno é em termos de variação na produtividade. Ao final, a empresa quer tomar a decisão se implanta o curso para todos os empregados ou não.

A figura abaixo ilustra os cenários com que essa pessoa se depara. Considerando o momento anterior a ela fazer a escolha, chamamos os resultados Aumento de X% na produtividade e Aumento de Y% na produtividade de resultados potenciais, pois eles ainda não aconteceram. O efeito de se fazer o curso é justamente a diferença entre esses resultados potenciais. No entanto, ao fazer a escolha, a pessoa segue somente por um dos caminhos da bifurcação.

Ao seguir por um dos caminhos, também só conseguimos observar um dos resultados potenciais. Logo, não conseguimos medir o efeito de fazer o curso para a mesma pessoa. Idealmente, esse empecilho seria resolvido com dois universos paralelos, em que a única diferença entre eles fosse o funcionário fazer ou não o curso. Assim, comparando os resultados nos dois universos, temos como medir o efeito do curso sobre a produtividade daquela pessoa.

Como essa solução só existe em ficção científica, somos forçados a encontrar outras maneiras de realizar essa medição. Algumas dessas maneiras são fruto de muita engenhosidade de pesquisadores, que dedicaram suas vidas a resolver problemas desse tipo. Não seria possível abordar todas elas aqui, contudo, queremos passar a ideia geral para vocês com a realização de um experimento aleatório.

Viés de seleção

Antes de falar sobre o experimento aleatório em si, vamos entender porque ele é necessário. Continuando o exemplo anterior, para tomar a decisão, a empresa resolve fazer um experimento simples: sabendo que não é possível observar os dois resultados potenciais para uma mesma pessoa, ela decide oferecer o curso para um grupo de funcionários da empresa e em seguida, dividir os funcionários em dois grupos, aqueles que fizeram o curso e os que não fizeram. Então, ela irá comparar a média de aumento de produtividade dos dois grupos e a diferença entre essas médias deveria ser o efeito causal de se fazer o curso.

Fazendo isso, a empresa pode deixar escapar coisas muito importantes que afetam os resultados potenciais. Por exemplo, se as pessoas que fizerem o curso nesse período de teste eram as mais competentes da empresa, que já teriam aumento de sua produtividade sem o curso, a diferença entre aumentos medida não será somente o efeito do curso, mas também o efeito da competência das pessoas que fazem o curso. Ou seja, os grupos não são comparáveis entre si. Chamamos esse problema de viés de seleção.

O viés de seleção é o erro que o efeito medido terá caso os grupos selecionados não sejam comparáveis. Esse erro existe pois o que se mede não é só o efeito causal, mas também outros efeitos que fugiram ao controle da empresa ao selecionar os dois grupos dessa forma. Dependendo da situação, esse viés pode ser negativo ou positivo e algumas vezes até zerar o efeito causal que queremos identificar.

Alguns exemplos de viés de seleção:

  1. Ao avaliar o efeito de um tratamento médico, o grupo que recebe o tratamento é composto pelos pacientes com piores condições de saúde. Se comparada as taxas de mortalidade, podemos até concluir que o tratamento é prejudicial. Mas esse não seria o efeito real do tratamento, uma vez que os pacientes em piores condições já possuem inicialmente mais chances de morrer.
  2. “Os aparelhos domésticos de antigamente eram feitos para durar. Não são como os de hoje, que estragam com pouco tempo”. Todo mundo já ouviu algo parecido. O viés de seleção está no fato de que os aparelhos antigos que funcionam até hoje, são justamente aqueles que foram melhores construídos. Olhando somente para eles, ignoramos todos os aparelhos antigos que estragaram ao longo dos anos.

Experimento aleatório

O experimento aleatório é muito parecido com o que a empresa pensou em fazer. Separar as pessoas em dois grupos, um que fez o curso e outro que não fez. Contudo, essa separação de grupos deve ser feita de forma aleatória, ou seja, as pessoas não podem escolher a que grupo serão designadas. Essa escolha é feita baseada na sorte. O grupo que vai fazer o curso é chamado de grupo de tratamento e o grupo que não faz o curso é chamado de grupo de controle. O grupo de controle serve para nos informar o que ocorreria com o grupo de tratamento, caso ele não fizesse o curso. Escolhendo aleatoriamente, os dois grupos são similares entre si e podem então ser comparados.

A motivação para realizar um experimento aleatório é remover o viés de seleção. Ao fazer a seleção de grupos de forma aleatória, queremos que os resultados potenciais dos grupos de tratamento e controle sejam iguais. Assim, evitamos que algum fator confunda o efeito do tratamento. Vamos voltar ao exemplo da empresa para ver como isso funcionaria.

A empresa, além de saber que não consegue observar os dois resultados potenciais para um mesmo funcionário, agora sabe também que abrir o curso para quem estiver interessado em se inscrever não é a melhor forma de avaliar o impacto do curso na produtividade do funcionário. Logo, ela define que vai selecionar um grupo de funcionários aleatoriamente para fazer o curso. Como foi garantido que os grupos são comparáveis, quando ela for comparar os aumentos de produtividade entre o grupo que fez o curso e o restante dos funcionários, o valor observado será o efeito causal do curso sobre a produtividade do funcionário.

Quando o experimento aleatório falha?

Infelizmente, o experimento aleatório não é uma solução infalível. No mundo real, nem sempre é possível realizar esse tipo de experimento de forma a garantir que todos os possíveis viéses de seleção sejam tratados. Em outros casos, uma completa aleatorização dos grupos não faria sentido. Nesta seção, vamos discutir um pouco mais sobre esses pontos.

Dito isso, o experimento aleatório vai falhar quando:

  1. Não é possível aleatorizar os grupos. Um exemplo disso foi dado acima em relação a medir eficácia de um tratamento médico. É pouco provável que fosse possível negar um tratamento a uma pessoa em situação mais crítica.
  2. Questões éticas podem interferir na aleatorização. Imagine que queremos avaliar os impactos do cigarro na saúde, não seria ético definir um grupo de pessoas aleatoriamente e determinar que elas comecem a fumar.
  3. O experimento não é extrapolável, ou seja, os grupos de tratamento e controle podem ser aleatórios e comparáveis entre si, mas não são representativos de toda a população. Nesse caso, só conseguimos identificar o efeito causal dentro da amostra, mas as conclusões não valem para a população.
  4. Problemas na aleatorização. Por exemplo, avaliar o impacto de uma campanha de vacinação. Como os benefícios da vacina atingem não só os vacinados, mas também a população não vacinada, pois há menos vírus em circulação, um modo de fazer um experimento aleatório seria comparar cidades parecidas. Ou seja, uma cidade seria o grupo de tratamento e a outra o grupo de controle. Contudo, dificilmente essa definição seria aceita pelos políticos da cidade vizinha. Sabendo que haveria vacinação na outra cidade, exigiriam perante os órgãos responsáveis pela campanha que sua cidade também participasse. Isso acontece também com outros programas públicos, como os educacionais.
  5. Os participantes do experimento mudam seu comportamento durante o decorrer dos testes. O que é conhecido como efeito de Hawthorne, em alusão ao experimento realizado nos anos 20 nos Estados Unidos. Por exemplo: queremos avaliar se salas de aulas com menos alunos trazem benefício para o desenvolvimento deles. Se os professores tiverem interesse que as salas sejam reduzidas (é um bom exercício imaginar os possíveis motivos), eles vão se esforçar mais durante o experimento para que o resultado seja muito positivo e a política seja implantada.

Regressões como alternativa ao experimento aleatório

Mesmo que não seja possível realizar um experimento aleatório, nem tudo está perdido. Há décadas, economistas, psicólogos e biólogos se dedicam a identificar relações causais a partir de dados. Nessa jornada, foram desenvolvidas técnicas para lidar com o problema do viés de seleção. A principal diferença entre esses modelos e os aqueles utilizados em aprendizado de máquina é o objetivo.

Como exemplo, a regressão linear é um modelo muito utilizado para identificar causalidade e pouco valorizado no universo preditivo. Muitos de vocês já devem ter experimentado fazer previsões com um modelo linear e raramente o utilizam como modelo final. Realmente, para previsões, modelos como aqueles baseados em árvores ou redes neurais se adaptam muito melhor aos dados e geram previsões mais próximas à realidade.

Raramente os economistas estão interessados nos valores previstos de uma regressão linear. O foco deles está nos coeficientes associados às variáveis explicativas e em como fazer com que esse coeficiente meça o efeito causal daquela variável. Vamos retomar ao exemplo da empresa que pretende oferecer um curso aos funcionários. Contudo, agora vamos supor que ela não foi cuidadosa para realizar um experimento aleatório e ofereceu o curso aos primeiros empregados que se inscreveram.

Para entender melhor as relações causais entre as variáveis, vamos utilizar o diagrama abaixo. Nele, quando uma variável A causa a variável B, existe uma seta no sentido de A para B. A partir da imagem, vemos que a dedicação do funcionário faz com que sua produtividade aumente, mas também faz com que seja mais provável que ele se inscreva para o curso. Esse é o viés de seleção que vimos anteriormente. Então, como a empresa pode remover o efeito da dedicação dos resultados observados?

Podemos corrigir esse viés ao comparar o grupo que fez o curso não com o restante dos funcionários, mas somente com aqueles tão dedicados quanto os que se inscreveram. Ao fazer isso, estamos condicionando a variável de tratamento (fazer o curso) na dedicação do funcionário. É exatamente isso que os economistas buscam fazer no seu trabalho de modelagem e a regressão linear é uma excelente ferramenta para fazer esse condicionamento. No jargão econométrico, essa variável de condicionamento é chamada de variável de controle.

Diferença entre modelo causal e modelo preditivo

Finalmente, para explicar a diferença entre os dois tipos de modelagem, causal e preditiva, vamos expandir um pouco o exemplo da empresa: imagine que entre outras coisas que o curso aborda, está a utilização de uma ferramenta que aumente a produtividade do trabalhador. A imagem abaixo mostra o novo diagrama de causalidade com a inclusão da variável que indica se o funcionário passou ou não a usar a ferramenta após o curso.

Se o nosso objetivo é prever a produtividade do funcionário, então claramente devemos incluir essa informação sobre o uso da ferramenta no nosso modelo. Agora, se o que queremos é avaliar o efeito causal do curso na produtividade, não podemos incluir a informação sobre o uso da ferramenta, já que isso é parte dos efeitos causais do curso. Ou seja, se incluirmos essa informação, estamos explicando parte do efeito do curso com o efeito da ferramenta. Portanto, quando queremos identificar uma relação causal não buscamos a melhor previsão, mas sim cuidamos para que a variável de interesse não sofra nenhum viés de seleção.

Conclusão

O principal conceito que devemos ter em mente é que a causalidade é a diferença entre resultados potenciais. Como só conseguimos medir um desses resultados para cada indivíduo, temos que fazer uso de estratégias estatísticas de estimação visando eliminar o viés de seleção. A primeira apresentada foi a experimentação aleatória, que resolve o problema mas nem sempre é factível. Depois, explicamos como outros campos da ciência atacam esse problema quando não é possível realizar um experimento aleatório.

Como vimos, os desafios de previsão e identificação de relações causais são diferentes. No primeiro, estamos preocupados com a qualidade dos valores de saída do nosso modelo. No segundo, o foco está sobre identificar o efeito causal utilizando variáveis de controle. Mas principalmente, mostramos que identificar causalidade está desassociado a uma boa previsão.

O exemplo do curso e da ferramenta ilustra bem essa ideia. Utilizar a ferramenta é parte dos efeitos causais de realizar o curso. Se controlarmos para o uso da ferramenta, controlamos também para parte do efeito causal do curso. Assim, melhoramos o valor previsto de aumento de produtividade mas enviesamos a estimativa do efeito causal apenas do curso. Por outro lado, se quisermos medir o efeito causal do uso da ferramenta, devemos sim incluir o curso no modelo.

Quando queremos otimizar a tarefa preditiva, tentamos adicionar todos os caminhos para chegar o mais próximo do valor real, ignorando a sequência causal entre as variáveis e focando na correlação entre elas e a resposta do modelo. Logo, não é possível isolar o efeito causal de uma variável de interesse. Só conseguimos isolar esse efeito abrindo mão da qualidade preditiva do nosso modelo.

Referências

  • Angrist, J. D., & Pischke, J. S. (2008). Mostly harmless econometrics: An empiricist’s companion. Princeton university press.
  • Angrist, J. D., & Pischke, J. S. (2014). Mastering’metrics: The path from cause to effect. Princeton University Press.
  • https://www.aeaweb.org/conference/cont-ed/2020-webcasts
  • WOOLDRIDGE, J. M. Introdução à econometria: uma abordagem moderna. São Paulo: Cengage Learning, 2010. Alan Vítor Coelho Neves, 2012–2013.

--

--