Causalidade e predições

Marcel Ribeiro Dantas
dadosesaude
3 min readAug 25, 2020

--

Hoje irei falar para vocês sobre dois conceitos que são menos independentes do que parecem para alguns: Causalidade e predição. Confesso que é até estranho tratá-las como duas coisas separadas, isoladas, e espero convencê-los ao final dessa thread de que essa minha visão tem fundamento. Na década de 50, Jacob Yerushalmy realizou um estudo onde acompanhou 15 mil crianças da região da baía de São Francisco. Para surpresa de Yerushalmy, e contrariando o que já se mostrava forte na época (que fumar fazia mal a saúde), seus resultados indicavam que bebês de mães fumantes nascidos com baixo peso tinham mais chances de sobreviver do que bebês de mães não fumantes nascidos com baixo peso. Não era um estudo de inferência causal, era apenas predição, alguns podem dizer. Ainda hoje, muito autores que são cuidadosos nos artigos científicos (outros nem tanto), extrapolam seus resultados em entrevistas, onde adicionam jargão causal para estudos de associação.

Defende-se que “é apenas predição”, mas não se discute “apenas como predição”. Um autor hipotético na época poderia dizer que ao se observar circunferência abdominal do feto incompatível com a fase da gestação, a mãe deveria fumar de modo a aumentar as chances do bebê sobreviver após nascer. Absurdo, né? Cansamos de ouvir “correlation does not imply causation”, e ainda assim, frequentemente nos deparamos com esse tipo de conduta. Um outro caso foi na década de 70, quando Sackett observou uma forte correlação positiva entre duas doenças e começou a elaborar hipóteses sobre como uma poderia acarretar o desenvolvimento da outra. Conseguem observar mais uma vez o pensamento causal em um estudo não causal? Ao analisar outros dados, Sackett observou que as doenças eram independentes, a ocorrência de uma não tinha sequer correlação com ocorrência da outra. Assim como no caso anterior, se tratava de um viés de colisão, que pode ser observado quando desenhamos o diagrama causal.

A causalidade se torna uma ferramenta importantíssima na análise preditiva a partir do momento que ela nos permite fazer melhores predições. Em casos como o paradoxo de Simpson, a estatística isolada pode ser incapaz de nos orientar sobre quais variáveis devemos controlar ou deixar de controlar, mas com diagramas causais essa tarefa pode ser muito mais simples. Em alguns casos, controlar por uma determinada variável irá adicionar viés na sua análise. Em outros casos, não controlar irá adicionar viés. A causalidade ajuda nesse tipo de coisa. Um aumento da precisão do teu modelo ou aumento do teu r-squared, embora possa parecer uma melhor predição para alguns, pode na verdade ser viés adicionado por uma análise que não levou em consideração o mecanismo de geração dos dados, a interação entre as variáveis.

O ponto aqui é que boa parte das perguntas são causais e é difícil fugir disso. A pessoa pode até realizar a pergunta com termos relacionados a predição, como por exemplo: O que está associado com diminuição do número de mortes por doença X? Mas ela irá utilizar a tua resposta de forma causal. Se você falar que é maior consumo de sorvete, ela poderia, por exemplo, promover uma política pública (gasto de recursos públicos) para promover que a população tome mais sorvete. Em alguns casos, não é possível fazer inferência causal, assim como em alguns casos não é possível fazer predição. Mas por que dar as costas para a causalidade quando é possível fazer esse tipo de análise? E vou além, qual o sentido em dizer que não se preocupa com causalidade porque é um estudo preditivo? Não faz sentido. Se você busca por causas, você irá obter melhores predições.

--

--

Marcel Ribeiro Dantas
dadosesaude

Early Stage Researcher at Institut Curie and PhD Student at Sorbonne Université. Data Scientist, Software Freedom Activist and Bioinformagician!