COVID-19 e o Paradoxo de Simpson (ou: porque certas agregações estatísticas podem ser enganadoras)

Cassiano Ricardo Dalberto
Silly Random Walks
Published in
4 min readJul 14, 2020

Dentre as estatísticas da COVID-19 comumente comparadas entre países está a taxa de letalidade, que consiste na razão entre o número de óbitos e o número de casos diagnosticados (daí o nome em inglês ser Case Fatality Rate, CFR). Por exemplo, considerando dados de 07 de julho, no Brasil temos uma taxa de letalidade de 4, o que significa que 4% das pessoas que foram confirmadas com COVID-19 acabaram falecendo. Na Itália esse número é consideravelmente maior: 14,42. No México a situação é pior que a do Brasil, mas um tanto melhor que a da Itália: sua taxa de letalidade é de em 11,95. A imagem a seguir compara as taxas de letalidade de Itália e México ao longo do tempo.

Taxa de Letalidade no México e na Itália ao longo do tempo

Então sabemos, por essa estatística, que até o momento as chances de morrer por COVID-19, uma vez que você foi infectado, são menores no México que na Itália, certo? Errado. É aí que entra um negócio interessante chamado Paradoxo de Simpson. Basicamente, a intuição da coisa é que, a depender do nível de agregação dos dados, a estatística resultante pode ser muito diferente daquela observada para níveis mais desagregados.

Para ilustrar isso e explicar melhor, vejamos os dados das taxas de letalidade dos dois países segundo grupos etários, na tabela abaixo (que considera dados até 3 de junho, mas naquele momento a Taxa de Letalidade dos dois países era bem similar àquela de 07 de Julho):

Taxa de Letalidade no México e na Itália, segundo faixas etárias

O que podemos observar é que, para todas as faixas de idade, a taxa de letalidade no México é maior do que na Itália. Por exemplo, entre os casos confirmados que possuíam de 40 a 49 anos, 0,9% acabaram falecendo na Itália, e 7,5% no México. Para aqueles com 70 a 79 anos, a taxa de letalidade é 25,9 na Itália e 33,7 no México. E assim por diante, em todos os grupos. Em outros termos: para qualquer grupo etário, um indivíduo confirmado com COVID-19 tem mais chances de morrer no México do que na Itália, e não o contrário, como poderíamos pensar ao olhar apenas para a estatística agregada (aquela da primeira imagem).

Mas porque raios isso ocorre? Como, no final das contas, a Itália acaba tendo uma taxa de letalidade geral superior à do México? A resposta está no peso desses grupos etários no total da população em análise: a população da Itália é mais velha, com uma proporção muito maior de idosos. As pessoas acima de 65 anos são 23% do total na Itália, enquanto no México são apenas 7%. O México tem muito mais pessoas nas menores faixas etárias, onde as taxas de mortalidade são inferiores. Aqueles com 0 a 14 anos, por exemplo, são 26% da população total no México, mas apenas metade disso, 13%, na Itália. E se idosos morrem proporcionalmente muito mais, como se observa em todo lugar, o país com população mais velha terá uma taxa geral mais inflada.

Exemplo simplificador: imagine um país A onde 40% da população tem mais de 65 anos, e que a letalidade pela COVID-19 nesse grupo é de 30%, enquanto para aqueles abaixo de 65 (os 60% restantes) a mortalidade é de 5%. A taxa de letalidade desse país será a média ponderada dessas estatísticas: (0,4 x 30) + (0,6 x 5) = 15%. Suponha agora um país B, onde apenas 10% da população tem mais de 65 anos, e que a mortalidade nesse grupo é de 40% (superior ao do país A, portanto), enquanto que os 90% restantes possuem menos de 65 anos e apresentam uma taxa de letalidade de 7% (novamente acima do país A). A taxa agregada do país será, então, (0,1 x 40) + (0,9 x 7) = 10,3%.

Ou seja: ainda que o país B tenha maiores taxas de letalidade em cada grupo etário, no agregado a taxa do país A é maior. E isso pode levar a conclusões bastante erradas. Nesse caso, é mais correto olhar para a estatística desagregada, que nos mostra que, considerando as características etárias, as chances de alguma pessoa que contraiu COVID-19 acabar morrendo são maiores em B do que em A, assim como são maiores no México do que na Itália.

P.S.: eu queria ter analisado o Brasil também, mas não encontrei estatísticas nacionais sobre a taxa de letalidade segundo as faixas etárias. Se alguém souber onde encontrar essas informações, avisa aí nos comentários =)

Fontes das informações:

Taxa de letalidade dos países: aplicativo que desenvolvi, com dados da Johns Hopkins University.

Taxas de letalidade da COVID-19 por grupo etário: Wiki.

Pirâmides etárias: Banco Mundial.

--

--

Cassiano Ricardo Dalberto
Silly Random Walks

Doutor em Economia (UFMG), compulsivamente curioso, observador de pássaros, filósofo de boteco