COVID-19, analisando os dados que não estão na mídia

Parte 1

Ricardo Pinto
Data Hackers
4 min readMay 7, 2020

--

Foto por Fusion Medical Animation no Unsplash

Em tempos de COVID-19 decidi focar os meus estudos de ciência de dados nas informações sobre esta doença que rapidamente se tornou uma pandemia.

Para tal decidi procurar dados que não estivessem tão difundidos pela mídia embora pertencessem às mesmas fontes. Descobri que a Organização Mundial da Saúde publica um relatório diário sobre esta doença no seu site e montei um notebook (um código para os mais leigos) para extrair esses dados e convertê-los numa base de dados que qualquer um possa analisar (sim qualquer um! no final deste post vou disponibilizar para quem quiser ver o meu código e usá-lo a seu bel-prazer).

Eu sei que já existem vários códigos abertos disponibilizados que compilam os dados da OMS, mas não encontrei nenhum que convertesse especificamente o relatório diário, e ao olhar o relatório vi que poderia tentar tirar alguns insights, então resolvi avançar.

Por isso segue o primeiro de vários posts que pretendo fazer sobre esse assunto nas próximas semanas, neste primeiro irei usar como base os relatórios do dia 23 e do dia 25 de março de 2020:

Primeiro, porquê o termo PANDEMIA? No dia 23 tínhamos um total de 190 países com casos confirmados do COVID-19 e no dia 25 um total de 194, logo se consideramos que existem 193 estados soberanos membros das Nações Unidas, não restam dúvidas sobre a efetividade do termo.

Segundo, decidi analisar a taxa de mortalidade por país. Eu sei que existem várias discussões como de fato esta taxa deve ser determinada, mas para simplificar a presente análise, ela será apenas o rácio entre o número de casos confirmados e o número de mortes.

Nos países em estágios iniciais da pandemia um pequeno número de morte pode elevar a taxa de mortalidade, não tendo um significado real. Então para minimizar este impacto, decidi restringir a análise a países com mais de 1000 casos confirmados (depois desta parede de texto seguem finalmente os gráficos!).

A primeira coisa óbvia que podemos observar, e que não é novidade para ninguém, é que a Itália é o líder em taxa de mortalidade, no entanto a primeira surpresa é que a China é apenas a sétima colocada! Os países europeus estão rapidamente a ganhar terreno neste ranking, e a Espanha parece confirmar as previsões como sendo um caso similar ao Italiano. Agora o que é alarmante é o rápido crescimento na segunda metade do ranking como um todo, assim como o aparecimento do Brasil, que está ainda nos estágios inicias do contágio, diretamente na décima segunda posição.

Obviamente que estes dados isolados não teriam significado nenhum sem complementar com o total do número de casos e mortes nestes mesmos países:

A boa notícia para a China é que os números estão estáveis, tal como eles afirmam. Já a Itália caminha rapidamente para alcançar a China em números totais de casos, isto com uma população bem inferior. A Espanha indica que o pior está por vir com um acréscimo de mais de 10 mil casos em dois dias. No entanto a grande surpresa são os Estados Unidos, com um elevado número de casos confirmados (31 mil no dia 23), mas uma taxa de mortalidade relativamente baixa (1,27% no dia 23), tanto que saíram da lista no dia 25. Será que o pior está por vir? Ou será que existe alguma teoria da conspiração ocultando os dados?

Por hoje é isso, espero que tenham gostado, lembrando que sou um mero novato nesta área (tanto como desenvolvedor, como cientista de dados), então qualquer comentário e/ou crítica é bem vinda, e caso tenham sugestões ou queiram ver alguma análise em particular comentem.

Finalmente como prometido, para os mais curiosos, segue o link do meu repositório para poderem consultar e usar todo o código por baixo dos panos. Lá também vão encontrar todas as instruções e algumas das minhas decisões sobre o código.

--

--

Ricardo Pinto
Data Hackers

Data Scientist with a civil engineering background. Water polo player. Loves ML/AI, data, decision science, gaming, manga.