Análise dos dados da COVID-19: perspectiva mundial e brasileira

Fabio Ceruti
Data Hackers
Published in
10 min readMar 18, 2021

Disclaimer: essa é uma análise exploratória com base nos dados disponíveis publicamente, cujo as descobertas e análises não devem ser usadas como verdade absoluta ou sugestão de como você deve se portar diante da pandemia. Para ter acesso a informações oficiais e devidas instruções, consulte os orgãos de saúde oficiais.

O COVID-19 é uma doença infecciosa causada por recém-descoberto tipo de coronavírus.

Transmitido principalmente por meio de gotículas provenientes de tosses ou espirros de pessoas infectadas, a gravidade dos sintomas varia muito de pessoa para pessoa.

Estudos estão sendo realizados no mundo todo para entender o mecanismo de atuação do vírus, porém os resultados ainda não são definitivos.

Até o presente momento, observa-se que cerca de 80% dos casos confirmados são assintomáticos e rápidos. A maioria das pessoas que se encaixam nesse grupo, se recupera sem nenhuma sequela.

No entanto, 15% das pessoas terão infecções graves e precisarão de oxigênio. O restante das pessoas, que representam 5%, serão classificadas como infecções muito graves e precisarão de ventilação assistida, por meio de respiradores mecânicos em ambiente hospitalar.

Com o objetivo de elevar a consciência situacional a respeito do COVID-19, irei realizar uma análise sobre os dados públicos da doença.

Obtenção dos dados

Existem várias fontes de dados em relação ao COVID-19, como o Ministério de Saúde, Secretaria Estaduais de Saúde e não oficiais, que podem gerar um conflito a respeito dos dados. Diante disso, dois datasets foram escolhidos para que possamos utilizar como base em nosso estudo:

Os dados provenientes do JHU CSSE COVID-19 Data são compilados pelo Centro de Ciência e Engenharia de Sistemas (CSSE) da Universidade Johns Hopkins, através de várias fontes espalhadas pelo mundo. Em relação ao Brasil, este dataset se baseia principalmente nas informações do Ministério da Saúde e do dataset wcota, conforme mencionado neste link.

Enquanto que os dados relacionados com o dataset wcota são compilados de várias fontes brasileiras e organizados por estado federativo. Esta iniciativa faz parte de um projeto de pós-doutorado, “Monitoramento contínuo da COVID-19 no Brasil: coleta, análise e modelagem de dados epidêmicos”, registrado na Pró-Reitoria de Pesquisa e Pós-Graduação da Universidade Federal de Viçosa.

Importando os dados

Antes de iniciar a análise, devemos importar as seguintes bibliotecas do python para nos ajudar no processo:

  • Pandas — biblioteca responsável pela manipulação dos dados;
  • Matplotlib e Seaborn — biblioteca responsável pela visualização dos dados;
  • Plotly — biblioteca responsável pela visualização dos dados e que será utilizada exclusivamente para plotar mapas.

É importante ressaltar que os dois datasets se encontram no meu github e estão cadastrados até a data:

  • JHU CSSE COVID-19 Data: 12/03/2021;
  • Dataset wcota: 12/03/2021.

Análise exploratória dos dados — perspectiva mundial

A pandemia do COVID-19 é uma batalha diária e de dimensão mundial, por isso, que antes de iniciarmos uma análise focada no território brasileiro, precisamos entender o comportamento da pandemia com uma perspectiva mundial. Portanto, esta seção tem o objetivo de responder algumas perguntas através dos dados do COVID-19 disponibilizado pelo JHU CSSE COVID-19 Data.

Q1. Como está a evolução mundial da COVID-19?

Desde do primeiro caso de contaminação por COVID-19 em Wuhan na China, tivemos que nos adaptar e adotar medidas de segurança, visando conter a propagação e os estragos causados pelo vírus.

Portanto, vamos avaliar como o número de casos e mortes relacionadas com o COVID-19 tem evoluído mundialmente. Para esta análise, será utilizado a média móvel (7 dias) de novos casos e mortes, pois facilita a avaliação em relação a evolução dos números.

As evoluções de novos casos e mortes podem estar associadas à:

  • Medidas de controle flexíveis para países mais populosos, causando maior impacto na curva de casos e mortes mundiais;
  • No inicio do segundo trimestre de 2020, a falta de conhecimento de como proceder em relação ao tratamento das pessoas com COVID-19 somados a falta de leitos hospitalares para atender todos pacientes podem ter relação com o número expressivo de mortes. É importante destacar que quando os dois gráficos temporais são comparados, é possível avaliar uma diferença de comportamento no inicio da pandemia em relação ao restante dos gráficos;
  • A presença de novas variantes do vírus no Reino Unido, Brasil e África do Sul potencializaram a sua contaminação a partir de dezembro de 2020;
  • As datas festivas de final de ano podem ter contribuído para o aumento de casos e mortes;
  • As vacinações podem ter minimizado o número de casos e mortes reportadas, conforme queda evidenciada no inicio de 2021.

Q2. Quais são os 5 países com mais casos e mortes acumulados?

Vamos avaliar os 5 países que mais possuem casos e mortes acumulados mundialmente. Para esta análise, avaliaremos os dados absolutos e os normalizados por população.

É importante destacar que os dados absolutos tem maior influência de países mais populosos, já que o índice de propagação do vírus é maior. No entanto, para uma avaliação comparativa, é necessário normalizar os dados de tal forma que elimine o efeito da população, trazendo todos para a mesma base. Por isso, a importância de utilizar a métrica dos dados normalizados por população.

Em relação aos dados absolutos (gráficos apresentados na esquerda), podemos verificar a presença de países com um alto índice populacional no top 5, como Estados Unidos, Brasil e Índia.

Quando os dados são normalizados, podemos avaliar que os países que compõem o top 5 em valores absolutos, envolvendo casos e mortes acumuladas, não aparecem nos 5 países com maiores casos e mortes normalizados por população, com exceção apenas do Reino Unido.

Para facilitar a visualização dos impactos acumulados envolvendo casos e mortes associados a COVID-19, envolvendo todos os países, vamos plotar um mapa de calor em relação ao mapa-múndi, usando como referência as mesmas métricas plotadas nos gráficos anteriores.

Q3. Quais os 5 países mais avançados em relação a vacinação da população?

Diante da pandemia de COVID-19 que se propagou mundialmente, foi necessário que a ciência avançasse na mesma velocidade em busca de uma resposta eficaz contra o vírus. Portanto, esta seção visa avaliar os 5 países que mais avançaram em relação a vacinação da sua população.

Como as vacinas desenvolvidas contra o coronavírus precisam de duas doses, com exceção da vacina recém desenvolvida pela Johnson&Johnson, os gráficos foram divididos em avanço da vacinação envolvendo uma dose e duas doses.

Vale lembrar que para fins desta análise, utilizamos as mesmas métricas (valor absoluto e normalizado por população) explicadas anteriormente.

Além disso, é importante destacar que os dados apresentados nesta seção apresentam um alto índice de valores ausentes, que pode ser em função de que alguns países ainda não iniciaram o processo da vacinação da população e que não divulgaram os dados relacionados com a vacinação.

Os países mais populosos como Estados Unidos, Índia e Brasil acabam aparecendo no top 5 de países com mais vacinações absolutos, devido a demanda por vacinações. Mas, quando utiliza-se as duas métricas, conseguimos encontrar insights interessantes como o avanço dos Estados Unidos na vacinação da população, mesmo com uma demanda populacional alta.

A península de Gibraltar e Israel são os países mais avançados em termos de vacinação. É importante enfatizar que Gibraltar é uma península que possui cerca de 32 mil habitantes.

Como forma de facilitar a visualização do avanço das vacinações mundialmente, foi plotado no mapa-múndi o mapa de calor em relação ao percentual da população.

Análise exploratória dos dados — Brasil

Vamos avaliar os dados de COVID-19 com foco para o Brasil, utilizando como base o dataset wcota. As análises serão similares as realizadas para uma perspectiva mundial.

Q1. Como está a evolução de casos e mortes — Brasil x Mundo?

Vamos avaliar como esta evolução de casos e mortes no Brasil em relação ao mundo. Porém, esta análise não pode ser feita em termos absolutos, pelos mesmos motivos apresentados anteriormente, portanto, a métrica utilizada para esta avaliação foi a média móvel (7 dias) normalizada com o intuito de retirar o efeito da população e permitir uma comparação.

Além disso, é importante ressaltar que os dados utilizados para esta análise são do JHU CSSE COVID-19 Data.

Como podemos notar através dos gráficos, o Brasil vem apresentando um resultado pior do que o cenário mundial. Isto pode estar associado a uma maior flexibilização de medidas de controle contra o COVID-19.

É importante destacar que durante as eleições (15 de novembro e 29 de novembro) houveram quedas tanto de casos quanto de mortes no Brasil. Além disso, a piora em 2021 pode estar associadas a nova variante encontrada no Amazonas somada a redução na oferta de leitos hospitalares, sem mencionar o colapso em Manaus pela falta de oxigênio.

Vamos avaliar a evolução do Brasil em relação ao total de casos, mortes e recuperações ao longo tempo, usando como base o datset wcota.

A partir do gráfico, podemos concluir que a infecção pelo COVID-19 tem aumentado no Brasil, porém a taxa de recuperação é significativa quando comparado com a de mortalidade pelo vírus.

Q2. Quais são os 5 estados com mais casos e mortes acumuladas?

Vamos avaliar os 5 estados que mais possuem casos e mortes acumuladas de forma similar a questão levantada para avaliação dos países na perspectiva mundial, utilizando as mesmas métricas.

Como já mencionado, o número de casos e mortes tem uma forte relação com o tamanho da população, por isso, que é importante normalizar os dados para eliminar efeito do tamanho da população e permitir uma comparação.

Diante disso, podemos notar que Roraima é o estado que possui mais casos acumulados quando comparado com os demais estados. No entanto, Amazonas é o que possui mais mortes e que podem estar associados a presença da nova variante e do colapso que ocorreu em Manaus por falta de oxigênio para combater o COVID-19.

Outro fato que chama bastante atenção, é o Rio de Janeiro não estar presente no top 5 de maior quantidade de casos, mas estar no de mortes. Isto pode ser resultado de uma maior taxa de mortalidade por COVID-19 em relação aos demais estados.

Q3. Quais o estados possuem mais pessoas vacinadas no Brasil?

As vacinações contra o COVID-19 começaram em 17/01/21 no Brasil e é de suma importância para a contenção do vírus e evitar a sobrecarga no sistema de saúde.

Portanto, iremos avaliar os 5 estados que mais avançaram no processo da vacinação da população. É importante destacar que serão utilizados as mesmas métricas usadas anteriormente para as análises dos avanços das vacinações no cenário mundial.

Além disso, é necessário frisar que são necessárias duas doses de vacinas para alcançar uma alta eficácia contra o vírus no Brasil. Por isso, os gráficos estão divididos em termos de aplicação da 1ª dose e 2ª dose.

Conforme os gráficos, é possível avaliar que os 5 estados que mais vacinaram com a 1ª dose estão presentes no top 5 para 2ª dose aplicadas de vacinação, com exceção do Rio Grande do Sul.

É possível notar que ainda existe um caminho longo no processo de vacinação para os estados brasileiros, já que os estados que apresentaram maior índice de vacinação alcançaram 8% da população para 1ª dose, enquanto que 3% para a 2ª dose.

Conclusão

Neste estudo utilizamos dois datasets distintos para obter insights para uma perspectiva mundial e brasileira a respeito do avanço da pandemia do coronavírus.

Diante disso, conseguimos concluir que:

  • Medidas de controle flexíveis para países mais populosos podem ter contribuído para o aumento da curva mundial;
  • A presença de novas variantes do vírus e o colapso do sistema de saúde podem ter aumentado a contaminação do COVID-19;
  • O processo de vacinação tem um caminho longo tanto termos mundiais quanto em território brasileiro. Porém, apesar de embrionário, pode ter influenciado na redução do número mortes causados pelo COVID-19;
  • O Brasil apresenta um resultado pior em termos de controle contra o COVID-19 em relação ao cenário mundial que pode estar interligada a questão da vacinação e as medidas de controle flexíveis;
  • O Rio de Janeiro parece apresentar uma taxa de mortalidade pior do que os outros estados.

Desta forma, podemos avaliar através dos dados que a COVID-19 possui impacto em escala exponencial e que pode ser ampliado com o surgimento de novas variantes do vírus. Medidas simples foram comprovadas como eficazes para controlar o avanço dessa doença, tais como o cuidado com a higiene pessoal, o uso de máscara e o distanciamento social. Além disso, o desenvolvimento das vacinas trazem uma certa esperança, porém o processo será demorado, visto que a demanda mundial é alta.

Para maior detalhamento, este projeto se encontra em meu portfólio no github.

Siga-me para acompanhar novos artigos sobre data science e análise de dados. Até breve!

Fabio Ceruti

--

--