Era uma vez um coronavírus…

Arthur Lamblet Vaz
Data Hackers
Published in
10 min readMar 26, 2020

O conto de um tal de vírus que se espalhou por aí, narrado por um cientista de dados.

A ponta do iceberg

O mundo já vinha mostrando uma grande incerteza que poderia ser vista, refletida nas grandes oscilações dos índices.

Além de ser possível perceber, a perda de valor dos mesmos ao longo de 2020. A escolha dos índices foi para observar de forma ponderada, como as grandes empresas globais estavam reagindo ao início da epidemia na China.

O que importa é o “boca a boca”

Uma ferramenta muito útil para enxergarmos, quais são os grandes anseios do mundo é a internet. Porque ninguém procura saber algo que não seja relevante ou “hot trend”, logo as buscas no google se tornam a principal ferramenta para analisarmos quais as principais preocupações das pessoas, ou melhor o que está sendo mais comentado por aí.

Um fato interessante que chama atenção, é que os brasileiros não estão utilizando o google como ferramenta principal de informação sobre a epidemia. Já os demais países atingidos, existe um alto índice da utilização do google para procurar sobre coronavirus.

Dentro do Brasil, as palavras relacionadas ao tema que vem ganhando importância, nesse exato momento. Que por sua vez, um fato interessante é o buzz gerado para marca de cerveja Corona.

Uma relação negativa, contudo não tem nenhum envolvimento direto com a marca, meramente coincidência. A curto prazo, concordo que pode ser ruim, já que remete a uma lembrança de um assunto negativo. Mas se pararmos para pensar a longo prazo, tem grande chance de ser tornar Top of Mind por um bom tempo.

Mesmo nas palavras chaves mais relacionadas, que são mais associadas ao tema se mantém bastante similar aos que estão ganhando importância.

Olhando no tempo, a procura obteve seu ápice na primeira quinzena de Março e segundo o índice da Google, hoje os valores se encontram abaixo de 80. Isso nos leva a pensar que o brasileiro pode se considerar já bem informado, ou então, a sua preocupação com o tema diminuiu.

Mas no mundo inteiro está na mesma tendência, isso pode ser um indicativo que a mídia televisionada, somado a canais digitais, como mídias sociais, podem estar cobrindo de maneira efetiva o tema. Então o ápice pode ser um reflexo do desconhecimento do tema, gerando uma necessidade de buscar a informação pelo google.

Faça o que eu falo e não o que faço

Em sua totalidade, essa frase não se aplica a China. Pelo fato do prefeito de Wuhan ter tentado diminuir e esconder informações sobre a gravidade do tema, levou em sua renúncia.

Mas se considerar a densidade populacional da China comparado com o número de casos e morte, o governo chinês executou com êxito o isolamento do vírus.

Apenas com o gráfico acima, é possível notar que a única província chinesa que registrou um alto número de pessoas confirmadas, foi Hubei, onde é situado a cidade de Wuhan.

Se compararmos apenas a província de Hubei com as demais na China, vemos uma ameaça de casos espalhados pela China, onde rapidamente foi convertido. Deixando assim, de maneira isolada, Hubei concentrar 6–1 comparado as demais.

índice = Hubei/(outras províncias)
Números confirmados até 25/03/2020 — Província China

Panelinha de província

A fim de agrupar as províncias que possuem perfis sociais parecidos, clusterizei considerando as seguintes variáveis:

  • Número de assistência médica
  • Número de hospitais
  • Centros de prevenções de doenças
  • Receita per capita
  • Percentual de crescimento de receita per capita

Feito isso, a sugestão de formação de dois grupos foi seguida e percebemos uma baixa relevância nas duas variáveis que apontam a receita per capita, já que a média dos valores nos dois grupos resultou em valores muito parecidos.

Elbow Chart Wcss — Kmeans

Considerando o fator populacional, percebemos que as províncias chinesas que são mais populosas se concentraram no mesmo grupo, exceto Jiangsu.

Hong Kong e Macau estão em cluster separados por não fazer parte das províncias chinesas

E essas regiões populosas, foram exatamente as mesmas que o coronavirus chegou, contudo rapidamente controlado o seu contágio.

O famoso SIR

Feito uma rápida busca por modelos usados para prever comportamento de epidemias, em sua maioria o SIR foi selecionado. Não é um modelo complexo, o que torna complexo é a utilização das premissas certas, considerando os fatores certos. Um exemplo, é que em alguns estudos pude notar um coeficiente de malha urbana, coeficientes que consideram intervenção do governo e população.

Como meu intuito aqui não é criar um modelo perfeito, escolhi uns parâmetro já definido em alguns trabalhos. Me fez poupar um tempo precioso. Caso alguém queria consultar os trabalhos que eu considerei, todos estão no bloco Referência existente no script.

O modelo simula o comportamento de três inputs:

Suscetível; Infectados; Recuperados

A leitura do gráfico acima, acaba sendo referente a gravidade da epidemia que pode ser observada na linha verde constante se mantendo próximo ao início da linha Suscetível, quando olha no eixo horizontal. Além de ter uma idéia da velocidade do contágio, já que um pouco menos de 40% dos sucetíveis, podem ter adquirido o vírus em um período de 30 dias. Resultando um R0 de 3.6, confesso que esse valor aumentou comparando no dia que rodei pela primeira vez o modelo.

Não tem problema, porque como as ações externas tais como, ações governamentais, foram realizadas nesse intervalo de tempo, fazendo com que haja uma possível necessidade de recalcular alguns dos parâmetros.

Fornecendo também, a quantidade de obtidos esperadas. O modelo mostra um valor em torno de 3700–4k, hoje segundo relatos de fontes oficias, esse número é próximo de 3.3k.

A grama do vizinho

Olhando para os demais países, a quantidade de pessoas confirmadas com o vírus, se concentra em poucos.

Para investigar, possíveis motivos que levaram esses países a obterem um elevado número de casos. Separei algumas variáveis que por premissa, poderiam ter algum tipo de correlação:

  • Coronavirus: Casos confirmados do vírus
  • +50 yrs: Número % de pessoas com mais de 50 anos
  • Population2020: População dos países
  • Score_tech: Um índice que mede o quanto o país está avançado tecnologiacamente
  • Coronavirus_mortes: Casos fatais do vírus nos países
  • Temp Max: Temperatura média máxima no último ano
  • Temp Max PopWgt vs. Hist: Variação da temperatura média máxima, ponderada com a população com o histórico
  • Temp Max PopWgt: Temperatura média máxima, ponderada com a população no último ano
  • Densidade_area: índice que considera área com construção urbana, divido com a população — foi escolhido área com construção urbana ao invés de área territorial total porque países como Brasil e Rússia ficaria muito distorcido, sendo assim mais “fair”.
Matriz de correlação

Analisando apenas o comportamento dos países com maior número de casos de COVID19.

O que conseguimos inferir da matriz de correlação é que países com maior concentração de pessoas, é tendencioso a ter menos casos, já que o isolamento e as medida de saúde ficam mais fácil de se operar. Um outro ponto, é que a correlação fica mais forte quando você tem em números absolutos, mais pessoas com idade superior a 50 anos.

A quantidade de mortos não é justo analisar na matriz, porque o número de casos é mais concentrado em um país. Isso acaba distorcendo essa variável, em termos de comparação.

No gráfico abaixo isso fica mais claro.

Esse é um gráfico que considera 5 variáveis simultaneamente.

  • Casos confirmados coronavirus
  • Casos fatais coronavirus
  • Percentual da população com mais de 50 anos
  • Avanço tecnológico: com essa variável conseguimos inferir outras variáveis relacionada ao país, não só se são avançados tecnologicamente
  • População dos países

Esse gráfico nos diz um pouco mais a respeito da relação das variáveis ao mesmo tempo. Levantando um bandeira amarela — vermelha para Espanha, que por sua vez, está se aproximando do quadrante da Itália.

O segredo é passar despercebido

Abaixo é possível ver que alguns países conseguiram controlar o crescimento de casos da COVID19, mas por outro lado, países como Estados Unidos e Itália continuam aumentando.

No caso dos Estados Unidos, pode ser explicado pelo acesso ao sistema de saúde no país que acaba ficando restrito, devido ao seu alto custo.

Identificamos o mesmo comportamento na evolução dos casos de mortes por COVID19. Italia se destacando dos demais, como o país com o maior número de mortes e um crescimento acelerado, percebido pela sua inclinação no gráfico.

Colocando todo mundo na mesma página

Os gráficos acima foi considerado a evolução temporal da epidemia, porém se olharmos na ótica de dias de COVID19, adotando o primeiro relato como o primeiro dia de epidemia no país, alguns fatos ficam mais evidentes.

A evolução dos casos no Irã, mostrou nos primeiros dias uma maior evolução que os demais e nem por isso se encontra na primeira posição hoje no mundo em ocorrências do COVID19. Um outro ponto interessante de observar é que o crescimento vertiginoso nos casos confirmados de COVID19, aconteceu a partir do quadragésimo dia. Esse ponto, ajuda a reforçar a importância em estancar a epidemia nos seus primeiros dias.

Faça suas apostas

Nesse último bloco, procurei usar apenas curvas de crescimento de modelos não lineares. Como sabemos, toda epidemia tem seu começo, fim e seu ápice. Com isso caracteriza-se em uma distribuição Gaussiana, então estarei considerando esse comportamento.

Além da função gaussiana, trouxe mais 3 que são bastante utilizadas para problemas não lineares. Por fim, otimizando a função gaussiana, ela nos diz que chegaremos no ápice de 3,5k de casos de confirmados e a epidemia durará por volta de 45 dias.

Vírus como COVID19, que possui uma alta capacidade de contaminação somado a vírus como EBOLA que tem uma alta taxa de mortalidade e o vírus HIV com sua invencibilidade serão mais comuns. Devido a isso, a comunidade científica do ramo da saúde precisa se preparar com respostas rápidas e eficazes. Cientistas de dados devem suportar esses profissionais, possuindo assim um papel fundamental na equipe, para combater futuras crises como essa.

Forte recomendo esse filme, assisti uma semana antes de fazer esse post, para melhorar meu entendimento sobre o assunto.

Esse post tem como objetivo disseminar os fatos da epidemia que todo o mundo está passando agora. Todo o código foi criado esse final de semana, a fim de entregar valor de maneira rápida e conto com o envolvimento de outros engajados pelo tema para assim, disponibilizar um só script que poderá estar mais poderoso e atender a todos.

Antes de mais nada, venho reforçar que o tempo disponibilizado para trabalhar em cima do tema foi definido por mim, já que acho de suma importância desenvolvermos a questão do planejamento e execução, para entrega no prazo. Por isso, já tenho pontos mapeados para melhoria, mas fiquem livres para enviar seus feedbacks/sugestões.

A execução foi em 2 dias, mas o planejamento foi em 5

Toda a parte de estruturar as tarefas e quebrar em blocos forma feitas antes de começar a criar o script. Essa iniciativa, me fez ter um entendimento e clareza onde eu ia chegar, mesmo sabendo que não era o ótimo global, mas sim o ótimo local.

Segue os pontos que foram mapeados para trabalhar em cima antes de começar:

  • Facilitar o trabalho: Mapear as fontes de dados/Criar repositório/Parametrizar/Separar em blocos
  • Trazer insights: Estudo de caso/Benchmark
  • Incerteza da população: Mercado financeiro pelo mundo/Google menções
  • Entender a origem: China/EDA/Modelo
  • Entender o mundo: Mundo/Variáveis demográficas e sociais
  • Estimar Brasil: Modelo não linear/Proxy

A parte de deixar parametrizado, preferir gastar um pouco de mais tempo nisso, já que pretendo atualizar quase diariamente o script.

Esse gráfico que criei (não lembro de ter visto em lugar nenhum), ajuda a entender o pensamento de um projeto de DS. Ao invés de fazer uma única entrega, faz inúmeras delas quebradas no tempo gerando valor para o cliente.

Eixo horizontal: Work/Insight Eixo vertial: time

--

--

Arthur Lamblet Vaz
Data Hackers

Surfista, natureba e engenheiro de produção com ênfase em Data Science🌱🌍♻️