Trabalho de Conclusão de Curso da Tera — Data Science & Machine Learning

Beatriz Yumi Simoes de Castro
19 min readApr 20, 2020

--

Este artigo é a apresentação do trabalho de conclusão de curso de Data Science & Machine Learning da Tera, realizado por Luiza Pellin Biasoto, Beatriz Yumi Simoes de Castro, Lucas Juliano, Rogério Batista e Nicholas Furusato. O nosso trabalho tem como missão montar um conjunto de visualizações e análises que tragam insights sobre, expliquem e projetem os diferentes impactos da propagação do vírus no Brasil. Resolvemos cumpri-la ao responder três perguntas:

  • Como se comportam os tópicos e as principais palavras chaves utilizadas nos tweets em decorrência de impactos políticos e fatalidades e casos confirmados do COVID-19?
  • Houve um aumento de menções no twitter relacionadas ao desemprego no decorrer dos dias analisados por conta do COVID-19?
  • Qual o setor para se direcionar recursos para recuperar e manter a economia do estado de São Paulo em decorrência do COVID-19?

A seguir iremos detalhar as análises necessárias para responder cada pergunta, bem como os resultados obtidos e nossas conclusões sobre eles.

Como se comportaram os tópicos e as principais palavras chaves utilizadas nos tweets em decorrência de impactos políticos e fatalidades e casos confirmados do COVID-19?

Para responder a primeira pergunta, “Como se comportam os tópicos e as principais palavras chaves utilizadas nos tweets em decorrência de impactos políticos e fatalidades e casos confirmados do COVID-19?”, identificamos, dia a dia, as principais palavras chaves dos tópicos observados de cada dia. Também identificamos quais os principais tópicos relacionados ao Covid-19 nos tweets coletados e analisamos como esses tópicos evoluíram ao longo do tempo, nos dias que coletamos os tweets.

Como fizemos?

Extraímos tweets dos dias 17, 18, 19, 24, 26, 27, 28, 29, 31 de março e 1, 2 e 3 de abril utilizando os critérios de busca “corona ou presidente ou impeachtment ou bolsonaro ou coronavirus ou #corona ou #coronga ou #coronavirus ou quarentena ou pandemia ou covid19 ou covid-19 ou covid_19 ou #coronavirus ou #coronavirusoutbreak ou #coronavirusPandemic ou #covid19 ou #covid_19”, desconsiderando retweets, não buscando o usuário que postou o tweet. Por conta disso, não foi possível realizar um teste exaustivo quanto a presença de tweets de robôs na base analisada. Todavia, realizamos um teste amostral de 20.000 tweets apenas 38 tweets continham o mesmo texto aparecendo mais de uma vez, não indicando que seria necessária uma limpeza nesse sentido.

Depois fizemos uma tratativa na base, que seguiu o seguinte fluxo:

  • Tokenização dos tweets
  • Redução dos tokens para uma seleção de 10 mil tokens mais significativos de acordo com uma amostra de 5 dias consolidados, significância calculada manualmente
  • Remoção de caracteres especiais e de acentos através de regex e unicode
  • Remoção de emojis (usando a biblioteca emoji)
  • Remoção de stop words
  • Aplicação de modelo Bigram
  • Aplicação de modelo Trigram
  • Remoção novamente de stop words

A lista de stop words foi gerada na biblioteca spacy e atualizada constantemente conforme os modelos de Latent Dirichlet Allocation (LDA) e Non-negative Matrix Factorization (NNMF) foram processados, a fim de otimizar os resultados obtidos. Tendo a base de todos os dias prontas, seguimos com a modelagem de tópicos com duas técnicas, o LDA que foi aplicado na base de cada dia em sua totalidade, e a NNMF, que foi aplicada em uma base única amostral.

A modelagem de tópicos via Latent Dirichlet Allocation (LDA) através da biblioteca Gensim foi uma das técnicas utilizadas, cujos maiores detalhes você pode ler no artigo “Como modelar tópicos através de Latent Dirichlet Allocation (LDA) através da biblioteca Gensim”. Após realizar a modelagem e obter os tópicos e suas respectivas palavras chaves de cada dia, criamos uma word cloud para cada tópico, a fim de facilitar o entendimento do que foi dito em cada dia. Esse word cloud foi criado tanto dentro do próprio Jupyter Notebook quanto via esta plataforma. Para criar as word clouds na plataforma, extraímos um excel que contínha todas as palavras chaves por tópico e preenchemos na plataforma para gerá-las.

A técnica Non-negative Matrix Factorization (NNMF) tem como objetivo pegar as palavras do texto e gerar tópicos, sendo que esses tópicos indicam palavras que normalmente ocorrem juntas nos tweets. Por exemplo, no nosso caso, encontramos um componente onde havia as palavras “quando”, “acabar” e “quarentena”. Isso se dá por muitos tweets falarem a respeito as três palavras juntas e isso provavelmente indica que é um tema recorrente! Essas palavras ocorriam muito juntas porque as pessoas falam muito sobre o que farão quando a quarentena passar, o que faz bastante sentido.

Pensando um pouco em termos matemáticos, o NMF busca encontrar uma matrix de tópicos que reconstrua os tweets do nosso conjunto. A figura abaixo mostra um pouco de como os tópicos e as palavras se combinam pra recriar os tweets (aqui chamados de documentos). Caso queira saber mais sobre o método, recomendamos esse post: Topic Modeling Quora Questions with LDA & NMF.

O que encontramos?

Abaixo seguem todos os wordclouds que foram levantados através do LDA.

A média é de três tópicos por dia, sendo que em todos os dias encontramos um tópico relacionado ou a pandemia ou a quarentena. Na maior parte dos dias há um anseio pelo término da quarentena/pandemia, com medo de contração da doença. Há também menções sobre um trend que se iniciou no TikTok de raspar e pintar o cabelo, associado a ficar em casa. Há muitas menções ao presidente, mas isso é esperado já que foi uma das palavras chaves de busca utilizadas para obtenção do data set, e as mantivemos para a integridade da análise de NNMF. Todavia, todas as wordclouds que mencionam o governo ou o presidente estão de certa forma ligadas ao coronavírus, seus pronunciamentos realizados no dia ou panelaços realizados contra ele. A maioria dos tópicos apresentam palavras chaves que mostram sentimentos de reprovação, todavia existem tópicos de apoio ao governo também. Existiam tópicos que eram completamente neutros e não continham um foco específico também, apenas com palavras jogadas lá. Houve alguns tópicos relacionados ao BBB também, especialmente no dia da eliminação do Prior (31/03).

Utilizando o NMF, encontramos 8 tópicos principais e agrupamos esses 8 tópicos em 3 macro-tópicos:

  • Quarentena: pessoas falando sobre a quarentena, tanto do que estão fazendo durante e quanto do que pretendem fazer depois dela, entre outros.
  • Governo: referências às ações do presidente, sejam elas de apoio ou de crítica.
  • Pandemia: discussões sobre como a doença está evoluindo tanto no Brasil como no Mundo.
Principais tópicos relacionados ao Corona Vírus

Dentro desses 3 macro-tópicos, temos micro-tópicos. Cada um deles sendo uma maneira diferente que o macro-tópico é percebido ou assuntos que aparecem normalmente relacionados a esse macro-tópico.

O maior dos macro-tópicos é o da Quarentena. Dentro desse tópico, identificamos três principais assuntos relacionados à quarentena: o que as pessoas estão fazendo durante a quarentena, o que pretendem fazer após a quarentena ou que durante a quarentena devem ficar em casa. Apesar de haver muitos outros tweets relacionados à quarentena, eles estavam relacionados a assuntos dispersos e não houve nenhum padrão identificado.

O segundo macro-tópico é o da Pandemia. Nele encontramos a maior parte dos tweets falando sobre o que chamamos de atualizações, tweets a respeito da evolução da doença até o momento, informando números de casos e mortes. O outro tópico foi chamado de conscientização por indicar como os usuários estavam conscientes dos riscos e evolução da doença.

Por último, o terceiro macro-tópico foi Governo. Esse tópico dividido entre os apoiadores do governo, aqueles que acreditam que as medidas tomadas estão corretas, e os críticos, que consideram as medidas tomadas inadequadas. As menções ao governo se dividem de maneira equilibrada entre as duas posições.

Outro análise realizada foi a repercussão dos Macro-tópico ao longo do período.

Comparativo dos temas ao longo do período

Podemos perceber que inicialmente o tema Pandemia era o mais comentando na rede social entre os tópicos. Uma das hipóteses para a relevância deste assunto no dia 17 de março, é que nesta data ocorreu a confirmação da primeira morte por Covid-19 no Brasil.

Já em relação ao tema Quarentena, nota-se um aumento sobre este tópico à partir do dia 18 de março. Vale destacar que este crescimento decorreu logo após o inicio da quarentena nos estados de São Paulo e Rio de Janeiro, decretado nos dias 16 e 17 de março respectivamente.

Sobre o último Macro-tópico analisado, é possível identificar que os dias em que houve maior quantidade de assuntos relacionados ao governo foram 18 e 31 de março, datas em que aconteceram decisões politicas e os panelaços.

Conclusões

O preprocessamento dos dados realmente nos tomou mais tempo do que a análise em si. Foi necessário várias idas e vindas e decisões de critérios e limpezas e testes para chegar em uma base redonda e uniforme para que ambos os modelos pudessem utilizar.

Entendemos que as palavras chaves identificadas pelo método LDA acompanham mais de perto os pronunciamentos do presidente, mas não necessariamente se modificam de acordo com outros fatos políticos, aumento de fatalidades ou casos confirmados de COVID-19. O sentimento permanece constante ao longo da linha do tempo analisada.

Já a técnica NMF nos mostrou que o principal tópico relacionado ao Corona é a Quarentena, cobrindo o que as pessoas fazem durante a quarententa e o que farão depois da quarentena. Os outros tópicos foram Governo, dividido entre apoiadores e críticos, e Pandemia, falando principalmente sobre o panorama dela no mundo.

Quando olhamos a evolução dos tópicos, podemos destacar: o tema Pandemia foi maior no dia 17 de Março, dia da primeira morte no Brasil, o tema Quarentena começa a aumentar a partir do dia 18 de Março, período em que as capitais aderiram ao isolamento social e os tweets sobre Governo possuem alta nos dias 18 de Março e 4 de Abril, ambos dias dos chamados panelaços.

Houve um aumento de menções no twitter relacionadas ao desemprego no decorrer dos dias analisados por conta do COVID-19?

A fim de responder esta pergunta, realizamos uma análise quantitativa seguida de um teste de hipóteses baseado, finalmente colocando nossas conclusões em comparação com possíveis fatos no cenário brasileiro que possam ter impulsionado o crescimento do número de tweets sobre desemprego. Para isso, utilizamos as bases de tweets processadas utilizadas para responder a primeira pergunta.

Como fizemos?

A proposta desta análise é fazê-la de forma descritiva em Python, já que, mesmo com o conhecimento adquirido de modelos mais complexos ao longo do curso de Data Science & Machine Learning, é possível chegar a resultados conclusivos de maneira simples. Utilizamos a biblioteca pandas e importamos para um Jupyter Notebook todos os datasets que coletamos do Twitter para nossa análise. Criamos então uma lista de palavras, relacionadas ao sentimento de preocupação do brasileiro com o desemprego, que pudesse ter sido mencionadas em algum tweet.

Abaixo segue a lista criada em Python:

lista_desemprego = ["demissão", "demissões", "desemprego","desempregar", "desempregado", "desempregada", "desempregados", "desempregadas", "demitido", "demitida", "demitidos", "demitidas", "demitir", "afastar", "afastamento", "afastada", "afastado", "emprego"]

Em seguida, aplicamos esta lista a cada tweet do nosso dataset e inserimos uma coluna a mais chamada ‘palavra_chave’, com a marcação ‘true’ ou ‘false’, através da função lambda, para que no caso da ocorrência de uma das palavras de nossa lista_desemprego estiver no tweet, retorne ‘true’ e em todos os outros casos, ‘false’.

tweets_0317.text.apply(lambda x: [palavra in x for palavra in lista_desemprego])

tweets_0317.text.apply

tweets_0317 ['palavra_chave'] = tweets_0317.text.apply(lambda x: [palavra in x for palavra in lista_desemprego])

Criamos então uma validação de nosso teste, com uma função lambda em uma nova coluna do dataset nomeada como sentimento_desemprego para no caso da ocorrência de no mínimo uma palavra da nossa lista_desemprego mencionada no tweet, retornar ‘true’, caso contrário, ‘false’.

tweets_0317 ['sentimento_desemprego'] = tweets_0317.palavra_chave.apply(lambda x:max(x))

Em seguida realizamos uma contagem da quantidade de tweets que tiveram ao menos a menção de uma palavra de nossa lista de palavras, através da marcação feita na coluna sentimento_desemprego, e também fazer uma contagem de tweets totais do dataset, para posteriormente calcularmos a proporção de tweets que mencionam palvras relacionadas à desemprego, onde:

tweets_Desemprego = sum(lista_desemprego)

tweets_totais = len(tweets_0317.index) — Neste exemplo utilizei como exemplo um dos dia de nossa análise que foi o dia 17 de março, o qual o dataset está nomeado como tweets_0317.

Por fim, temos o cálculo do percentual final de tweets que mencionam desemprego comparado à coleta total de tweets do dia:

percentual_desemprego = (tweets_Desemprego/tweets_totais) * 100

Vale ressaltar que para essa análise geral, analisamos cada dia individualmente para depois criarmos uma base única de comparação dia após dia se houve ou não um aumento no número de tweets que mencionam palavras relacionadas a desemprego, de acordo com nossa lista_de_palavras.

O que encontramos?

Os resultados que foram coletados e analisados podem ser vistos na tabela abaixo:

Análise de tweets relacionados a desemprego

Em uma simples análise de proporção percentual, é possível observarmos que de acordo com a pergunta objetivo inicial de estudo, que nos motivou a realizarmos essa análise, tivemos um aumento percentual de tweets com palavras relacionadas a desemprego, no período de dados coletados, entre 17 de março e 03 de abril de 2020, onde nos três primeiros dias de dados coletados (17, 18 e 19), tivemos uma média de menção de tweets relacionados à desemprego de 0,41%, seguido por um crescimento para uma média de 0,53% de menção nos cinco dias seguintes de informações coletadas (24, 26, 27, 28 e 29), finalizando com uma média de 0,74% de menção a desemprego nos quatro dias seguintes de informações coletadas (31, 01, 02 e 03).

A linha do tempo de fatos apontada não indica uma relação de causalidade entre eventos ocorridos e menções no twitter, serviu apenas de apoio para entendimento do cenário político e econômico brasileiro e assim nos auxiliar nas nossas conclusões.

Linha do tempo com fatos relacionados à economia, fatalidades e casos confirmados do COVID-19 e menções de desemprego no twitter

A seguir listaremos os fatos que selecionamos para nossa linha do tempo de análise:

Dia 17 de março de 2020: Brasil tem primeira morte pelo novo coronavírus; homem tinha diabetes e hipertensão — Matéria publicada no jornal Folha de SP sobre o primeiro caso de morte por Covid-19 no Brasil 1.

Dia 18 de março de 2020: Dólar fecha a R$ 5,20; perda na bolsa já é igual à de 2008 — Matéria publicada no portal UOL sobre a alta do dólar 2.

Dia 19 de março de 2020: Brasil fecha fronteiras terrestres para entrada de estrangeiros vindos de países vizinhos da América do Sul — Matéria publicada no portal de notícias G1 sobre a medida tomada pelo governo brasileiro para tentar conter o avanço do coronavírus no país 3.

Dia 24 de março de 2020: Em pronunciamento Bolsonaro pede na TV ‘volta à normalidade’ e fim do ‘confinamento em massa’ e diz que meios de comunicação espalharam ‘pavor’ — Matéria publicada no portal de notícias G1 sobre pronunciamento do presidente da república Jair Bolsonaro, que defendeu volta das atividades a normalidade, contrariando tudo o que especialistas e autoridades sanitárias do país orientam 4.

Dia 26 de março de 2020: Câmara aprova auxílio de R$ 600 para informais e de R$ 1,2 mil a mães chefes de família — Matéria publicada no site Valor Investe sobre o auxílio emergencial mensal de R$ 600 oferecido pelo governo federal para trabalhadores informais e pessoas com deficiência 5.

Dia 27 de março de 2020: Desemprego vai explodir no Brasil com coronavírus — Matéria publicada no site Valor Investe sobre o impacto do coronavírus no mercado de trabalho brasileiro 6.

Dia 28 de março de 2020: Sem ações específicas, 86% dos moradores de favelas vão passar fome por causa do coronavírus — Matéria publicada no site El País sobre pesquisa publicada referente aos ricos as áreas mais pobre em caso de desassistência 7.

Dia 29 de março de 2020: Crise já prejudica motorista de app e vendedor de comida — Matéria publicada no jornal Folha de SP sobre impacto da crise do coronavírus para trabalhadores informais 8.

Dia 31 de março de 2020: Desemprego deve começar a mostrar primeiros sinais da crise do coronavírus — Matéria publicada pela Exame sobre primeiros sinais de desemprego no Brasil devido à crise do coronavírus 9.

Dia 1 de abril de 2020: Governo vai autorizar corte de salário e jornada em até 100% — Matéria publicada no jornal Folha de SP sobre medida provisória do governo que permite corte de salários e jornadas de trabalhadores durante a crise provocada pelo coronavírus 10.

Dia 2 de abril de 2020: Governo prevê déficit de R$ 419 bi nas contas públicas em 2020, maior valor da série histórica — Matéria publicada no portal de notícias G1 sobre a previsão do governo federal que aumentou a previsão de déficit nas contas públicas para R$ 419,2 bilhões em 2020 11.

Dia 3 de abril de 2020: Brasil tem 359 mortes e 9.056 casos confirmados de coronavírus, diz ministério — Matéria publicada no portal de notícias G1 com a quantidade de casos confirmados e mortes no último dia de análise de nossa pesquisa, comparando com o primeiro dia (17 de março de 2020) haviam 291 casos confirmados e 1 caso de morte 12.

Teste de Hipóteses

Decidimos por aplicar um teste de hipótese, um procedimento ou regra para tomada de decisão que nos possibilita decidir pela hipótese nula H0 ou pela hipótese alternativa Ha, com base a informação contida na amostra, para nos auxiliar a responder a pergunta se houve um aumento no número de tweets que mencionam desemprego ao longo dos dias com os dados que coletamos. Selecionamos aleatoriamente para este procedimento o segundo e o penúltimo dia de coleta para comparar se houve um aumento nos tweets que mencionam desemprego. Com isso os dados são os seguintes:

Análise de tweets relacionados a desemprego para teste de hipóteses

Dia 18/03:

  • Tweets totais: 141.446
  • Tweets sobre desemprego: 510

Dia 02/04:

  • Tweets totais: 171.526
  • Tweets sobre desemprego: 1.936

Com estes resultados e com um nível de significância α de 95%, é possível afirmar que houve um aumento de tweets que mencionam desemprego do dia 18/03 para o dia 02/04? Para responder esta pergunta, primeiro definimos a hipótese nula (Ho) e hipótese alternativa (Ha), bem como as amostras a serem analisadas, sendo 18/03 como legenda 1 e 02/04 como legenda 2, da quantidade totais de Tweets (N) e dos Tweets sobre desemprego (X).

Ho: Tweets sobre desemprego dia 18 = Tweets sobre desemprego dia 02

Ha: Tweets sobre desemprego dia 18 < Tweets sobre desemprego dia 02

N1 = 141.446

N2 = 171.526

X1 = 510

X2 = 1936

Com esses valores definidos, podemos calcular o P que é a proporção amostral, cuja fórmula é a que está destacada abaixo.

Seguindo o padrão de boas práticas de testes de hipóteses, mantivemos um nível de significância de 5%, ou seja, α=0,05. Calculamos então o Zteste, também conhecido como Zobservado, que é o valor que buscamos para saber se está dentro ou não da região crítica. A fórmula do Zteste está destacada abaixo.

Fórmula para encontrar o valor Zteste
Cálculo do Zteste do teste de hipóteses

Zteste = -1.422,83

Como α=0,05, então 1 — α= 1–0,05 = 0,95, e assim podemos encontrar o valor de Zcrítico na tabela de distribuição normal acumulada, que você pode encontrar aqui. Para isso, precisamos procurar o valor de 0,95 na tabela. Este valor exato não existe nela, mas é possível identificar na linha 1,6 que existe um valor de 0,9495 e 0,9505, que ficam respectivamente abaixo das colunas 0,4 e 0,5. Isso significa que nosso Zcrítico estará entre 1,64 e 1,65, portanto o valor de Zcrítico é 1,645.

Montamos então um gráfico para verificar se o nosso Zteste (-1.422,83) se encontra na região crítica.

Gráfico teste de hipótese unilateral à esquerda

Como o Ztest está dentro da região crítica nós rejeitamos a hipótese nula e aceitamos a hipótese alternativa, de que o número de tweets sobre desemprego no dia 18 de março foi menor do que o dia 02 abril.

Conclusões

Com as análises que foram realizadas, tanto analisando o volume percentual, tanto através do teste de hipóteses, foi possível concluir que houve um aumento percentual no volume de tweets que mencionam palavras ligadas à desemprego.

Realizar essa análise para nós foi uma tarefa experimental que serviu para fazermos uma análise ponta a ponta com base em uma pergunta cuja resposta não era sabida. Buscamos uma maneira simples de encontrar e mostrar soluções que nos ajudassem a responder a tal pergunta de maneira clara e plausível. O teste de hipótese contribuiu e complementou nossa análise, nos ajudando a relacionar conceitos de estatística, o que a tornou mais rica, completa e robusta, além de garantir um resultado mais justo e livre de vieses de quem realizou os procedimentos aqui relatados.

Como priorizar o direcionamento de ajuda financeira de forma a proteger os trabalhadores e as empresas do estado de São Paulo em decorrência do COVID-19?

Para responder a terceira pergunta, realizamos uma análise setorial dos impactos das medidas restritivas relativas ao COVID-19 nos rendimentos dos trabalhadores formais do Estado de São Paulo.

O que fizemos?

Análise do impacto do COVID-19 no rendimento do trabalhador formal dos diferentes setores da economia do Estado de São Paulo, com o objetivo de fornecer insights para priorizar e prover auxílios financeiros aos principais setores afetados, de forma a:

  • viabilizar às empresas a conservação do seu quadro de funcionários;
  • estimular a economia e empregabilidade;
  • proteger os trabalhadores durante o período de distanciamento social;
  • melhorar o diálogo entre governo e população para aumentar a sua aderência às medidas restritivas para conter a disseminação da doença.

Como fizemos?

Diante das incertezas do cenário atual e da falta de dados para comparação com outra crise similar, foram cruzadas informações e estudos públicos de forma lógica para obter estimativas para diferentes cenários do impacto da pandemia nos rendimentos dos trabalhadores formais do Estado de São Paulo. As fontes utilizadas neste estudo estão descritas abaixo:

A Organização Internacional do Trabalho (ILO) é uma agência da ONU, que tem por objetivo estabelecer padrões trabalhistas, desenvolver políticas e elaborar programas que promovam trabalho decente para todas as mulheres e homens. A ILO publicou no dia 07/04/2020 um estudo que relaciona o COVID-19 com a redução de horas de trabalho globais. Esta estima que haverá, em média, uma redução de 6,7% do total de horas de trabalho globais durante o segundo quadrimestre de 2020, e distribui cada setor da economia em uma escala de baixo, médio ou alto impacto.

Régua de impacto disponível no estudo da ILO

Utilizamos neste estudo a média de 6,3% de redução de horas de trabalho atribuída pela ILO para as Américas, que foi distribuída entre os diferentes setores da economia de acordo com sua régua de impacto, ponderado linearmente com o rendimento total de cada subsetor obtido com a Relação Anual de Informações Sociais — RAIS.

As informações da RAIS são um importante instrumento de coleta de dados da gestão governamental do trabalho, que tem por objetivo:

  • o suprimento às necessidades de controle da atividade trabalhista no país,
  • o provimento de dados para a elaboração de estatísticas do trabalho,
  • a disponibilização de informações do mercado de trabalho às entidades governamentais.

Utilizamos as bases de estabelecimentos e de vínculos empregatícios de 2018, a mais recente disponível publicamente pela RAIS. Da base de vínculos empregatícios, retiramos o rendimento médio anual dos trabalhadores agrupado por código CNAE, para ser posteriormente cruzado com a base de estabelecimentos, a qual traz informações extras de município e quantidade de vínculos empregatícios. O resultado é uma base com informações de rendimentos por municípios e códigos CNAE.

Por fim, para a junção das informações adquiridas, traduzimos os códigos CNAE das bases RAIS para as subdivisões determinadas pela Comissão Nacional de Classificação (CONCLA) do IBGE para o mesmo agrupamento das categorias do estudo da ILO.

A lógica de cálculo do impacto de redução das horas trabalhadas por subsetor da economia segue o seguinte raciocínio:

  • inicialmente define-se um impacto mínimo de 1,0% para o setor menos impactado, que na régua da ILO é a Educação;
  • a média de 6,3% então é extrapolada linearmente entre os subsetores, seguindo a régua de impacto e sendo ponderada pelo rendimento total dos subsetores adquirido pela base da RAIS.

O resultado deste cálculo é apresentado na tabela a seguir:

A Blavatnik School of Government da Oxford University criou um índice de rigor (Stringency Index) para analisar a contenção imposta pelos governos mundiais através de 13 indicadores, como o fechamento de escolas, proibição de viagens e até a implantação de medidas fiscais e monetárias. Este índice é utilizado como uma forma de comparação das respostas dos governos mundiais à crise, e para o Brasil foi o índice base para os resultados obtidos no estudo da ILO.

Dessa forma, o impacto de 6,3% na redução das horas é associado às medidas de quarentena determinadas pelo Estado de São Paulo, com início em 24/03, que estipula um cenário ideal de 70% de isolamento social. Monitoramentos recentes indicam que esta taxa de isolamento ainda não foi alcançada pela população. Por isso, dadas as incertezas do cenários que estamos enfrentando, foram estimados impacto para três cenários distintos: 42%, 70% e 100% de isolamento social.

O que encontramos?

A figura abaixo mostra o resultado dos impactos financeiros para cada cenário e a participação de cada subsetor da economia nestes.

Resultado dos impactos financeiros para o trabalhador formal do Estado de São Paulo, com a participação de cada subsetor da economia

É possível notar que os três subsetores mais impactados (Mercado imobiliário, atividades de negócios e administrativas; Indústria da transformação; Comércio, reparação de veículos e motocicletas) representam pouco mais de 46% de participação nos rendimentos totais do Estado, enquanto que estes ultrapassam 67% de participação nos impactos totais.

Impactos distribuídos por município

Esta figura traz uma visualização dos impactos por município, disponibilizados em um mapa de calor em escala logarítmica do Estado de São Paulo. Na tabela estão as 15 cidades com maior volume financeiro impactado.

É possível observar que os principais polos econômicos do Estado estão diretamente ligados aos eixos rodoviários e são, por consequência, os mais vulneráveis à doença. Com o cancelamento de voos e diminuição da movimentação pelos aeroportos, estes eixos se tornaram a principal via de disseminação do vírus. Dessa forma, se for monitorada a rota de disseminação do COVID-19, pode-se observar se essa está seguindo os eixos rodoviários e já garantir medidas de proteção a essas regiões.

Esta análise proporcionou resultados quantitativos para a geração de insights, com o intuito de identificar os subsetores e municípios mais vulneráveis à doença e, por consequência, mais necessitados de auxílio financeiro para proteção de seus trabalhadores.

Considerações finais

A obtenção de dados no mundo real não é fácil nem simples. Como optamos por buscar pelos tweets e de estudos nós mesmos, o trabalho foi intenso. Ainda mais quando se trata de twitter, pois a conta de desenvolvedor gratuita apenas te permite buscar até 7 dias atrás. Além disso, foi muito gratificante poder trabalhar utilizando ferramentas que aprendemos e ferramentas que tivemos que aprender para poder concluir nossa proposta, além de trabalhar ao lado de profissionais tão competentes e esforçados. Para cada frente, temos mais passos a serem dados.

Para a parte que envolve análise com tweets, com certeza fazer uma análise que envolva uma extração que permita uma análise e filtragem de robôs, bem como manter emojis para uma análise de sentimentos mais ampla. Todavia, isso só será possível para análises futuras. Já para a análise de direcionamento de recursos dentro do estado de São Paulo, como próximos passos, pretendemos utilizar econometria geoespacial para modelagem dos dados por município. Como foram utilizadas informações de rendimentos médios de 2018, ainda é preciso trazê-los para o valor presente, seja por atualização com dados mais recentes da RAIS, quando disponíveis, ou por algum indicador econômico a escolha, como o IGP-M.

Agradecemos profundamente pela oportunidade de realizar este trabalho e pela atenção dada a este artigo.

--

--

Beatriz Yumi Simoes de Castro

ela/dela | data analysis | entusiasta de data science e machine learning