Banco de Dados Hospitalar a partir da pesquisa PNAD-COVID19 do IBGE

Cristiane Aline Fischer
Grupo 32
15 min readMar 17, 2024

--

Criação de banco de dados e análise sobre a pandemia no Brasil, com período de Setembro a Novembro de 2020, a partir da pesquisa PNAD COVID19 do IBGE.

Desenvolvida para a Pós-Tech Data Analytics — FIAP, em Março de 2023.

Autores:

Objetivos

  • Organizar 3 meses de microdados da pesquisa PNAD COVID19 do IBGE em um banco de dados em nuvem.
  • Traçar perfil populacional e ressaltar indicadores importantes para o planejamento, caso haja um novo surto da doença.
  • Facilitar o acesso aos dados, com um dashboard para monitoramento.

Acesse o dashboard e o código completo.

A Pandemia da COVID-19

No último dia de 2019, o mundo registrou vários casos de pneumonia na cidade de Wuhan, província de Hubei, dentro da República Popular da China. Tratava-se do vírus SARS-CoV-2, causador da doença COVID-19 — até então, o sétimo tipo de coronavírus identificado. Em 30 de janeiro de 2020, a Organização Mundial da Saúde (OMS) classificou o estado do surto no mais alto nível de alerta previsto no Regulamento Sanitário Internacional, como Emergência de Saúde Pública de Importância Internacional. Segundo a Organização Pan-Americana da Saúde (OPAS):

“A ESPII é considerada, nos termos do Regulamento Sanitário Internacional (RSI), “um evento extraordinário que pode constituir um risco de saúde pública para outros países devido a disseminação internacional de doenças; e potencialmente requer uma resposta internacional coordenada e imediata.”

A pandemia do coronavírus, espalhada globalmente a partir de janeiro de 2020, representou uma das crises mais desafiadoras do século XXI. Em dezembro de 2021, o total acumulado de óbitos chegou a 5,3 milhões de pessoas no mundo e 617 mil no Brasil. Para lidar com o surto:

  • Medidas como o isolamento social tentaram conter a propagação da doença, que desencadeou também uma recessão econômica global. Por conta disso, o Banco Central estimou retração de 4,3% do PIB nacional em 2020.
  • O governo brasileiro implementou programas de auxílio emergencial para a população, o que afetou o déficit fiscal.

PNAD COVID19

A Pesquisa Nacional por Amostra de Domicílios PNAD COVID19, desenvolvida no âmbito do Sistema Integrado de Pesquisas Domiciliares do IBGE — SIPD, objetiva quantificar pessoas com sintomas da COVID-19, além de entender seus os impactos no mercado de trabalho e escolaridade. Temas como a realização de exames e o comportamento da população durante a pandemia também são abordados.

“Para a realização da PNAD COVID19, foi utilizada como base a amostra de domicílios da PNAD Contínua do 1º trimestre de 2019. Essa amostra foi submetida a um processo de pareamento para integração com outras bases de dados, buscando-se obter números de telefone para cada domicílio. Esse procedimento resultou em uma amostra com ao menos um telefone disponível de 193.662 domicílios, representando cerca de 92% da amostra-base, os quais foram distribuídos em conjuntos de cerca de 48 mil domicílios por semana. A amostra da PNAD COVID19 é fixa, ou seja, os domicílios entrevistados no primeiro mês de coleta de dados permanecerão na amostra dos meses subsequentes até o fim da pesquisa.” — IBGE, metodologia da pesquisa.

A divulgação de resultados tem periodicidade mensal, com dimensão semanal. Os microdados, menor granularidade de dados, permitem acessar cada resposta fornecida pelos moradores em ligação telefônica aos agentes do IBGE entre Maio e Novembro de 2020. Em nota de 19 de Outubro de 2020, o IBGE informou o encerramento da coleta para 11 de Dezembro de 2020, com os resultados até Novembro de 2020.

Banco de dados

A pesquisa é composta por 2.650.459 linhas, em que cada unidade registra uma ligação realizada. De Setembro a Novembro de 2020, período selecionado para compor o bando de dados e a análise, são 1.149.197 linhas — por volta de 43,36% de todos os microdados.

A estrutura foi pensada de modo a agrupar questões que englobam grandes temas a serem acompanhados pelo hospital. As consultas em SQL (Structured Query Language) foram realizadas com o BigQuery, serviço da Google Cloud Platform. Os dados gerados estão alocados na nuvem, através de tabelas Big Query, com granularidade semanal.

A fonte dos dados nesse primeiro cenário é a disponibilizada pelo Portal Base dos Dados — PNAD COVID19. No entanto, para manutenção e segurança, também geramos dataframes no Python, com auxílios das bibliotecas Pandas e PySpark. Para tanto, os dados foram coletados em sua fonte primária — a própria pesquisa do IBGE.

Para monitoramento eficaz dos principais indicadores de risco, geramos um dashboard com 3 abas principais:

Características da população

Comportamento durante pandemia

Sintomas da COVID-19

Orientações Gerais

Tanto o banco de dados quanto o dashboard estão organizados para permitir com que o hospital visualize a criticidade da COVID-19 de modo prático, a partir de ordenações e agrupamentos que facilitam as tomadas de decisões. Como orientações gerais, em caso de novo surto:

Atenção aos locais com maior densidade populacional, por conta da alta taxa de contágio do vírus. Neste cenário, considerar como fator de risco os locais com maior quantidade de moradores por residência. Também, locais com maior quantidade de pessoas circulando nas ruas, ou tendo contato com outras pessoas, devem ser monitorados de perto.

Fonte: Média de moradores em domicílios particulares permanentes ocupados — Censo 2022, IBGE

Dar o devido grau de importância aos sintomas mais indicativos de COVID-19, isto é, que não estão comumente relacionados a outras doenças — como perda de olfato e paladar. Também, considerar agravantes a presença mais de um sintoma por indivíduo, além das idades de risco e comorbidades.

O vírus tem um período médio de incubação de 5 a 12 dias, portanto deve-se considerar a quantidade de sintomáticos com testes inconclusivos ou sem resultado, disposta no banco de dados em agrupamento semanal, como um dos indicadores de propagação da doença. Como complemento, os métodos de precaução envolvem a presença de itens de higiene em casa, além do uso de máscaras descartáveis.

A busca hospitalar combinada às taxas de internação e falta de atendimento determina a possibilidade de ocupação hospitalar. Também, a demanda por UTIs pode ser considerada a partir dos casos de intubação. Regiões com pouco número de moradores com algum plano de saúde, como a Norte, alertam para a maior procura por serviços públicos.

O relatório a seguir apresenta a análise dos pontos recomendados acima, a partir de 4 tópicos primordiais, a serem acompanhados pelo hospital em caso de novo surto: perfil da população, características clínicas dos sintomas, ocupação hospitalar e risco de propagação.

Perfil da População

------- 10 questões selecionadas
a002: Idade
a003: Sexo (biológico)
a004: Raça ou Cor
a005: Escolaridade
a006: Frequenta escola?
a006b: Você está tendo aulas presenciais?
b011: Na semana passada, devido à pandemia do Coronavírus,
em que medida o(a) Sr(a) restringiu o contato com as pessoas?
c001: Na semana passada, por pelo menos uma hora,
trabalhou ou fez algum bico?
c013: Na semana passada, o(a) Sr(a) estava em trabalho remoto
(home office ou teletrabalho)?
f0061: Quem respondeu ao questionário?

Os dados estão distribuídos entre 52,08% de pessoas com o sexo biológico feminino e 47,92% masculino. Segundo o Censo Demográfico de 2022, realizado pelo IBGE, essa relação é similar à população brasileira:

A população brasileira é composta por cerca de 104,5 milhões de mulheres e 98,5 milhões de homens, o que, respectivamente, corresponde a 51,5% e 48,5% da população residente no país. — Portal de Educação do IBGE

A região Nordeste (30,53%) é a mais representativa em relação ao total de respostas. A segunda é a região Sudeste (29,24%), seguida pelas regiões Sul (17,18%), Norte (12,39%) e Centro-Oeste (10,66%). A região Sul possui a maior idade média entre as demais (40 anos), enquanto a região Norte registra a menor (33 anos).

Com relação aos 26 estados brasileiros mais o Distrito Federal, aquele com maior quantidade de respostas é Minas Gerais (8,97%), enquanto o Amapá (0,67%) é o último do ranque. De acordo com o Censo 2022, São Paulo é o estado mais populoso, com aproximadamente 46 milhões de habitantes. Em contrapartida, o Amapá é o menos habitado, com 800 mil.

Fonte: Gabriel Zanlorenssi, com base no resultado preliminar do Censo de 2022 do IBGE.

A maior parcela de respondentes se declara parda (49,02%), seguida pelos declarados brancos (41,76%), pretos (8,22%), amarelos (0,59%), indígenas (0,39%), além de 0,02% de respostas ignoradas. Em comparação ao Censo 2022 — onde pela primeira vez desde 1991, a maior parte da população brasileira se autodeclarou parda:

Fonte Proporção de cor ou raça predominante — Censo 2022, IBGE

89,21% das pessoas disseram possuir algum grau de instrução escolar. Dos níveis de ensino, o Fundamental incompleto (33,76%) é o com maior abrangência, enquanto o com menor corresponde às pessoas com Pós-graduação, mestrado ou doutorado (2,64%).

O mês com maior desemprego foi Setembro (34,11%), seguido de Outubro (33%) e Novembro (32,9%). Ao todo, 55,27% dos respondentes declarou não ter exercido algum trabalho na última semana. Além disso, 59,11% dos respondentes sem emprego se declararam pardos ou pretos.

A faixa de renda mensal prevalecente equivale a R$801 a R$1.600 (44,54%), seguida por R$1.601 a R$3.000 (24,5%). Vale ressaltar que, enquanto 15,25% da população declara receber até R$800, outros 0,01% recebe acima de R$50.000. Outro retrato da desigualdade está no fato de que, apesar da população feminina ser mais da metade, apenas 41,61% dos indivíduos que declararam ter trabalhado são desse grupo.

Apenas 13,51% dos respondentes afirmaram ter ficado rigorosamente em casa em virtude da pandemia, enquanto outros 4,04% continuaram saindo normalmente. 82,45% das pessoas evitaram sair de casa, mas não cumpriram rigorosamente o isolamento. As regiões com maior quantidade de pessoas saindo de casa normalmente são o Nordeste e o Sudeste. Isso também se deve ao fato das modalidades de ensino e trabalho:

  • Enquanto 91,53% dos estudantes estavam em ensino remoto, outros 8,45% correspondem aos tipos híbrido ou presencial.
  • Apesar de 69,75% dos trabalhadores terem exercido suas funções de modo remoto, 30,25% tiveram de cumprir com o regime presencial.

Características clínicas dos sintomas

------- 19 questões selecionadas
b0011: Na semana passada teve febre?
b0012: Na semana passada teve tosse?
b0013: Na semana passada teve dor de garganta?
b0014: Na semana passada teve dificuldade para respirar?
b0015: Na semana passada teve dor de cabeça?
b0016: Na semana passada teve dor no peito?
b0017: Na semana passada teve náusea?
b0018: Na semana passada teve nariz entupido e/ou escorrendo?
b0019: Na semana passada teve fadiga?
b00110: Na semana passada teve dor nos olhos?
b00111: Na semana passada teve perda de cheiro ou sabor?
b00112: Na semana passada teve dor muscular?
b00113: Na semana passada teve diarreia?
b0101: Algum médico já lhe deu o diagnóstico de diabetes?
b0102: Algum médico já lhe deu o diagnóstico de hipertensão?
b0103: Algum médico já lhe deu o diagnóstico de asma,
bronquite, enfisema, doenças respiratória crônica
ou doença de pulmão?
b0104: Algum médico já lhe deu o diagnóstico de doenças do coração
(infarto, angina, insuficiência cardíaca, arritmia)?
b0105: Algum médico já lhe deu o diagnóstico de depressão?
b0106: Algum médico já lhe deu o diagnóstico de câncer?

A COVID-19 é uma doença infecciosa com alta taxa de transmissão. No Brasil, em 26 de Abril de 2020, esse número atingiu seu máximo, em que para cada 100 pessoas doentes, outras 281 foram contaminadas.

Fonte: O Globo, Taxa de transmissão da COVID-19 em 2020

A PNAD COVID19 acompanhou os principais sintomas, que podem ser classificados em:

  • Leves: febre, tosse, dor de garganta, dor de cabeça, náusea, nariz entupido e/ou escorrendo (coriza), fadiga, dor nos olhos, perda de cheiro ou sabor, dor muscular, diarreia.
  • Moderados e Graves: dificuldade para respirar, dor no peito.

O sintoma mais comum entre os respondentes foi dor de cabeça, que representa 16,38% daqueles que tiveram pelo menos um indício. De todos os sintomas declarados no período, os estados com maior quantidade foram Minas Gerais (9,45%), Rio Grande do Sul (8,06%) e São Paulo (7,77%).

Embora o mês com mais sintomas relatados tenha sido Setembro (36,4%), o mês de Novembro (33,2%) concentra maior quantidade que Outubro (30,38%). A subida desse número deve ser acompanhada de perto, sobretudo se os sintomas forem moderados e graves ou altamente indicativos da doença, como perda de olfato e paladar ou dificuldade para respirar. Tais sinais representam 7,96% de todos os sintomas e, em comparação, os estados que concentram a maior parte deles são:

  • Minas Gerais (9,31%)
  • São Paulo (8,12%)
  • Rio Grande do Sul (7,94%)
  • Santa Catarina (6,13%)
  • Goiás (6,11%)

Fatores de risco, como idade e a presença de comorbidades, devem ser considerados como agravantes para a gravidade do surto. De todos os respondentes no período, 24,22% declara idade menor que 6 anos ou a partir de 60 anos. Além disso, 32,98% das pessoas declararam ter tido pelo menos um dos diagnósticos:

  • Hipertensão arterial (46,05%)
  • Diabetes (17,79%)
  • Asma, bronquite, enfisema, doenças respiratória crônica
    ou doença de pulmão (15,13%)
  • Depressão (9,13%)
  • Doença do coração, como infarto, angina, insuficiência cardíaca, arritmia (8,59%)
  • Câncer (3,31%)

Os 5 estados com maiores quantidades de respondentes com idades de risco para a COVID-19 ou comorbidades são:

  • Minas Gerais (11,24%)
  • São Paulo (10,07%)
  • Rio de Janeiro (8,13%)
  • Rio Grande do Sul (8,2%)
  • Santa Catarina (6,52%)

Note que a diferença do primeiro ao quinto colocado no ranque é de 4,72%, taxa maior que a dos últimos 20 estados, exceto por Paraná (6,04%) e Espírito Santo (4,35%).

Enquanto Minas Gerais registra a maior quantidade de sintomas conjugados por respondente, o Rio Grande do Sul é o estado em que maior quantidade de respondentes declararam a presença de pelo menos um sintoma. Deles, 67,2% dos respondentes também possuem risco por idade ou diagnósticos sobre comorbidades.

Ocupação Hospitalar

------- 11 questões selecionadas
b002: Por causa disso (presença de sintomas),
foi a algum estabelecimento de saude?
b005: Ao procurar o hospital, teve que ficar internado
por um dia ou mais?
b006: Durante a internação, foi sedado, intubado e
colocado em respiração artificial com ventilador?
b007: Tem algum plano de saúde médico, seja particular,
de empresa ou de órgão público?
b008: O(A) Sr(a) fez algum teste para saber se
estava infectado(a) pelo coronavírus?
b009a: Fez o exame coletado com cotonete na boca e/ou nariz (SWAB)?
b009b: Qual o resultado?
b009c: Fez o exame de coleta de sangue através de furo no dedo?
b009d: Qual o resultado?
b009e: Fez o exame de coleta de sangue através da veia da braço?
b009f: Qual o resultado?

Os tipos de exames disponíveis para identificação da COVID-19 são realizados a partir da coleta de sangue, seja pelo dedo ou pelo braço, ou a coleta de secreção das mucosas nasal e/ou oral a partir do teste SWAB (ou cotonete).

Os locais com maior demanda por testes foram São Paulo (9,59%), Rio de Janeiro (8,19%) e Minas Gerais (6,61%). Já em relação aos resultados, Roraima (48,59%) apresenta maior quantidade de positivos por teste realizado. Na sequência, estão Amapá (43,11%), Pernambuco (40,46%) e Acre (39,99%). Dessa maneira, é alertado o alto risco de contágio na região Norte do país, onde 38,11% dos testes realizados têm o resultado positivo.

Para anteceder picos da doença, também faz-se importante acompanhar a representatividade de testes inconclusivos e sem resultados, uma vez que existe a possibilidade de serem casos positivos concretos. Nesse mérito, os estados mais graves são Espírito Santo (3,52%), Pernambuco (3,12%) e Amapá (3,08%). A região Sudeste, onde 2,16% de testes realizados são inconclusivos, merece ser acompanhada.

A frequência de testes realizados por cidadão é um indicador relevante para alertas sobre insumos. Desse modo, o hospital pode se preocupar com a disponibilidade de testes. O Mato Grosso e o Distrito Federal possuem a frequência mais alta: 1,21. Ou seja, para cada 10 indivíduos testados, aproximadamente 12 testes são realizados.

De todos os respondentes, 77,28% não possuem planos de saúde. Novamente, a região Norte se coloca como mais crítica — 88,43% dos respondentes carecem de plano de saúde. Isso alerta para procura pelo Sistema Único de Saúde (SUS) e a ocupação em hospitais públicos. Os 5 estados abaixo possuem taxa acima de 90% para o índice:

  • Roraima (94,3%)
  • Manaus (94,27%)
  • Amapá (91,56%)
  • Acre (90,94%)
  • Alagoas (90,77%)

Dos 11.796 respondentes que apresentaram pelo menos um sintoma entre os meses de Setembro a Novembro de 2020, 26,24% buscaram algum tipo de estabelecimento de saúde, 1,29% foi internado por pelo menos um dia, 0,29% foi sedado, intubado e colocado em respiração artificial com ventilador. Ou seja, aproximadamente um quarto dos respondentes que foram internados precisam passar pelo processo de intubação orotraqueal (IOT). O índice de sedação por paciente que busca atendimento hospitalar é de 1,1% — a cada 1.000 pacientes, 11 são entubados.

O mês com maior procura foi Setembro (34,82%) e, mesmo que esse número tenha diminuído 3,79% em Outubro (31,03%), existe aumento de 3,13% entre Novembro (34,16%) e o mês anterior. Em média, 0,51% dos respondentes não conseguiram ser atendidos — número que já mostra algum colapso presente no sistema de saúde. Com o passar dos meses, essa taxa foi crescente:

  • Setembro (0,37%)
  • Outubro (0,55%)
  • Novembro (0,62%)

As regiões com maior números de casos não atendidos são a Nordeste (0,83%) e Centro-Oeste (0,7%). No entanto, Rondônia e Amapá, ambos estados da região Norte, podem ser considerados os mais críticos, em que 1,9% de casos não foram atendidos.

A presença de casos não atendidos deve ser monitorada para não superar zero, já que diz respeito à sobrecarga. O hospital deve estabelecer um limite razoável sobre a taxa de ocupação — então, se o índice superar esse número, o hospital pode criar leitos emergenciais nos locais críticos de forma antecipada.

Durante a emergência sanitária, o Ministério da saúde apoiou estados e municípios fornecendo a infraestrutura necessária para o enfrentamento da Covid-19. As autorizações para habilitação de novos leitos oscilaram de acordo com a demanda de cada região e a solicitação dos gestores locais do Sistema Único de Saúde (SUS). — Ministério da Saúde do Brasil

A região Norte apresenta menor quantidade de moradores com plano de saúde e é também onde há menor busca por estabelecimento de saúde:

  • Sudeste (27,4%)
  • Nordeste (25,54%)
  • Sul (20,43%)
  • Centro-Oeste (13,33%)
  • Norte (13,3%)

Risco de Propagação

------- 6 questões selecionadas
f002a1: No seu domicílio há os seguintes itens básicos de
limpeza e proteção - sabão ou detergente?
f002a2: No seu domicílio há os seguintes itens básicos de
limpeza e proteção - álcool 70% ou superior (gel ou líquido)?
f002a3: No seu domicílio há os seguintes itens básicos de
limpeza e proteção - máscaras descartáveis?
f002a4: No seu domicílio há os seguintes itens básicos de
limpeza e proteção - luvas descartáveis?
f002a5: No seu domicílio há os seguintes itens básicos de
limpeza e proteção - água sanitária ou desinfetante?

Em 2020, ainda sem a vacina, os melhores métodos para prevenção da doença foram o isolamento social e a manutenção da higiene, além do uso de máscaras descartáveis. Dos itens relacionados ao cuidado com a propagação, estão:

  • Sabão ou detergente — presente em 99,67% dos lares
  • Máscaras descartáveis — em 99,52% dos lares
  • Água sanitária ou desinfetante — em 98,71% dos lares
  • Álcool 70% ou superior — em 96,31% dos lares
  • Luvas descartáveis — em 37,65% dos lares

Durante a pandemia, a OPS recomendou álcool em gel com concentração mínima de 70% para limpeza das mãos e objetos, além do uso máscaras descartáveis, principalmente em ambientes públicos.

As máscaras N95 apresentaram a maior eficiência para todos os tamanhos de partículas, em torno de 98% e com bom Fator de Qualidade, e foram consideradas como referência para avaliação de desempenho de máscaras caseiras de tecido. As máscaras cirúrgicas têm uma ótima eficiência de 89% e um bom FQ. As máscaras de TNT mostraram uma eficiência média de 78% com um excelente FQ, podendo ser considerado o melhor material para a fabricação caseira de máscaras. — Instituto de Física da USP

As moradias que não possuem algum desses itens estão concentradas na região Norte do país.

Próximos passos

Segundo a Organização Pan-Americana de Saúde (OPAS), as vacinas contra a COVID-19 chegaram ao Brasil em 21 de Março de 2021. Em caso de novo surto, o hospital deverá acompanhar, primordialmente, a taxa de vacinação por estado. Também, a COVID-19 é uma doença altamente mutável:

Na prática, a mutação de um vírus é comum principalmente naqueles que contêm ácido ribonucleico (RNA) como material genético — inclusive, esse é o caso do SARS-CoV-2. […] Para a mutação acontecer, o vírus precisa estar dentro de um hospedeiro, como o homem ou outros animais, que comprovadamente já hospedaram o coronavírus — entre eles, porcos, gatos e morcegos. A partir de então, o material genético desse vírus começa a ser replicado, mas nem sempre a sequência genética é copiada perfeitamente, e é natural que aconteçam erros durante o processo. — Blog Sabin

Fonte: Alessandro Datcho — Infográfico — Principais da COVID-19

Por isso, se faz relevante caracterizar as diferentes variantes do vírus e traçar um panorama sobre a evolução da doença.

--

--