Fundamentos de Record Linkage e sua aplicação nas bases de dados do SUS

Igor Duarte
Datapsico
Published in
5 min readSep 6, 2021
Photo by Mika Baumeister on Unsplash

OSistema Único de Saúde do Brasil (SUS) pode ser visto como um sistema complexo que tem como principal característica a universalidade do atendimento.

Para conseguir gerenciar as informações sobre a saúde da população, existem várias bases de dados onde são armazenados registros de saúde da maior parte da população brasileira, como por exemplo o SIH (Sistema de Informações Hospitalares), SIA (Sistemas de Informações Ambulatoriais), SIM (Sistema de Informações sobre Mortalidade) e etc. (Para saber mais, acessar o site do DATASUS).

Um dos principais problemas dessas bases de dados é o fato de não possuírem um identificador unificado dos pacientes o que acaba dificultando na detecção de uma mesma pessoa nas bases distintas, ocasionando em uma dificuldade em avaliar seu histórico de saúde.

Segundo um relatório do banco mundial a unificação de registros nas bases de dados do SUS sobre os pacientes a partir de um único ID é fundamental para o acompanhamento longitudinal da saúde da população, tendo em vista que a partir de um código único é possível verificar todo o histórico de saúde do paciente dentro da rede do SUS e assim aplicar melhores intervenções e promover saúde de maneira mais eficiente.

Em um mundo perfeito, identificadores únicos seriam o ideal, mas no mundo real, sabemos que as bases de dados (principalmente aquelas complexas e robustas), possuem várias falhas que precisam ser tratadas.

Definição de Record Linkage

Pensando nisso, este post tem como propósito apresentar conceitos fundamentais sobre a técnica de Record Linkage (RL), que foi definido por Fellegi e Sunter em 1969, como sendo a tarefa de vincular registros de duas bases de dados distintas a partir de uma mesma entidade.

Para compreender melhor esse conceito, precisamos entender um pouco sobre o que significa o termo entidade em um banco de dados (BD), portanto:

Uma entidade pode ser definida como um objeto que se distingue dos demais e é representada por um conjunto de atributos. Por exemplo: Em um banco de dados de um sistema hospitalar, os atributos nome, cpf, telefone e endereço fazem parte de uma mesma entidade denominada de paciente.

Os principais aspectos da técnica de RL é a Deduplicação de dados, isto é, eliminar dados duplicados visando diminuir o volume do BD e a formação de uma nova base de dados principal a partir dos dados de origem.

Existem dois tipos principais de pareamento de registros os pareamentos determinísticos e os probabilísticos.

Pareamento determinístico: Visa avaliar se os pares de registros são exatamente iguais em um determinado conjunto de indexadores, de modo que a concordância precisa ser total para que dois registros sejam considerados como um match (par). Como por exemplo:

Exemplo de pareamento de registros com uma abordagem determinística.

Percebam que nas duas bases de dados as variáveis são do tipo texto, portanto apenas os registros que são exatamente iguais serão pareados a partir de uma abordagem determinística.

Este método é bastante indicado quando se tem um ID único em ambas as bases de dados, no caso do texto alguns pares podem ser ‘perdidos’ devido aos caracteres especiais como acentuação (a exemplo da figura acima).

Pareamento probabilístico: Visando resolver as limitações do método determinístico, o probabilístico irá permitir que em um vetor de comparação os resultados não se limitem apenas a 0 (falso) ou 1 (verdadeiro), isso quer dizer que os registros podem ser parcialmente iguais, como por exemplo:

Exemplo de pareamento de registros com uma abordagem probabilística.

Utilizando a mesma lógica do exemplo anterior, aqui vemos os mesmo sujeitos, porém com um atributo a mais (data de nascimento). Apesar do nome está escrito de maneira distinta, as datas de nascimento são idênticas e portanto, o método probabilístico vai identificar (a partir de um critério pré-definindo) que existe uma alta probabilidade de que sejam os mesmos sujeitos em bases distintas.

Para a realização do pareamento de registros é necessário realizar algumas atividades importantes.

1 — Padronização dos dados: A limpeza dos dados é algo que deve ser feito antes de qualquer análise. No processo de padronização, informações como data de nascimento devem ser formatada seguindo um formato em comum. Em algumas bases de dados as datas podem vir formatadas como DD/MM/AAAA, MM/DD/AAAA, MM/DD/AA e etc. Com isso, se faz necessário formatar da mesma forma os campos das duas bases que devem ser pareadas. Outra técnica bastante utilizada para a padronização é deixar todos os campos de texto em caixa alta e excluir caracteres especiais (Á, á, ç, Í, í, Ó, â e etc)

2 — Indexação (blocking): Visando otimizar o processamento computacional, a técnica de indexação vai estabelecer critérios de comparação com o intuito de reduzir os pares e diminuir o custo computacional quando grandes bases de dados forem pareadas, vejam o exemplo abaixo:

Exemplo de blocking; PRESTES (2017).

3 — Comparação: Avalia a similaridade total ou parcial, resultando em uma pontuação. Nesta etapa é comum utilizar modelos prontos, como por exemplo a distância de Jaro-Winkler, uma medida que tem como objetivo estabelecer uma similaridade entre uma cadeia de caracteres.

4 — Classificação: A partir de um limiar pré-determinado, a classificação irá identificar quais pares serão formados na base de dados.

FLORES (2013) utilizou a técnica de RL probabilístico nas bases de dados de nascidos vivos (SINASC) e o sistema de Mortalidade (SIM) em um estudo de coorte sobre peso ao nascer, escolaridade materna e de desfecho o óbito neonatal.

PRESTES (2017), utilizou RL probabilístico para analisar de maneira longitudinal pacientes com câncer nas bases de dados do SUS, usando registros do SIA (Sistema de Informações Ambulatoriais) e SIH (Sistema de Informações Hospitalares).

Por fim, as técnicas de RL podem ser utilizadas em diversos contextos, como por exemplo, em epidemiologia, processos de identificação de fraudes, cruzamento dados de censos estatísticos e etc.

Este artigo teve como objetivo principal apresentar alguns fundamentos das técnicas de Record Linkage. Caso tenham interesse em pesquisar mais sobre o tema, sugiro a leitura de trabalhos da Doutora Claudia Medina Coeli, uma das maiores referências brasileiras na utilização de RL em saúde coletiva.

Obrigado!

Referências:

FLORES, Patrícia Viana Guimarães. Escolaridade materna, peso ao nascer e mortalidade neonatal: análise de dois períodos no Estado do Rio de Janeiro. Tese (Doutorado Saúde Coletiva) -Instituto de Estudos de Saúde Coletiva, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2013.

PRESTES, Isaías V. Pareamento de registros das grandes bases do SUS para permitir análises longitudinais de pacientes com câncer. Tese (Doutorado Epidemiologia) — Universidade Federal do Rio Grande do Sul, Porto Alegre, 2017.

Relatório do Banco mundial, disponível em https://pubdocs.worldbank.org/en/545231536093524589/Propostas-de-Reformas-do-SUS.pdf

FELLEGI, I. P. & SUNTER, A. B., 1969. A theory for record linkage.

--

--

Igor Duarte
Datapsico

Psychologist, Master's student in psychiatry at the Federal University of Rio Grande do Sul