Extraindo insights de documentos com IA 📄

Amanda Furtado Brinhosa
google-cloud-brasil
4 min readFeb 27, 2023

Você já parou para refletir em como a maioria das transações comerciais, independentemente do ramo de atividade, começam, envolvem ou terminam com um documento? São notas fiscais, certificados, documentos de identificação, comprovante de vacina, pedidos de exame médico, contratos e por aí vai.

Além da quantidade infinita de documentos existentes, a complexidade dos mesmos aumentou exponencialmente. Podemos falar sob diversas dimensões: volume, diversidade, profundidade semântica (por exemplo, uma condição de saúde pode gerar vários tipos de arquivos, desde exames até receitas de farmácia) e conhecimento externo (quando se avalia com base em uma referência). Pensando no mercado brasileiro, no qual a língua portuguesa por si só já é um desafio para soluções de processamento de linguagem natural (NLP), tal pluralidade é ainda maior.

As empresas atualmente possuem uma mina de ouro em seus documentos, mas existe uma grande incapacidade de avaliá-los, implicando em péssimas experiências para os clientes e até ineficiência operacional. Apesar dos grandes avanços feitos com relação a dados estruturados — principalmente em ecossistemas de nuvem — os dados não-estruturados ainda seguem como um grande desafio.

Ok, mas como podemos resolver isso? 🤔

Pensando nisso, a Google Cloud lançou em 2020 a DocAI Platform, uma plataforma que permite extrair informações de documentos, desbloqueando a obtenção de insights. Apesar da data de lançamento do produto, toda a inteligência por trás da ferramenta vem de muito antes. Ela pode ser considerada uma evolução e especialização do clássico algoritmo de reconhecimento ótico de caracteres (OCR) da própria Vision API.

O que é possível fazer com Document AI? 💡

Existem três principais opções: modelos generalistas, modelos especializados e hoje também é possível customizar um modelo pré-existente ou criar um totalmente do zero. Essa última é essencial, principalmente no cenário brasileiro, já que muitos processos poderiam ser automatizados, mas dificilmente há uma padronização na formatação (muitas vezes dentro da mesma empresa!).

Além disso, há ainda a possibilidade de incluir revisores humanos, principalmente em casos sensíveis (human-in-the-loop). Para exemplificar, vamos criar um processador de formulários pela interface!

Criando processador de formulários

Na sua Google Cloud Console, na barra de busca, procure por Library — APIs & Services (você também pode acessar pela barra de navegação lateral).
Na página seguinte, busque por Cloud Document AI API:

Página da API Library após a busca pelo termo “Cloud Document AI API”

Ao clicar no resultado, selecione o botão Ativar e aguarde. Voltando para a Google Cloud Console, na barra de busca, procure por Document AI e ocorrerá o redirecionamento para a seguinte página:

Página de visão geral da Document AI

Acessando a aba Explorar Processadores, na seção General, identifique o Form Parser e clique em Criar Processador. No menu lateral à direita, coloque o nome do processador (form-parser, por exemplo) e selecione Criar. Ao finalizar, ocorrerá o redirecionamento para a seguinte página:

Página do processador de formulários pronto para uso

Seu processador está pronto para receber documentos! 🎉 Em Testar o processador ao final da página, clique em Fazer upload do documento de teste e selecione um arquivo com um dos formatos indicados (ou baixe um exemplo pronto).

Resultado do processador de formulários em um documento fictício

Veja como o processador faz a conexão dos campos com o que foi preenchido (chave-valor). Em um OCR clássico, o texto seria extraído de forma plana, ou seja, sem uma associação das informações. Muito mágico né? ✨ — Que nada, é Inteligência Artificial (IA) em ação!

Quando escolhido um processador especializado (explore a Galeria de Processadores), a diferença é que já são retornadas entidades comuns do que se está analisando. Por exemplo, numa Invoice (fatura), podemos ter o nome da empresa fornecedora — essa informação pode aparecer em diversos formatos — e isso é detectado automaticamente e extraído de forma estruturada. No exemplo fictício abaixo, destacamos a detecção do nome como supplier_name e até o código de identificação como invoice_id. Note que o documento é em PT-BR! 🇧🇷

Resultado do processador de faturas em um documento fictício

Conclusão 📝

Neste artigo, você pôde conhecer uma nova ferramenta para estruturar documentos utilizando Inteligência Artificial (sem saber nada sobre o assunto!). O ciclo de vida de um documento pode ser muito mais complexo e amplo, mas a ideia foi introduzir o assunto.

Ainda podemos falar sobre a customização de modelos na plataforma, além da arquitetura de ingestão e consumo dessa solução, assim como outras funcionalidades que podem potencializar ainda mais o seu uso. Em próximas publicações, vamos explorar um pouco mais (mas se estiver com muita curiosidade, veja a trilha de aprendizado de Document AI no Skills Boost 😀).

Deixe sua sugestão sobre o que mais gostaria de ler aqui! 📢

--

--