GenAI até no Document AI 👀

Amanda Furtado Brinhosa
google-cloud-brasil
4 min readOct 16, 2023

Sim, é oficial. Generative AI também chegou no Document AI. Porém, não venho trazer a palavra de GenAI como hype e sim como ferramenta de produtividade. No Google Next ’23 foi anunciado o Public Preview das duas novas funcionalidades de GenAI no produto: Custom Extractor e o Summarizer. O blog de hoje é para mostrar pra você que está sofrendo de curiosidade por aí, então vem comigo!

Custom Extractor com Generative AI 🔖

Já era possível criar um extrator de entidades customizado dentro do Document AI em diversos idiomas. Porém, na abordagem tradicional, era necessário uma quantidade maior de exemplos, assim como o trabalho de anotar os dados acabava sendo mais cansativo. Com GenAI, agora é possível usar modelos fundacionais PRONTOS para extrair as entidades desejadas e mais rapidamente customizá-los.

Para isso, basta ir na console do Document AI, na aba Workbench e criar um novo processador de Custom Extractor (lembrando que no momento, apenas na região US está disponível essa funcionalidade de GenAI):

Na aba Get Started você irá criar os campos que deseja detectar. No exemplo abaixo, o problema é relacionado à detecção de informações de carteirinhas de plano de saúde, como Código, Data de Nascimento, Nome do Beneficiário e Validade. É possível configurar se a entidade é obrigatória ou não, se ela pode aparecer zero, uma ou mais vezes, assim como seu tipo. Por fim, você pode carregar um documento de exemplo e ver como o modelo fundacional vai se comportar.

Caso o modelo fundacional seja o suficiente, você não precisa treinar um novo. Mas se identificar que ajustes são necessários, você pode importar mais documentos, utilizar o auto labeling com o modelo base e apenas revisar e corrigir. No meu caso, como os layouts de carteirinhas são bem variados, eu optei por treinar um modelo, mas com apenas 5 documentos (não façam isso na vida real, nem sempre vai rolar 😅).

Com o seu novo modelo treinado (algo que levou poucos minutos — nem 5 — aqui com essa quantidade de exemplos), é hora de avaliá-lo. Como esperado, os resultados foram muito bons, considerando apenas dois exemplos 😂

Por fim, basta escolher qual versão você quer disponibilizar via endpoint. Tá pronto o sorvetinho. Chega a ser mágico o quão rápido se desenvolve um modelo customizado.

Summarizer 📑

Outro caso de uso muito comum relacionado à GenAI, é a sumarização de documentos. Sim, temos um milhão de tipos de ferramentas que podem fazer isso, mas uma das vantagens de usar o Document AI, além da facilidade de utilização da ferramenta em si, a sua integração e customização são entregues muito mais rapidamente e com pouco esforço.

Voltando na aba Workbench da console do DocAI, vamos criar o nosso Summarizer (que também só está disponível no US por enquanto):

Novamente, podemos testar o modelo fundacional já existente e também personalizá-lo se necessário. Vale lembrar que via interface não são aceitos arquivos muito grandes/longos, mas na documentação você encontra essas informações detalhadas.

Para exemplificar, eu peguei uma página do site do Banco Central que fala sobre Open Finance e gerei um PDF. Apesar do documento estar em PT-BR, a IA entendeu e resumiu, porém em inglês (comportamento esperado, pois o Summarizer está apenas em inglês por enquanto). Apesar disso, já dá para entendermos o grande potencial da ferramenta, além de ser amigável.

Conclusão 📝

Neste artigo, trouxemos duas novas funcionalidades GenAI no Document AI: Custom Extractor e Summarizer. Essas funcionalidades podem ajudar a acelerar o desenvolvimento de modelos personalizados e extrair insights de seus documentos com mais facilidade. Esperamos que tenha sido útil e que você experimente o GenAI no Document AI.

Deixe sua sugestão sobre o que mais gostaria de ler aqui! 📢

--

--