NLP | Modelos e Web App para Reconhecimento de Entidade Nomeada (NER) no domínio jurídico brasileiro

Pierre Guillou
4 min readDec 29, 2021

--

NER App de Pierre Guillou para comparar os modelos NER BERT base e large treinados no dataset jurídico brasileiro LeNER-Br
NER App de Pierre Guillou para comparar os modelos NER BERT base e large treinados no dataset jurídico brasileiro LeNER-Br

Este artigo fornece acesso aos notebooks, datasets, modelos NER (base e large) e NER App desenvolvidos a partir do dataset LeNER-Br. Esperamos que esses modelos de Reconhecimento de Entidade Nomeada (NER) no domínio jurídico brasileiro possam ajudar os interessados ​​neste assunto.

Sumário

  • Reconhecimento de Entidade Nomeada (NER)
  • Método de finetuning do modelo de linguagem BERTimbau para o modelo NER no domínio jurídico brasileiro em 3 etapas
  • Notebooks, Datasets & Modelos
    — Modelos de linguagem natural especializados no domínio jurídico brasileiro
    — Modelos NER especializados no domínio jurídico brasileiro
  • Desempenho dos modelos NER
    — f1 geral
    — f1 das Entidades Nomeadas
  • NER App

Reconhecimento de Entidade Nomeada (NER)

(fonte: “Reconhecimento de Entidades Nomeadas para o Português Usando o OpenNLP”)

O Reconhecimento de Entidades Nomeadas (NER: Named Entity Recognition ou Token Classification) é uma subárea de estudo no campo de extração de informação, cujo objetivo é identificar entidades nomeadas, bem como classificá-las dentro de um conjunto de categorias pré-definidas, tais como Pessoa, Organização, Local, as quais remetem a um referente especıfico.

Nesse sentido, a entrada para um sistema de extração de entidades nomeadas é um texto em sua forma livre, e sua saída e um conjunto de textos anotados, ou seja, uma representação estruturada a partir da entrada de um texto não estruturado, como podemos ver na frase seguinte:

Método de finetuning do modelo de linguagem BERTimbau para o modelo NER no domínio jurídico brasileiro em 3 etapas

método de finetuning do modelo de linguagem BERTimbau para o modelo NER no domínio jurídico brasileiro em 3 etapas
método de finetuning do modelo de linguagem BERTimbau para o modelo NER no domínio jurídico brasileiro em 3 etapas

Para obter os melhores resultados possíveis, usamos um método de 3 etapas baseado na técnica do Transfer Learning:

  1. Modelo de língua natural na linguá portuguesa: o primeiro modelo é um modelo de língua treinada para aprender o português do Brasil. Como esse modelo já existe e está disponível online em 2 versões (BERTimbau base e large), nós o utilizamos.
  2. Modelo de linguagem natural especializado no domínio jurídico brasileiro: como o estilo de redação e o vocabulário usados ​​no domínio jurídico são diferentes dos textos publicados nos sites Web, ajustamos por meio do finetuning o modelo BERTimbau com os textos do dataset LeNER-Br. Assim, obtivemos um modelo de linguagem natural especializado no domínio jurídico brasileiro. Deve-se notar que poderíamos ter aprimorado ainda mais esse modelo especializado, adaptando também o vocabulário do seu tokenizer.
  3. Modelo NER especializado no domínio jurídico brasileiro: por meio do finetuning do modelo especializado com os arquivos CoNLL anotados do dataset LeNER-Br, obtivemos um modelo de Reconhecimento de Entidade Nomeada (NER) especializado no domínio jurídico brasileiro.

Notebooks, Datasets & Modelos

Modelos de linguagem natural especializados no domínio jurídico brasileiro

Para obter o modelo de linguagem natural especializado no domínio jurídico brasileiro, usamos o notebook e dataset a seguir:

base: pierreguillou/bert-base-cased-pt-lenerbr

large: pierreguillou/bert-large-cased-pt-lenerbr

Modelos NER especializados no domínio jurídico brasileiro

Para obter o modelo NER especializado no domínio jurídico brasileiro, usamos o notebook e dataset a seguir:

base: pierreguillou/ner-bert-base-cased-pt-lenerbr

large: pierreguillou/ner-bert-large-cased-pt-lenerbr

Desempenho dos modelos NER

f1 geral

NER base: 0.893NER large: 0.908

f1 das Entidades Nomeadas

# NER base
JURISPRUDENCIA: 0.702
LEGISLACAO: 0.884
LOCAL: 0.825
ORGANIZACAO: 0.893
PESSOA: 0.983
TEMPO: 0.966
# NER large
JURISPRUDENCIA: 0.814
LEGISLACAO: 0.888
LOCAL: 0.850
ORGANIZACAO: 0.874
PESSOA: 0.984
TEMPO: 0.967

NER App

O Hugging Face Spaces permite criar e fazer upload de App usando modelos transformers. Assim, pudemos disponibilizar um App a todos para comparar os resultados dos 2 modelos NER (base e large) ajustados no domínio jurídico brasileiro.

Aqui está um GIF animado do NER App:

NER App de Pierre Guillou para comparar os modelos NER BERT base e large treinados no dataset jurídico brasileiro LeNER-Br (gif animado)
NER App de Pierre Guillou para comparar os modelos NER BERT base e large treinados no dataset jurídico brasileiro LeNER-Br (gif animado)

Sobre o autor: Pierre Guillou é Head of AI na startup de HealthTech Laudite (Brasil), e consultor de IA no Brasil e na França. Entre em contato com ele por meio de seu perfil no LinkedIn.

--

--

Pierre Guillou

AI, Generative AI, Deep learning, NLP models author | Europe (Paris, Bruxelles, Liège) & Brazil