NLP | Modelos e Web App para Reconhecimento de Entidade Nomeada (NER) no domínio jurídico brasileiro

4 min readDec 29, 2021

NER App de Pierre Guillou para comparar os modelos NER BERT base e large treinados no dataset jurídico brasileiro LeNER-Br

Este artigo fornece acesso aos notebooks, datasets, modelos NER (base e large) e NER App desenvolvidos a partir do dataset LeNER-Br. Esperamos que esses modelos de Reconhecimento de Entidade Nomeada (NER) no domínio jurídico brasileiro possam ajudar os interessados neste assunto.

Sumário

Reconhecimento de Entidade Nomeada (NER)
Método de finetuning do modelo de linguagem BERTimbau para o modelo NER no domínio jurídico brasileiro em 3 etapas
Notebooks, Datasets & Modelos
— Modelos de linguagem natural especializados no domínio jurídico brasileiro
— Modelos NER especializados no domínio jurídico brasileiro
Desempenho dos modelos NER
— f1 geral
— f1 das Entidades Nomeadas
NER App

Reconhecimento de Entidade Nomeada (NER)

(fonte: “Reconhecimento de Entidades Nomeadas para o Português Usando o OpenNLP”)

O Reconhecimento de Entidades Nomeadas (NER: Named Entity Recognition ou Token Classification) é uma subárea de estudo no campo de extração de informação, cujo objetivo é identificar entidades nomeadas, bem como classificá-las dentro de um conjunto de categorias pré-definidas, tais como Pessoa, Organização, Local, as quais remetem a um referente especıfico.
Nesse sentido, a entrada para um sistema de extração de entidades nomeadas é um texto em sua forma livre, e sua saída e um conjunto de textos anotados, ou seja, uma representação estruturada a partir da entrada de um texto não estruturado, como podemos ver na frase seguinte:

Método de finetuning do modelo de linguagem BERTimbau para o modelo NER no domínio jurídico brasileiro em 3 etapas

Para obter os melhores resultados possíveis, usamos um método de 3 etapas baseado na técnica do Transfer Learning:

Modelo de língua natural na linguá portuguesa: o primeiro modelo é um modelo de língua treinada para aprender o português do Brasil. Como esse modelo já existe e está disponível online em 2 versões (BERTimbau base e large), nós o utilizamos.
Modelo de linguagem natural especializado no domínio jurídico brasileiro: como o estilo de redação e o vocabulário usados no domínio jurídico são diferentes dos textos publicados nos sites Web, ajustamos por meio do finetuning o modelo BERTimbau com os textos do dataset LeNER-Br. Assim, obtivemos um modelo de linguagem natural especializado no domínio jurídico brasileiro. Deve-se notar que poderíamos ter aprimorado ainda mais esse modelo especializado, adaptando também o vocabulário do seu tokenizer.
Modelo NER especializado no domínio jurídico brasileiro: por meio do finetuning do modelo especializado com os arquivos CoNLL anotados do dataset LeNER-Br, obtivemos um modelo de Reconhecimento de Entidade Nomeada (NER) especializado no domínio jurídico brasileiro.

Notebooks, Datasets & Modelos

Modelos de linguagem natural especializados no domínio jurídico brasileiro

Para obter o modelo de linguagem natural especializado no domínio jurídico brasileiro, usamos o notebook e dataset a seguir:

notebook: Finetuning_language_model_BERtimbau_LeNER_Br.ipynb
dataset: pierreguillou/lener_br_finetuning_language_model
modelos obtidos:

— base: pierreguillou/bert-base-cased-pt-lenerbr

pierreguillou/bert-base-cased-pt-lenerbr · Hugging Face

bert-base-cased-pt-lenerbr is a Language Model in the legal domain in Portuguese that was finetuned on 20/12/2021 in…

huggingface.co

— large: pierreguillou/bert-large-cased-pt-lenerbr

pierreguillou/bert-large-cased-pt-lenerbr · Hugging Face

bert-large-cased-pt-lenerbr is a Language Model in the legal domain in Portuguese that was finetuned on 20/12/2021 in…

huggingface.co

Modelos NER especializados no domínio jurídico brasileiro

Para obter o modelo NER especializado no domínio jurídico brasileiro, usamos o notebook e dataset a seguir:

notebook: HuggingFace_Notebook_token_classification_NER_LeNER_Br.ipynb
dataset: lener_br
modelos obtidos:

— base: pierreguillou/ner-bert-base-cased-pt-lenerbr

pierreguillou/ner-bert-base-cased-pt-lenerbr · Hugging Face

ner-bert-base-portuguese-cased-lenerbr is a NER model (token classification) in the legal domain in Portuguese that was…

huggingface.co

— large: pierreguillou/ner-bert-large-cased-pt-lenerbr

pierreguillou/ner-bert-large-cased-pt-lenerbr · Hugging Face

ner-bert-large-portuguese-cased-lenerbr is a NER model (token classification) in the legal domain in Portuguese that…

huggingface.co

Desempenho dos modelos NER

f1 geral

NER base: 0.893NER large: 0.908

f1 das Entidades Nomeadas

# NER base
JURISPRUDENCIA: 0.702
LEGISLACAO: 0.884
LOCAL: 0.825
ORGANIZACAO: 0.893
PESSOA: 0.983
TEMPO: 0.966# NER large
JURISPRUDENCIA: 0.814
LEGISLACAO: 0.888
LOCAL: 0.850
ORGANIZACAO: 0.874
PESSOA: 0.984
TEMPO: 0.967

NER App

O Hugging Face Spaces permite criar e fazer upload de App usando modelos transformers. Assim, pudemos disponibilizar um App a todos para comparar os resultados dos 2 modelos NER (base e large) ajustados no domínio jurídico brasileiro.

Ner Bert Pt Lenerbr - a Hugging Face Space by pierreguillou

Discover amazing ML apps made by the community

huggingface.co

Aqui está um GIF animado do NER App:

NER App de Pierre Guillou para comparar os modelos NER BERT base e large treinados no dataset jurídico brasileiro LeNER-Br (gif animado)

Sobre o autor: Pierre Guillou é Head of AI na startup de HealthTech Laudite (Brasil), e consultor de IA no Brasil e na França. Entre em contato com ele por meio de seu perfil no LinkedIn.

NLP | Modelos e Web App para Reconhecimento de Entidade Nomeada (NER) no domínio jurídico brasileiro

Sumário

Reconhecimento de Entidade Nomeada (NER)

Método de finetuning do modelo de linguagem BERTimbau para o modelo NER no domínio jurídico brasileiro em 3 etapas

Notebooks, Datasets & Modelos

Modelos de linguagem natural especializados no domínio jurídico brasileiro

pierreguillou/bert-base-cased-pt-lenerbr · Hugging Face

bert-base-cased-pt-lenerbr is a Language Model in the legal domain in Portuguese that was finetuned on 20/12/2021 in…

pierreguillou/bert-large-cased-pt-lenerbr · Hugging Face

bert-large-cased-pt-lenerbr is a Language Model in the legal domain in Portuguese that was finetuned on 20/12/2021 in…

Modelos NER especializados no domínio jurídico brasileiro

pierreguillou/ner-bert-base-cased-pt-lenerbr · Hugging Face

ner-bert-base-portuguese-cased-lenerbr is a NER model (token classification) in the legal domain in Portuguese that was…

pierreguillou/ner-bert-large-cased-pt-lenerbr · Hugging Face

ner-bert-large-portuguese-cased-lenerbr is a NER model (token classification) in the legal domain in Portuguese that…

Desempenho dos modelos NER

f1 geral

f1 das Entidades Nomeadas

NER App

Ner Bert Pt Lenerbr - a Hugging Face Space by pierreguillou

Discover amazing ML apps made by the community

Written by Pierre Guillou