NLP | Modelos e Web App para Reconhecimento de Entidade Nomeada (NER) no domínio jurídico brasileiro
Este artigo fornece acesso aos notebooks, datasets, modelos NER (base e large) e NER App desenvolvidos a partir do dataset LeNER-Br. Esperamos que esses modelos de Reconhecimento de Entidade Nomeada (NER) no domínio jurídico brasileiro possam ajudar os interessados neste assunto.
Sumário
- Reconhecimento de Entidade Nomeada (NER)
- Método de finetuning do modelo de linguagem BERTimbau para o modelo NER no domínio jurídico brasileiro em 3 etapas
- Notebooks, Datasets & Modelos
— Modelos de linguagem natural especializados no domínio jurídico brasileiro
— Modelos NER especializados no domínio jurídico brasileiro - Desempenho dos modelos NER
— f1 geral
— f1 das Entidades Nomeadas - NER App
Reconhecimento de Entidade Nomeada (NER)
(fonte: “Reconhecimento de Entidades Nomeadas para o Português Usando o OpenNLP”)
O Reconhecimento de Entidades Nomeadas (NER: Named Entity Recognition ou Token Classification) é uma subárea de estudo no campo de extração de informação, cujo objetivo é identificar entidades nomeadas, bem como classificá-las dentro de um conjunto de categorias pré-definidas, tais como Pessoa, Organização, Local, as quais remetem a um referente especıfico.
Nesse sentido, a entrada para um sistema de extração de entidades nomeadas é um texto em sua forma livre, e sua saída e um conjunto de textos anotados, ou seja, uma representação estruturada a partir da entrada de um texto não estruturado, como podemos ver na frase seguinte:
Método de finetuning do modelo de linguagem BERTimbau para o modelo NER no domínio jurídico brasileiro em 3 etapas
Para obter os melhores resultados possíveis, usamos um método de 3 etapas baseado na técnica do Transfer Learning:
- Modelo de língua natural na linguá portuguesa: o primeiro modelo é um modelo de língua treinada para aprender o português do Brasil. Como esse modelo já existe e está disponível online em 2 versões (BERTimbau base e large), nós o utilizamos.
- Modelo de linguagem natural especializado no domínio jurídico brasileiro: como o estilo de redação e o vocabulário usados no domínio jurídico são diferentes dos textos publicados nos sites Web, ajustamos por meio do finetuning o modelo BERTimbau com os textos do dataset LeNER-Br. Assim, obtivemos um modelo de linguagem natural especializado no domínio jurídico brasileiro. Deve-se notar que poderíamos ter aprimorado ainda mais esse modelo especializado, adaptando também o vocabulário do seu tokenizer.
- Modelo NER especializado no domínio jurídico brasileiro: por meio do finetuning do modelo especializado com os arquivos CoNLL anotados do dataset LeNER-Br, obtivemos um modelo de Reconhecimento de Entidade Nomeada (NER) especializado no domínio jurídico brasileiro.
Notebooks, Datasets & Modelos
Modelos de linguagem natural especializados no domínio jurídico brasileiro
Para obter o modelo de linguagem natural especializado no domínio jurídico brasileiro, usamos o notebook e dataset a seguir:
- notebook: Finetuning_language_model_BERtimbau_LeNER_Br.ipynb
- dataset: pierreguillou/lener_br_finetuning_language_model
- modelos obtidos:
— base: pierreguillou/bert-base-cased-pt-lenerbr
— large: pierreguillou/bert-large-cased-pt-lenerbr
Modelos NER especializados no domínio jurídico brasileiro
Para obter o modelo NER especializado no domínio jurídico brasileiro, usamos o notebook e dataset a seguir:
- notebook: HuggingFace_Notebook_token_classification_NER_LeNER_Br.ipynb
- dataset: lener_br
- modelos obtidos:
— base: pierreguillou/ner-bert-base-cased-pt-lenerbr
— large: pierreguillou/ner-bert-large-cased-pt-lenerbr
Desempenho dos modelos NER
f1 geral
NER base: 0.893NER large: 0.908
f1 das Entidades Nomeadas
# NER base
JURISPRUDENCIA: 0.702
LEGISLACAO: 0.884
LOCAL: 0.825
ORGANIZACAO: 0.893
PESSOA: 0.983
TEMPO: 0.966# NER large
JURISPRUDENCIA: 0.814
LEGISLACAO: 0.888
LOCAL: 0.850
ORGANIZACAO: 0.874
PESSOA: 0.984
TEMPO: 0.967
NER App
O Hugging Face Spaces permite criar e fazer upload de App usando modelos transformers. Assim, pudemos disponibilizar um App a todos para comparar os resultados dos 2 modelos NER (base e large) ajustados no domínio jurídico brasileiro.
Aqui está um GIF animado do NER App:
Sobre o autor: Pierre Guillou é Head of AI na startup de HealthTech Laudite (Brasil), e consultor de IA no Brasil e na França. Entre em contato com ele por meio de seu perfil no LinkedIn.