Legal-BERT, 법률 도메인에 특화된 언어모델 개발기

Dongjun Lee

Published in

LBOX Team

9 min readMar 5, 2023

안녕하세요, LBox ML Engineer 이동준입니다.

저희 LBox에서는 tech 블로그를 운영을 시작하였습니다. 앞으로 저희의 노하우가 담긴 글들을 작성해서 공유하고자 합니다. 많은 관심 부탁드립니다!

첫 번째 글에서는 다양한 NLP Task의 코어가 되는 법률 도메인에 특화된 언어모델 개발기에 대해서 공유드리고자 합니다.

Pre-trained Language Model (Foundation Model)

자연어 데이터를 다루는 분들은 대부분 BERT를 알고, 사용하고 계실 것 입니다. 저희 LBox 역시 transformers를 기반으로 하고 있는 다양한 PLM(Pre-trained Language Model)들을 활용하고 있습니다.

PLM은 수많은 NLP Task의 코어로서 위치하고 있기 때문에, PLM의 성능을 올리면 자연스럽게 Downstream Task의 성능까지 올릴 수 있습니다. 더욱이 Transfer Learning 으로 적은 수의 데이터에도 좋은 성능을 낼 수 있기 때문에 데이터가 항상 부족한 Real-World 에서는 PLM 이 더욱 필수가 되었습니다.

최근 공개된 Foundation Models 은 Standford 에서 다방면의 전문가들이 모여서 Foundation Model의 다양한 기회와 위기들에 대해서 200페이지가 넘는 논문에서 이야기 할 정도로 PLM이 세계적인 트렌드임을 보여주고 있습니다.

Domain Adaptation & LEGAL-BERT

이와 같이 대량의 데이터를 학습하고 세부 Task로 Fine-tuning(Adaptation) 하는 패러다임이 세계적 트렌드로 자리 잡으면서, 각 도메인에서 이 PLM을 더 잘 사용하기 위한 연구들이 진행되고 있습니다.

최근 발표된 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks 에 대해서 간략하게 이야기를 해보려고 합니다.

위 그림에서 DAPT (Domain Adapation, 일치하는 도메인에 말뭉치를 추가로 사전학습), TAPT (Task Adaptaion, 해당 Task를 추가로 사전학습) 하는 것을 의미합니다. 결과를 보면, 도메인에 따라서 약간의 차이는 있지만 대부분 기존의 PLM 보다는 DAPT, TAPT 혹은 두 가지를 같이 적용한 경우에서 성능이 오르는 것을 확인할 수 있습니다. 그렇다면 법률 도메인에서는 어떨까요?

출처: https://arxiv.org/pdf/2010.02559.pdf

LEGAL-BERT 논문은 법률 분야 역시 domain adaptation을 통한 성능 향상이 가능함을 보여주었습니다. 저자들은 일반 도메인에 학습된 BERT-BASE와 LEGAL-BERT-FP, LEGAL-BERT-SC 두 법률 도메인에 특화된 PLM을 만들어 실험을 진행하였습니다.
(b) LEGAL-BERT-FP 는 기존에 학습된 BERT를 불러와서 도메인에 특화된 코퍼스로 추가로 학습한 경우, (c) LEGAL-BERT-SC 는 법률에 특화된 코퍼스로 Vocab 도 새로 만들고, 스크래치부터 학습을 진행한 경우입니다.

여기서 저자들은 상대적으로 조금 더 어려운 Task 들인 ECHR-CASES의 MULTI-LABEL (분류 문제), CONTRACTS-NER(Tagging 문제)의 LEASE DETAILS 에서 스크래치부터 새로 학습한 `LEGAL-BERT-SC` 이 가장 좋은 성능 향상을 보이는 것을 발견하였습니다. 어려운 문제일수록, 도메인 지식을 더 많이 배운 모델이 더 좋은 성능을 낸다는 것이죠.

간단하게 정리해보면, 다음과 같습니다.

다양한 도메인에서 특화된 PLM이 더 좋은 성능을 보임이 확인되었고,
어려운 Task 일수록 도메인 지식이 더 필요하며, 도메인에 맞춰서 스크래치부터 학습하였을 때 더 성능이 좋다.

도메인에 특화된 PLM이 효과가 있다는 것을 알았으니, 실제로 엘박스에서 개발해서 사용하고 있는 법률 언어모델에 대해서 이야기해 보겠습니다.

LBox의 법률 언어모델

위 내용을 바탕으로 저희는 법률 도메인에 특화된 PLM을 스크래치부터 학습하여 준비하였습니다. 일반 도메인의 많은 한국어 PLM들(e.g. KLUE, KoBERT, KoELECTRA 등)이 공개되어 있는 반면에, 법률 도메인에 제대로 특화된 PLM이 없기 때문입니다.

Data

법률 데이터 중에서 가장 기본이 되는 데이터 중에 하나는 바로 판결문입니다.

⚖️ 판례는 시간을 통해 유사한 판결이 지속적으로 형성되면서, 일반적인 법적원리가 규범화된 것이며 법 규범으로서 성문법화되지 아니한 법이다. 즉, 법원에서 같거나 유사한 소송사건에 대해 행한 재판의 선례이다. — 판례, 위키백과 중에서

LBox 에는 수많은 판결문 데이터가 있어서 이것을 사전 학습에 활용할 수가 있습니다. 그 외에도 모두의 말뭉치, AI HUB 을 통해서 관련 데이터셋도 같이 사용하여 대략 25GB Corpus 를 확보하였습니다.

학습은 Megatron-LM을 통해서 진행하였습니다. 1조개의 파라미터를 갖는 대규모 언어모델을 포함하여, 다양한 PLM들을 재구현하면서 라이브러리의 안정성이 검증되었기 때문입니다. 그리고 추후 지금보다 더 큰 모델을 학습에도 쉽게 사용할 수 있을 것이라는 기대가 있었고, 사용성 측면에서도 transformers로 포팅해서 사용할 수 있다는 점에서 매력적이었습니다.

Megatron-LM 의 경우, BERT의 NSP(Next Sentence Prediction) 대신, ALBERT 의 SOP(Sentence Order Prediction)가 기본으로 구현이 되어있습니다.

Evaluation

모델에 대항 성능 평가는 아래 3가지 Downstream Task로 진행하였습니다.

형사사건 법령 예측 (Classification) : 판례의 범죄사실에 따라 적용되는 법령을 예측하는 문제
예시) “피고인은 2020. 6. 중순경 … 절취하였다” → “형법 제329조”
유사판례 Pair 분류 (Classification) : 두 가지 문단이 서로 유사한지, 아닌지 분류하는 문제
유사판례 검색 (Retrieval) : 전체 판례를 대상으로, 주어진 문단과 유사한 판례를 찾는 문제

먼저 분류 문제인 1, 2번 Task 에서 각각 +1.47%, +0.6%의 성능 향상이 있었습니다. 그에 비해 상대적으로 더 어려운 문제인, 주어진 문단에 대해서 전체 판례를 대상으로 가장 유사한 판례를 찾는 3번 Task의 경우, Top 1 Retrieval Accrucary 에서 약 +7.29%의 더 큰 성능 향상을 확인 할 수 있었습니다.

앞서 논문에서 살펴보았던 것처럼, 도메인 지식이 더 필요한 어려운 Task 일수록, 특화된 모델이 필요함을 확인할 수 있었습니다.

더 어려운 문제를 향해

현재 걸음마 단계인 법률 AI 에는 다양하고 재밌는 문제들이 가득합니다. 이러한 문제들을 해결하는 데 있어 도메인에 특화된 법률 언어모델이 기본이 될 것입니다. 엘박스에서는 그 누구보다 빠르게 판례를 모으고 있어서, 추후 더 많은 데이터로 더 성능이 좋은 법률 언어모델을 만들 수 있고 더 어려운 문제들을 풀 수 있을 것으로 기대가 됩니다.

다양한 법률 도메인의 문제들 혹은 이 블로그에 흥미를 느낀 분들은 아래 채용 공고를 눌러주세요!

많은 피드백을 주신 황원석님께 감사를 전합니다.
이 글은 2021년 11월 9일에 작성되고, 미디엄으로 옮겨졌습니다.

References

- Bommasani et al., 2021, On the Opportunities and Risks of Foundation Models
- Gururangan et al., 2020, Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks
- Chalkidis et al., 2020, LEGAL-BERT: The Muppets straight out of Law School
- Lan et al., 2020, ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
- Devlin et al., 2019, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- https://github.com/NVIDIA/Megatron-LM
- https://github.com/huggingface/transformers
- Deview2019 — 엄~청 큰 언어 모델 공장 가동기! (LaRva: Language Representation by Clova)
- 화해블로그 — Beauty Domain-Specific Pre-trained Language Model 개발하기