LBox Open: 한국어 AI Benchmark Dataset

Wonseok Hwang
LBOX Team
Published in
13 min readMay 24, 2023

최초 작성일: 2022년 3월 9일

업데이트: LBox Open이 NeurIPS 2022에 출판되었습니다!

안녕하세요, LBox(엘박스)에서 법률 AI 연구를 진행하고 있는 황원석입니다.

최근 저희 LBox는 법률 AI benchmark dataset LBox Open을 공개하였습니다.

이번 글에서는 법률 AI 연구의 최신 동향, 한국의 대표적 법률문서인 판결문의 구조, 그리고 LBox Open 데이터셋에 대해 간단히 말씀드리고자 합니다.

법률 AI 연구 동향

최근 인공지능의 자연어 이해능력이 급속도로 발전하면서 법률 AI 기술에도 큰 변화가 일어나고 있습니다. BERT를 활용한 인권법 위반 여부 판단(ACL 2019), 판결문 생성(EMNLP 2020), 해석 가능한 소송 결과 예측(AAAI 2020), 원시 데이터로 부터 소송 결과 예측(SIGIR 2021) 등 언어모델에 기반한 다양한 법률AI 연구들이 인공지능 주요학회에 발표되고 있습니다.

또한 2019년부터 “법률 분야 자연어 이해”에 관한 workshop NLLP가 인공지능 주요학회에서 매년 열리고 있는데요, 특히 작년 EMNLP 워크숍 에서는 미국 거대 법률 정보회사 LexisNexis에서 BERT를 활용한 retrieval-based legal QA system에 관한 연구를 발표한 바 있습니다. 이 system은 현재 LexisNexis의 서비스에 활용되고 있습니다.

많은 인공지능 모델이 딥러닝에 기반하는 만큼, 모델 학습을 위한 법률 AI 데이터셋 또한 활발히 만들어지고 있습니다. 최근 계약서에서 자동으로 주요 정보를 추출하기 위한 데이터셋 CUAD (NeurIPS 2021), 다국어 법률문서 분류 데이터셋 MultiEURLEX (EMNLP 2021), 인도 법령 예측 데이터셋 (AAAI 2022) 등을 비롯하여 특허문서 생성, 가석방 심문 녹취록에서 정보 추출, 그리스 법률 문서 분류, 독일어 판결문 요약, 다국어 판례 결과 예측 등의 다양한 법률 AI 데이터셋들이 발표된 바 있습니다.

판결문

위의 예시처럼 외국의 경우 다양한 법률 문서 및 데이터셋이 존재합니다. 한국에도 다양한 법률문서가 존재하며 그 대표적인 예로 판결문을 들 수 있습니다. 법률만으로 복잡다기한 사회현상을 모두 포괄하기에는 한계가 있는데 판결문은 법률의 빈 공간을 충실히 보충해주는 역할을 하기 때문에 법률데이터 중에서도 매우 중요한 데이터입니다. 그런데 이러한 법률데이터로서의 가치를 떠나 판결문은 자연어 이해 연구 관점에서 굉장히 매력적인 연구 대상입니다. “고도의 논리적 글쓰기에 훈련이 된 법조인”이 “주어진 사실관계와 양쪽 당사자의 서로 상반된 주장” 하에 “논리적 추론 과정과 그 결론”을 담고 있기 때문인데요, 예를 들어 아래 보험회사(원고)가 전동킥보드 제조회사(피고)에게 구상금을 청구한 사건에 대한 판결문은 아래와 같이 “사실관계”, “원고의 주장”, “판사의 판단”, “결론(주문)” 으로 이루어져 있습니다.

[원고] 보험 회사

[피고] 전동 킥보드 제조 회사

[사실관계]

○ 원고는 손해보험업을 영위하는 보험회사로서, 주식회사 C와 생산물배상책임보험(이하 ‘이 사건 보험계약’이라 한다)을 체결한 보험자이고, 피고는 D 전동킥보드를 제조하여 주식회사 C에 납품하는 업체이다.

○ E은 (중략) 전동킥보드를 구입하였고, (중략) 개조를 하였다.

○ (중략) 이 사건 전동킥보드를 충전하던 중 화재가 발생하였고 (중략) … [(원고의)청구 취지] 피고는 원고에게 95,569,454원 및 이에 대하여 2020. 1. 15.부터이 사건 소장 부본 송달일까지는 연5%, 그 다음날부터 각 다 갚는 날까지는 연 12%의 각 비율로 계산한 돈을 지급하라.

[원고의 주장]

피고가 제조한 이 사건 전동킥보드 (중략) 전기적 결함으로 인하여 이 사건 화재가 발생한 것이므로, 피고는 (중략) 원고에게 그 보험금 상당액을 지급할 의무가 있다.

[판사의 판단]

(중략)제조물 결함으로 인한 배상책임이 인정되기 위하여는, (중략) 해당 제조물의 결함 없이는 (중략) 발생하지 아니한다는 사실이 (중략) 증명되어야 한다. 그런데 (중략) 전동킥보드를 개조함으로써 그 개조 과정의 하자 등으로 인하여 발생한 것일 가능성이 있다는 점에서 이 사건 전동킥보드 배터리 등 자체의 결함으로 인하여 발생한 것이라고 단정하기 어렵고 달리 이를 인정할 만한 충분한 증거가 없다(중략) [판사의 결론] 원고의 청구를 기각한다.

이러한 판결문을 기초로 “특정 판결문과 비슷한 사실관계 혹은 논리구조를 갖고 있는 판결문을 찾을 수 있을까?”, “주어진 질문에 대한 정답을 담고 있는 판결문의 특정 부분을 찾아 낼 수 있을까?”, “주어진 사실관계와 주장으로부터 판결 결과를 추론할 수 있을까?” 등 여러 흥미로운 인공지능 연구가 가능해집니다.

한국어 법률 AI 데이터셋

최근 AI허브에서는 법령 및 판결문을 포함하는 전문분야 말뭉치를 공개한 바 있습니다. 이 말뭉치는 최근 4년간(2018년-2021년) 선고된 판례 2,000여건을 포함해 약 6,000개의 판결문들로 이루어져 있습니다. 하지만 3심에 해당하는 대법원 판례가 약 70%를 차지한다는 점(하급심(1심, 2심)이 부족), 태스크가 객체인식(NER) 하나에 제한되어 있다는 점, 최신 판례가 부족하다는 점에서 데이터셋에 편향이 있고 보완의 여지가 있다고 할 수 있습니다. 이러한 상황에서 저희 LBox는 인공지능 연구 커뮤니티 활성화를 위해 최신 판례와 상하급심 판례가 균형있게 들어 있는 15만 개의 판결문을 기초로 1개의 말뭉치와 3개의 AI 태스크로 이루어진 한국어 법률 AI 데이터셋 LBox Open을 공개하게 되었습니다.

LBox Open 데이터셋

LBox Open은 case_corpus, casename_classification, statute_classification, summarization 4가지 데이터셋으로 이루어져 있으며 대한민국 법원에서 선고된 판결문을 바탕으로 합니다.

case_corpus

판결문 말뭉치입니다. 국가법령정보센터의 OPEN API 로부터 약 8만 개의 판결문, LBox database로부터 약 7만 개의 판결문을 취합하여 총 15만 개(264M tokens, KLUE tokenizer 기준)의 판결문을 담았습니다. 각각의 예제는 “주문”, “청구 취지”, “항소 취지”, “이유”로 이루어져 있습니다. 약 6만 개의 최근 4년간(2018–2021) 선고된 판결문을 포함하고 있으며 대법원 판례의 비중은 약 40%로 절반 이상이 다양한 사실관계를 담고 있는 하급심 판례로 이루어져 있습니다.

{

“판결문”: “주문\n피고인을 징역 6개월에 처한다.\n다만, 이 판결 확정일로부터 1년간 위 형의 집행을 유예한다.\n\n이유\n범 죄 사 실\n1. 사기\n피고인은 2020. 12. 15. 16:00경 경북 칠곡군 B에 있는 피해자 C이 운영하는 ‘D’에서, 마치 정상적으로 대금을 지급할 것처럼 행세하면서 피해자에게 술을 주문하였다.\n그러나 사실 피고인은 수중에 충분한 현금이나 신용카드 등 결제 수단을 가지고 있지 않아 정상적으로 대금을 지급할 의사나 능력이 없었다.\n그럼에도 피고인은 위와 같이 피해자를 기망하여 이에 속은 피해자로부터 즉석에서 합계 8,000원 상당의 술을 교부받았다.\n2. 공무집행방해\n피고인은 …”

}

casename_classification

주어진 사실관계로부터 소송 사건명을 예측하기 위한 데이터셋입니다. 총 100개의 주요 소송 유형에서 각각 100개씩 판결문을 추출하였으며, 총 10,000개의 예제로 이루어져 있습니다.

{

소송사건명”: “감염병의예방및관리에관한법률위반”,

“사실관계”: “질병관리청장, 시·도지사 또는 시장·군수·구청장은 제1급 감염병이 발생한 경우 감염병의 전파방지 및 예방을 위하여 감염병의심자를 적당한 장소에 일정한 기간 격리시키는 조치를 하여야 하고, 그 격리조치를 받은 사람은 이를 위반하여서는 아니 된다. 피고인은 해외에서 국내로 입국하였음을 이유로 2021. 4. 21.경 감염병의심자로 분류되었고, 같은 날 창녕군수로부터 ‘2021. 4. 21.부터 2021. 5. 5. 12:00경까지 피고인의 주거지인 경남 창녕군 B에서 격리해야 한다’는 내용의 자가격리 통지서를 수령하였다. 1. 2021. 4. 27.자 범행 그럼에도 불구하고 피고인은 2021. 4. 27. 11:20경에서 같은 날 11:59경까지 사이에 위 격리장소를 무단으로 이탈하여 자신의 승용차를 이용하여 경남 창녕군 C에 있는 ‘D’ 식당에 다녀오는 등 자가격리 조치를 위반하였다. 2. 2021. 5. 3.자 범행 피고인은 2021. 5. 3. 10:00경에서 같은 날 11:35경까지 사이에 위 격리장소를 무단으로 이탈하여 자신의 승용차를 이용하여 불상의 장소를 다녀오는 등 자가격리 조치를 위반하였다.”

}

statute_classification

주어진 사실관계에 적용되는 법률을 예측하기 위한 데이터셋입니다. 46개의 주요 소송 유형에서 각각 60개씩 판결문을 추출하였으며, 총 2,760개의 예제로 이루어져 있습니다. 169개의 법조항 중 적용되는 항목을 분류하는 multi-label classification 태스크입니다.

{

“소송사건명”: “사문서위조, 위조사문서행사”,

“적용법령”: [ “형법 제231조”, “형법 제234조” ],

“사실관계”: “1. 사문서위조 피고인은 2014. 5. 10.경 서울 송파구 또는 하남시 이하 알 수 없는 장소에서 영수증문구용지에 검정색 볼펜을 사용하여 수신인란에 ‘A’, 일금란에 ‘오천오백육십만원정’, 내역 란에 ‘2010가합7485사건의 합의금 및 피해 보상금 완결조’, 발행일란에 ‘2014년 5월 10일’이라고 기재한 뒤, 발행인 옆에 피고인이 임의로 만들었던 B의 도장을 찍었다. 이로써 피고인은 행사할 목적으로 사실증명에 관한 사문서인 B 명의의 영수증 1장을 위조하였다. 2. 위조사문서행사 피고인은 2014. 10. 16.경 하남시 이하 알 수 없는 장소에서 피고인이 B에 대한 채무를 모두 변제하였기 때문에 B가 C회사에 채권을 양도한 것을 인정할 수 없다는 취지의 내용증명원과 함께 위와 같이 위조한 영수증 사본을 마치 진정하게 성립한 문서인 것처럼 B에게 우편으로 보냈다. 이로써 피고인은 위조한 사문서를 행사하였다.”

}

summarization

주어진 판결문을 요약하기 위한 데이터셋입니다. 국가법령정보센터의 OPEN API 를 이용하여 대법원 판결문과 해당 요약문(판결요지)으로 이루어진 20,000개의 예제를 만들었습니다. 판결문과 판결요지의 평균 token 개수는(KLUE tokenizer 기준) 각각 527개, 133개입니다.

{

“판결요지”: “[1] 피고와 제3자 사이에 있었던 민사소송의 확정판결의 존재를 넘어서 그 판결의 이유를 구성하는 사실관계들까지 법원에 현저한 사실로 볼 수는 없다. 민사재판에 있어서 이미 확정된 관련 민사사건의 판결에서 인정된 사실은 특별한 사정이 없는 한 유력한 증거가 되지만, 당해 민사재판에서 제출된 다른 증거 내용에 비추어 확정된 관련 민사사건 판결의 사실인정을 그대로 채용하기 어려운 경우에는 합리적인 이유를 설시하여 이를 배척할 수 있다는 법리도 그와 같이 확정된 민사판결 이유 중의 사실관계가 현저한 사실에 해당하지 않음을 전제로 한 것이다.\n\n\n[2] 원심이 다른 하급심판결의 이유 중 일부 사실관계에 관한 인정 사실을 그대로 인정하면서, 위 사정들이 ‘이 법원에 현저한 사실’이라고 본 사안에서, 당해 재판의 제1심 및 원심에서 다른 하급심판결의 판결문 등이 증거로 제출된 적이 없고, 당사자들도 이에 관하여 주장한 바가 없음에도 이를 ‘법원에 현저한 사실’로 본 원심판단에 법리오해의 잘못이 있다고 한 사례.”,

“판결문”: “주문\n원심판결을 파기하고, 사건을 광주지방법원 본원 합의부에 환송한다.\n\n이유\n상고이유를 판단한다.\n1. 피고와 제3자 사이에 있었던 민사소송의 확정판결의 존재를 넘어서 그 판결의 이유를 구성하는 사실관계들까지 법원에 현저한 사실로 볼 수는 없다(대법원 2010. 1. 14. 선고 2009다69531 판결 참조). 민사재판에 있어서 이미 확정된 관련 민사사건의 판결에서 인정된 사실은 특별한 사정이 없는 한 유력한 증거가 되지만, 당해 민사재판에서 제출된 다른 증거 내용에 비추어 확정된 관련 민사사건 판결의 사실인정을 그대로 채용하기 어려운 경우에는 합리적인 이유를 설시하여 이를 배척할 수 있다는 법리(대법원 2018. 8. 30. 선고 2016다46338, 46345 판결 등 참조)도 그와 같이 확정된 민사판결 이유 중의 사실관계가 현저한 사실에 해당하지 않음을 전제로 한 것이다.\n2. 원심은 광주고등법원 2003나8816 판결 이유 중 ‘소외인이 피고 회사를 설립한 경위’에 관한 인정 사실, 광주지방법원 목포지원 2001가합1664 판결과 광주고등법원 2003나416 판결 이유 중 ‘피고 회사 이사회의 개최 여부’에 관한 인정 사실을 그대로 인정하면서, 위 사정들이 ‘이 법원에 현저한 사실’이라고 보았다.\n그런데 이 사건 기록에 의하면, 광주고등법원 2003나8816 판결, 광주지방법원 목포지원 2001가합1664 판결, 광주고등법원 2003나416 판결은 제1심 및 원심에서 판결문 등이 증거로 제출된 적이 없고, 당사자들도 이에 관하여 주장한 바가 없다.\n그렇다면 원심은 ‘법원에 현저한 사실’에 관한 법리를 오해한 나머지 필요한 심리를 다하지 아니한 채, 당사자가 증거로 제출하지 않고 심리가 되지 않았던 위 각 판결들에서 인정된 사실관계에 기하여 판단한 잘못이 있다. 이 점을 지적하는 상고이유 주장은 이유 있다.\n3. 그러므로 나머지 상고이유에 대한 판단을 생략한 채 원심판결을 파기하고, 사건을 다시 심리·판단하게 하기 위하여 원심법원에 환송하기로 하여, 관여 대법관의 일치된 의견으로 주문과 같이 판결한다.”

}

데이터 사용하기

위 4개의 데이터셋은 Hugging Face의 datasets 라이브러리를 통해 다음과 같이 손쉽게 사용할 수 있습니다.

from datasets import load_dataset 

# case corpus
data_corpus = load_dataset(“lbox/lbox_open”, “case_corpus”)

# casename classficiation task
data_cn = load_dataset(“lbox/lbox_open”, “casename_classification”)

# statutes classification task
data_st = load_dataset(“lbox/lbox_open”, “statute_classification”)

# case summarization task
data_summ = load_dataset(“lbox/lbox_open”, “summarization”)

Colab을 통한 데이터셋 불러오기베이스라인 모델 학습 코드도 각 링크에서 확인하실 수 있습니다.

마치며

LBox Open 은 현재 v0.1 상태로, 점진적으로 다양한 태스크 및 추가 데이터가 포함될 예정입니다. LBox에서는 현재 보유하고 있는 60만 개 이상의 판결문을 통해 독보적인 법률 AI 및 자연어 이해 연구가 가능합니다. LBox의 법률 정보 기술 혁신 여정에 동참하시고 싶은 분은 저희 채용 페이지를 참고해주시기 바랍니다!

같이 프로젝트에 참여해 주신 이동준님, 조경연님, 서민준님, 그리고 많은 피드백을 주신 이진님께 감사를 전합니다.

--

--