Polaris : 자기소개서 코칭을 위한 자연어 처리 프로젝트

김선우
saraminlab
Published in
9 min readNov 17, 2021

신입이나 경력단절 구직자의 경우, 자기소개서는 구직활동에 있어서 매우 큰 요인으로 작용할 수 있다. 그러나 21년 3월에 사람인에서 실시된 조사에 따르면, 구직자 중 절반 이상이 자기소개서 작성에 대해서 점점 더 어려움을 호소한다는 사실을 알게 되었다.

자기소개서 작성에 대한 구직자 조사 결과

사람인LAB에서는 이러한 구직자들의 어려움을 해소하고 원활한 구직활동이 있을 수 있도록 자기소개서 작성에 도움을 줄 수 있는 서비스를 구상했다. 어두운 구직자들의 밤하늘에 나침반이 되어줄 수 있는 서비스가 되길 바라는 마음에 프로젝트명을 Polaris(북극성)로 잡고 자기소개서 작성 코칭을 지원하는 자연어 처리 서비스 연구/개발에 착수했다.

자기소개서 코칭 모델

자기소개서를 분석하고 이에 대해서 적합한 방향을 제시해줄 수 있는 자기소개서 코칭 모델을 개발했다. 개발 과정에 대해서는 크게 세 분류로 나누어서 상세히 설명하고자 한다.

자기소개서 코칭의 방향 설정

해당 프로젝트를 진행하면서 가장 먼저 생각한 것은 잘 쓴 자기소개서는 어떤 것인가에 대한 것이었다. 사람인LAB 내에서 적재된 데이터를 우선적으로 활용했다. 기존에 사람인 내 컨설팅사업본부와의 협업으로 분석했던 공공기관 컨설팅 데이터, 공채에서 활용된 합격 자기소개서, HR 컨설턴트와의 협업 데이터 등을 토대로 코칭 전반의 방향을 설정했다.

한국남부발전과의 컨설팅 협업 사례[5]는 우수사례로 대통령상을 수상하기도 했다.

이와 함께 참고문헌에 기재한 논문들[1–4]과 컨설팅 자료를 추가적으로 검토하며 크게 두 방향의 자기소개서 코칭 방향을 잡았다.

첫째는 작문 능력이다. 자기소개서는 먼저 술술 읽혀야 한다. 읽기 쉽게 잘 쓰였는지, 핵심만 간결하게 작성했는지, 어휘 구사력이 적절한지 등을 체크하는 것이다. 공식적인 글을 작성하는데 있어서 가장 기초적인 작문 방식을 코칭하는 방향을 잡았다. 추가적으로 자기소개서에서는 진부함이 치명적일 수 있기 때문에 너무 많이 활용되는 표현들을 사용하지 않았는지 등을 추가적으로 체크하기로 했다.

둘째는 외연적/내포적 의미이다. 자기소개서는 구인사 측에 자신을 홍보하는 글이다. 기업 입장에서 자기소개서를 통해 구직자를 평가하는 주요 요소는 구직자의 전문성, 직무 적합성, 업무에 대한 태도 등이다. 때문에 자신의 직무 경험이나 스킬을 구체적으로 표현하는지, 자신감이 결여되어 보이는 표현을 쓰진 않는지, 성실하게 자기소개서를 작성하고 있는지 등을 코칭하는 것을 주요한 방향으로 잡았다.

텍스트 마이닝 기반의 근거 분석

리서치 결과와 코칭 방향을 토대로 총 38개의 코칭 기준을 선정하였다. 이때 개별 코칭 기준을 구성하는 과정에서는 파라미터 선정이 필수적이었다. 예를 들어, 전문성이 잘 드러났는지를 평가하기 위해 한 단락 내에서 전문 용어 활용을 몇 회 이상 사용해야 하는가? 등의 문제에 대해서 몇 회가 적합한지를 마련하는 것이다. 이런 파라미터 선정에 대해서는 객관적인 기준이 필요하다고 판단했다.

이에 우선적으로 사람인에서 등록된 자기소개서 중 공개된 약 148만 건과 컨설팅 과정에서 확보한 우수 자기소개서 데이터를 기준해서 텍스트 마이닝을 통한 분석 근거를 마련했고 이를 통해 파라미터를 선정했다. 개별 기준에 따라서 서류 합격 여부 등을 활용하거나, 작성 일시 등을 체크하면서 분석 기준에 활용될 자기소개서를 선별 후 분석했다.

진부 표현 추출을 위한 텍스트마이닝 활용 과정

가장 대표적으로 활용한 사례는 진부한 표현을 찾는 것이었다. ‘진부함’을 체크하기 위해서 최근 3년 간 작성된 자기소개서는 제외한 후, 3년 이전의 자기소개서에서 특히 많이 활용된 표현을 찾고자 했다. 이때 자기소개서 원문에 대해 형태소 분석을 통해 명사를 추출하고 해당 명사를 포함한 어절 기준의 N-gram 토큰을 추출하였다. 해당 N-gram 토큰들의 출현 빈도를 체크하여 일정 기준 이상 많이 등장한 표현들을 진부한 표현으로 간주해 별도 DB에 적재하였다.

자연어 처리 기반의 자기소개서 코칭 모델

코칭 방향 설정과 코칭 기준에 대한 근거가 마련된 이후, 실제 자기소개서에서 코칭이 필요한 부분을 추출하는 모델을 개발했다. 전체적인 분량 체크 등의 기본적인 부분부터 형태소 분석, 개체명 인식, N-gram 기반의 구 분석 등의 복합적인 자연어 처리 기법을 활용하는 부분까지 다양하게 이뤄졌다.

자기소개서 코칭 모델의 분석 과정 예시

위 그림과 같이, 우선적으로 문장 분리 모델을 활용하여, 단락을 구성한 문장 정보를 추출한다. 문장 수준으로 형태소 분석을 거쳐 빨간색으로 칠해진 예시와 같이 특정 형태소에 대한 분석을 수행한다. 초록색으로 칠해진 예시와 같이 개체명 인식을 통해 전문 용어나 스킬, 직무 역량 등을 잘 표현하고 있는지를 평가한다. 또한 명사 추출과 어절 단위 N-gram 등의 기법을 통해 진부 표현 등의 구 분석을 수행한다.

코칭이 필요한 영역이 탐지되면, 해당 영역을 하이라이팅하고 미리 준비된 코칭 멘트 템플릿에 슬롯을 채워 제시할 수 있도록 구성했다. 구직자는 자기소개서에 대해 코칭이 필요한 부분을 한 눈에 알아볼 수 있고 어떤 방향으로 수정하면 좋을지를 안내받을 수 있다.

자기소개서 기반의 성향 및 관련 직군 분석

구직자들이 자기소개서 작성에 대한 코칭 외에도 어떤 정보를 필요로 할지 고민하다가 자기소개서에서 비춰지는 자신의 모습을 조금이라도 보여줄 수 있으면 어떨지 생각했다. 이를 위해 사람인LAB 내에서 사전에 미리 구축한 직무 성향 및 성격 유형에 대한 키워드풀과 직군에 대한 키워드풀 등을 활용하여 자기소개서에서 비춰지는 성격과 직군을 제시해줄 수 있는 모델을 구상했다.

자기소개서에 대한 성향 및 관련 직군 분석 과정

성격유형 및 실무행동 패턴 분석

사람인LAB 내에서는 사람인 내의 직업심리와 관련된 연구 조직인 HR분석팀과의 협업을 통해 구성한 성격유형 및 실무행동 패턴에 대한 키워드풀을 보유하고 있다. 해당 키워드풀은 Holland와 Hexaco 등의 성격유형 기준에 근거하여 구성되어 있으며, 키워드별 가중치를 별도로 가지고 있는 사전 형태이다.

해당 모델에서는 자기소개서 내의 형태소 분석을 활용해 키워드를 추출한다. 키워드풀을 통해 가중치를 합산하여 성격유형을 분석하여 인성적 측면과 실무 행동 패턴으로 예측되는 사항을 구할 수 있다. 물론 자기소개서가 짧게 작성이 되어 있다면 해당 성능은 부정확해지는 구조로, 일정 길이를 충족하지 않는다면 분석할 수 없도록 구성하였다.

적합 직무분야 분석

사람인에서는 지난 8월에 직무 개편을 통해 총 21종의 대표직무가 구성되었다. 이번 프로젝트에서는 해당 대표직무 군에 맞춰서 개체명 정보를 구성했다. 입력된 자기소개서에 대해서 해당 개체명 정보를 통한 개체명 인식 모델의 분석 결과를 토대로 1차적인 적합 직무를 분석한다.

이외에 성격유형 및 실무행동 패턴 분석 결과에서 도출된 사항을 토대로, 워크넷에서 공개한 직무별 적합 성향에 대한 가중치 정보를 연산한다. 이를 1차 적합 직무 분석 결과에 가중치를 추가하고 합산하여 최종적인 적합 직무분야를 분석하게끔 구성했다. 마찬가지로 자기소개서 분량이 일정 기준 이상일 경우만 분석할 수 있도록 구성하였다.

추출 요약 기법을 활용한 근거 문장 추출

자기소개서로 보이는 성격유형이나 적합직무에 대한 정보만으로는 구직자에게 큰 도움이 안될 수도 있다고 판단했다. 만약 자신이 작성한 자기소개서에서 비춰지는 모습이 자신의 원하는 모습이나 지원하는 기업의 가치관과 상이하게 된다면 어떤 부분을 바꿔야할 지도 알려주어야 한다고 생각했다.

이를 위해서 전반적인 문장 내에서 주요 문장에 해당하는 문장을 추출하고, 추가적인 가중치를 통해 분석에 대한 근거 문장을 제시하는 방향으로 모델의 구조를 잡았다. 주요 문장을 추출하기 위해 추출 자동 요약(Extractive Text Summarization) 기법을 활용했다.

추출 요약 기법을 활용한 근거 문장 추출 과정

자동 요약의 경우, PLM(Pretrained Language Model) 기반의 생성 요약 기법 등도 활용하고자 했다. 그러나 테스트 과정에서 소요 시간과 부적합한 문장 추출 결과를 확인하고 서비스에서는 제외했다.

이후, 추출 요약 기법에 초점을 맞추고 PLM 기반의 추출 요약 모델과 고전적인 방식의 TextRank 모델을 활용하였다. 해당 모델들의 주요 문장 추출 결과에서 개체명 정보 및 키워드 풀에 대한 가중치를 추가적으로 계산 후 합산하여 근거 문장을 추출하는 모델을 구성했다.

나가며

해당 프로젝트는 올해 안에 일부 기능부터 베타서비스의 형태로 공개하는 것을 목표로 하고 있다. 해당 서비스가 많은 구직자들에게 도움이 되길 바라며, 현재 많은 자기소개서를 통해 품질 평가를 진행하여 모델을 지속적으로 고도화하고 있다.

향후에는 해당 프로젝트를 조금 더 다양하게 확장하고자 한다. 지속적인 리서치를 통해 언어학적 근거를 마련하고, 텍스트 마이닝부터 PLM 등의 최신 자연어 처리 기술을 지속적으로 추가할 예정이다. 결과적으로는 자기소개서나 경력기술서 등의 텍스트 입력만으로 다양한 방향에 대한 분석이 가능한 올인원(All-in-one) 서비스를 제공하는 것을 목표로 하고 있다.

참고문헌

[1] 최지은 & 전은주 (2009), 자기소개서 쓰기 지도를 위한 교육 내용 선정 방안, 새국어교육 (82).

[2] 한현숙 (2010), 자기소개서 표현 양상 연구, 새국어교육 (85), 353–380.

[3] 박은하 (2017), 글쓰기 텍스트에 나타난 대학생들의 구어적 표현 양상: 자기소개서 쓰기를 중심으로, 리터러시연구 (19), 11–37.

[4] 김경미, 김도경, 이원동 (2018), 상담 데이터를 기반으로 한 대학생 자기소개서 오류 분석: 경북대학교<글쓰기도움터> 상담일지를 중심으로. 리터러시연구 (9.4), 229–268.

[5] 권준범, “남부발전 인턴선발, 온라인 면접으로” [참고: 2021.11.17], 에너지신문, https://www.energy-news.co.kr/news/articleView.html?idxno=69801

--

--