X-Files 프로젝트 1 : 왜 파일 이력서인가?

민정
saraminlab
Published in
7 min readNov 24, 2022

이력서 형식의 다양화

구직활동을 경험한 사람이라면 한 번쯤은 이력서를 작성하게 된다. 구인·구직 플랫폼을 이용하는 구직자들은 주로 플랫폼에서 제공하는 이력서를 활용한다. 기업, 직무, 구직 기준에 따라 여러 개의 이력서를 작성하는 경우도 있다.

플랫폼에서 제공하는 이력서 외에도, 다양한 형태의 이력서가 있다. 단순히 파일에 이력서를 작성하는 파일 이력서부터, 깃허브나 블로그 같은 홈페이지를 사용하거나, 기성 홈페이지가 마음에 들지 않는 경우 개인 홈페이지를 직접 제작하기도 한다.

[그림1] 틱톡 구직 프로그램

가치관과 개성이 뚜렷한 MZ세대가 등장하며 본인을 표현하기 위한 이력서의 형태는 더욱 다양해졌다. 최근에는 SNS나 노션을 활용한 이력서도 등장하고 있고, 심지어는 동영상을 촬영하여 유튜브나 틱톡 같은 플랫폼에 업로드하는 사례도 있다. 실제로 틱톡에서는 숏폼비디오에 “#TiktokResumes” 라는 해시태그를 달고 구직활동을 하는 파일럿 프로그램을 진행하기도 했다.[1]

파일 이력서의 문제점

입사 지원을 위해서는 해당 기업에 직접 이력서를 제출하거나, 구인·구직 플랫폼에 등록된 공고를 보고 플랫폼상으로 지원하는 방법 등이 있다. 최근에는 비교적 간편한 플랫폼을 통한 입사 지원이 많다. 이때는 플랫폼에서 제공하는 이력서를 사용하여 입사 지원하는 것이 일반적이다. 따라서 구직자가 파일로 이력서를 만들더라도, 플랫폼에서 제공하는 이력서에 파일을 첨부해야 한다. 결국 파일로 이력서를 관리하는 구직자는 플랫폼에도 이력서를 작성할 수밖에 없다.

파일로 이력서를 관리하는 구직자는 파일을 수정할 때마다 플랫폼상 이력서를 수정해야 하는 불편함이 생긴다. 꼭 파일로 이력서를 관리하지 않더라도, 여러 개의 이력서를 관리하는 구직자도 마찬가지이다. “나”는 하나이고 이력서는 여러개니 내 커리어가 업데이트될 때마다 모든 이력서를 수정해야 한다. 기업마다 원하는 이력서의 형태도 다르다. 대기업이나 공기업은 자사 이력서 양식을 만들어 구인하기 때문에, 해당 기업을 목표로 하는 구직자가 작성하거나 수정해야 하는 이력서는 계속해서 늘어난다. 어쩔 수 없이 구직자는 이력서 항목 하나하나를 “복사/붙여넣기” 하며 구직활동을 하기도 모자란 시간을 낭비해야 한다.

구인사도 마찬가지이다. 자사 채용 페이지가 없는 대부분의 기업은 플랫폼에서 작성된 이력서에 의존할 수밖에 없다. 인사담당자는 지원자가 이력서에 첨부한 파일을 하나하나 다운받고 열어보며 파악하는데 시간을 오래 쏟는다. 가끔은 플랫폼 이력서에 작성되어 있지 않은 중요한 이력이 파일에 있을 수도 있다. 꼭 필요한 인재를 채용해야 하는 입장에서는 당연히 피로도가 쌓인다.

[그림2] 사람인 이력서 데이터 기반 공고 추천 서비스

사람인은 대표 서비스인 “공고추천”과 “인재pool” 에서부터 최근 런칭된 “커리어PT” 까지 이력서를 분석하여 사용자에게 인사이트를 주는 수준 높은 서비스를 제공하고 있다. 사람인 플랫폼에서 작성된 이력서는 정형화되어 파일 이력서보다 분석하기 용이하다. 하지만 파일 이력서는 어떠한 형식이 들어올지 모르기 때문에 분석 난이도가 높았다. 따라서 파일을 첨부한 구직자와 해당 구직자가 지원한 공고의 구인사에는 높은 수준의 서비스를 제공하기가 어려웠다.

파일 이력서를 분석해야 하는 이유

[그림3] 사람인 파일 이력서 서비스 이력서 등록 건수

이력서 형태가 다양해짐에 따라 실제로 파일 이력서를 사용하는 사례가 많아지고 있다. 사람인은 작년 6월, 파일 이력서에서 필수 항목을 추출해주는 “파일 이력서” 서비스를 런칭했다. 그림3은 사람인이 파일 이력서 서비스를 런칭한 후의 파일 이력서 등록 건수이다. 런칭 후 1년이 지나지 않아 주기성에 대한 정보는 부족하지만, 파일 이력서 등록 수가 증가하는 것은 충분히 확인이 가능하다. 이러한 추세로는 미래에 지금보다 더 다양한 이력서가 등장하고, 플랫폼에 종속된 이력서의 비율은 줄어들 것이라 예측할 수 있다.

그렇다면 파일 이력서 하나로 플랫폼에 어떠한 정보도 기재하지 않고 질 높은 사람인 서비스를 받을 수 있으면 어떨까? 파일 이력서에서 필요한 정보를 추출하여 사람인 이력서를 채울 수 있다면? 하나의 파일을 사람인에 업로드했을 때 원하는 기업이 요구한 수십 가지의 양식으로 한 번에 변환해줄 수 있다면?

구직자와 구인사, 그리고 누구나 만족할 수 있는 사람인 서비스를 제공하기 위해서 파일 이력서 분석은 필수적이다. 미지의 파일을 파싱하여 분석한다는 의미로 이 프로젝트를 X-Files 프로젝트라 명명했다.

X-Files 프로젝트 : 기업 이력서 파싱

앞서 말했지만, 이력서의 종류는 다양하다. SNS 계정을 활용할 수도 있고, 동영상을 촬영할 수도 있다. 텍스트 파일의 경우에는 더 세분된다. 1) 구인·구직 플랫폼에서 제공하는 이력서를 다운받아 다시 구인·구직 사이트에 올리는 경우, 2) 인터넷에서 다운받은 표 형태의 이력서, 3) 개인이 직접 템플릿을 만들어 활용하는 이력서 등 내용은 같지만, 양식이 다른 이력서들이 많다.

구인·구직 플랫폼에서 제공하는 이력서(이하 기업이력서)를 파일로 첨부하는 구직자는 전체 파일이 첨부된 이력서에서 약 32%[2] 이다. 전체와 비교하면 적은 비율이지만, 개인이 작성하는 이력서의 양식이 천차만별인 것을 감안하면 양식이 고정된 기업이력서의 비율은 무시할 수 없다. 자유로운 양식에 비해 파싱하기도 쉽고 사용 비율도 높아서 X-Files 프로젝트의 첫 번째 대상은 “기업이력서”로 정했다.

기업마다 이력서 양식은 조금씩 다르다. 심지어 동일한 기업의 이력서라도 시기에 따라, 인사담당자에 따라 조금씩 양식이 변경될 수 있다. 사용자가 임의로 중간에 삽입한 공백이나 특수문자도 양식에 영향을 줄 수 있다. 위와 같은 이유로, 동일한 기업이라도 같은 추출 방법을 적용하기는 적절하지 않다.

따라서 X-Files에서는 “핑거프린트” 라는 새로운 개념을 도입했다. 핑거프린트는 각 이력서의 특징을 기반으로 이력서 형태를 식별하기 위한 지문이다. 핑거프린트마다 항목별 데이터 추출에 사용되는 모델이 다르게 저장된다. 분석할 이력서의 핑거프린트를 알고 있다면, 이미 저장된 모델을 사용해 보다 정확하게 파싱할 수 있으며, 동일한 기업이라도 버전에 따라 모델을 재사용하여 유동적으로 관리할 수 있다.

[그림4] X-Files 프로젝트 전체 로직

X-Files는 크게 네 가지의 단계로 나눌 수 있다. 1) 파일을 입력하고 전처리하는 텍스트 변환 및 전처리 단계, 2) 전처리된 텍스트를 기반으로 핑거프린트를 식별하는 핑거프린트 선택 단계, 3) 선택된 핑거프린트에 등록된 모델로 항목을 추출하는 항목 추출 단계, 4) 추출된 항목을 스코어링하고 출력하는 검증 단계 이다.

입력은 pdf나 doc 형식을 갖춘 기업 이력서 파일이고, 출력은 피쳐(경력 사항, 보유 스킬…)별로 분류된 이력서의 내용들이다. 이력서 내용이 피쳐에 맞게 분류된다면, 사람인 플랫폼 이력서에 알맞게 삽입할 수 있을 것이고, 이에 따라 전보다 높은 수준의 서비스가 제공될 수 있을 것이다. 또한 해당 피쳐에 속한 내용을 알 수 있다면, 어떠한 양식의 이력서가 와도 내용을 채우는 것은 어렵지 않을 것이다.

나가며

X-Files 프로젝트의 과정은 한 개의 게시글로는 소개하기 방대한 양이기 때문에, 몇 개로 나누어 포스팅할 예정이다. 다음 포스팅은 파일에서 텍스트를 어떻게 추출하고, 전처리 하는지 자세히 다루도록 하겠다.

참고

[1] https://newsroom.tiktok.com/en-us/find-a-job-with-tiktok-resumes

[2] 학습을 위해 무작위로 수집된 파일 데이터(162건) 중 기업 이력서의 비율

[그림1] https://p16-va-tiktok.ibyteimg.com/obj/musically-maliva-obj/3dfc55bf7cd56e73373f8f34fad79e59

[그림2] https://www.saramin.co.kr/avatar-branding/

[그림3] 사람인 내부 데이터 통계 자료

--

--