AI는 절대로 이력서 합격률을 계산할 수 없다.

Jinhoo Jang
saraminlab
Published in
8 min readDec 8, 2021

최근 들어 스타트업이나 해당 서비스에 도전적인 업체들은 전형적인 어그로(Aggressive)를 끌면서 서비스를 전파하고 있다. 이런 전략에 사람인은 사실 그동안 무대응으로 일관하는 경우가 많았는데 이젠 하다못해 사람인은 할 수 없다는 거짓말까지 기사로 내는 지경에 이르렀기에 이렇게 포스팅을 쓰게 되었다.

사람인에서도 이미 하고 있었다

사람인의 인공지능 부서인 사람인LAB에서는 지금 스타트업 팔로워(follower) 기업들이 하고 있는 업무를 이미 2016~2017년에 검토를 했었거나 서비스를 이미 하고 있으며, 우리가 내부적으로 적절하지 않다고 판단해서 서비스를 보류한 것들을 마치 정답인 마냥 광고를 하고 기사를 내보내고 있다.

우선 이력서 합격률에 대해서 생각해보자. 합격률이 절대로 계산이 안되는 이유는 누구나 쉽게 생각할 수 있다. 기업과 구직자는 서로 간의 만족을 해야 하는 것이고, 합격이라 하는 것은 T.O 라는 정해진 인원을 뽑아야 되는 “상대적”인 것이다.

내가 어떤 공고를 올려서 사람을 뽑는다고 했을 때, 지원자가 매우 적다면 적은 지원자들 내에서 사람을 뽑을 수 있고 지원자가 많았다면(대표적으로 공채) 풍부한 인재내에서도 정해진 사람을 뽑아야 한다.

즉 A라는 구직자가 그 기업이 좋아하는 요소를 모두 가지고 있어도 동일한 경쟁자가 나타나는 순간 합격률은 당연히 떨어지게 되는 것이다. 극단적으로 생각해봤을 때 A라는 구직자가 C라는 기업에 지원을 했는데 싫어할 요소가 없어서 그 순간 합격률 100%라 하더라도, B라는 구직자 역시 싫어할 요소가 없는데 지원하게 된다면 A와 B는 모두 합격률이 50%가 되는 것이다.

이력서의 정보가 부족하다

제대로 된 이력서(풍부한 데이터)를 서비스하지도 않는 업체의 경우, 일부의 정보만 담긴 이력서와 포트폴리오만을 가지고 구직 활동 서비스를 진행하고 있다. 이렇게 매우 적은 데이터를 가지고 100% 라고 단정 짓는 것은 마치 개미가 인간 사회를 보면서 “인간 사회는 어떻군!!”이라고 말을 하는 것과 같다.

사람인은 수많은 합격/불합격 데이터를 기반으로 이력서 및 자기소개서, 인적성 요소를 회귀 분석하여 특징을 뽑고 있으면서도 우리가 놓친 요소가 없을지 발굴하고 있는데 요소 즉, 특징이 현저히 적으면서 합격률이 높다라고 하기 이전에 모델의 신뢰도에 대한 공개 역시 해주는 것이 답이 아닐까 싶다.

마치 이런 모델은 노년층에 보수와 진보 중 뭐가 더 옳은 것인가?에 대한 설문조사를 한 후 “보수가 더 좋은 것이다”라는 편파적인 생각을 가지는 것과 같다.

수많은 통계 업체들은 설문조사의 결과를 내보낼 때 결과 뿐만 아니라 통계의 신뢰도까지 내보내는데 이력서의 정보가 부족할 경우 이런 문제에 직면할 수 있는 것이다.

결국에는 적은 데이터를 가진 곳에서 제대로 된 합격률을 계산할 수 있다고 믿는 것은 편향적인 정보만으로 결과를 해석하는 오류를 낳게 될 수 밖에 없는 것이다.

사람인은 적합도 점수를 구하고 있다

사람인에서는 구직자간의 점수를 주는 Must라는 서비스를 오픈하고 있으며 심지어 이 서비스는 특허(정보 분석 장치 및 방법, APPARATUS AND METHOD FOR ANALYZIING AN INFORMATION)까지 모두 완료(등록)가 되었다. 구직자가 해당 공고에 지원을 하면 구인사는 구직자의 적절한 점수를 통보 받고, 뽑을지 말지 결정을 할 수 있다.

사람인 머스트(Must) 서비스

이 데이터는 기업의 합격 데이터가 존재하면 합격/불합격 데이터 기반으로 좀 더 정확한 점수를 제공하게 되며 합격 데이터가 부족할 경우 유사한 기업의 데이터를 분석하여 제공을 하는 서비스로 합격률과 유사할 수 있지만, 상대적인 부분을 계산할 수 없기에 절대적인 값인 “적합도”라는 말로 대체하였다.

일류 기업들이 포기한 AI 분석

그리고 AI로 합격을 시킨다는 것이 위험하고 힘든지는 그동안 숱한 사례들로 알 수 있다. 수많은 일류 기업들이 불편한 요소들도 분석해서 자사에 AI 인재채용을 만들었다가 서비스를 왜 종료했는지 곰곰이 생각해보자. [1]

결국 우리가 민감하게 여길 수 있는 요소를 사용하지 않는 이상 합격률 예측 서비스는 반쪽 짜리 일 수 밖에 없다. 기업이 이와 같은 데이터를 보지 않겠다고 한다면 텍스트 만으로 분석이 가능한데 이미 사람인은 블라인드 자기소개서를 분석하여 인공지능 평가 시스템을 구축하였고, 성공하였다.

모 공공기관에서는 실제 평가자와 93%의 정확도로 높은 점수를 예측하였으며 이 서비스로 해당 공공기관은 우수 사례로 장관상까지 수상한 전력이 있다.

한마디로 제대로 된 합격률을 분석하려면 불편한 요소를 분석해야 되는 것이고, 불편한 요소를 분석하지 않는다면 반쪽짜리 합격 시스템이 나오며, 설사 완벽히 분석한다 하더라도 서비스를 공개하기 힘든 딜레마에 빠진다는 것이다.

편향적 분석

사람인이 그동안 인공지능 관련 적합도와 같은 서비스를 실시하였었고, 이미 블라인드 자기소개서를 분석하여 평가자와 93%의 정확도를 기록한 것을 확인하였다.

그럼 이제 타 스타트업들이 주장하는 편항적 분석에 대해서 좀 더 자세히 풀어보도록 한다. 특정 회사의 서비스를 직접 여기에 적을 수 없기 때문에 편향적 분석이 무엇인지만 알려주고자 한다.

생존자 편향의 오류

데이터 분석가라면 가장 조심해야 되는 것은 바로 “편향”이다. 위 이미지는 생존자 편향(Survivorship bias)의 오류로 2차 세계 대전 때 미군 전투기가 격추되는 것을 보강하기 위해서 총알을 맞고 돌아온 비행기들을 데이터 분석하여 자국이 많이 나온 곳을 보강했다가 오히려 아무런 효과를 얻지 못하였다.

이유는 총알 자국이 없는 부위는 바로 격추된 곳이라 비행기가 돌아오지 못했기에 오히려 더 보강이 필요했기 때문이다. 즉, 총알 자국이 없는 부위를 보강했어야 했는데 반대로 보강을 한 것이다.

이와 비슷한 사례는 다음과 같은 데이터 해석의 오류로도 나타난다. 여름에 는 바닷가에 놀러가서 해파리에게 쏘이는 사고가 자주 발생하게 되는데 이때 사람들이 아이스크림도 많이 먹는다고 해서 “아이스크림을 자주 먹으면 해파리에게 쏘이는 구나”라고 생각한다면 우리는 무슨 생각을 가질까?

편향적 분석이 된 이유

그럼 팔로워 기업들이 편향적인 분석을 하게 된 이유에 대해서 곰곰이 생각해보면 크게 2가지가 있을 것이다.

첫째, 합격자는 경력자가 많다. IT 한정(팔로워 기업들은 주로 IT관련 서비스를 많이 한다)으로 경력자는 신입과 다르게 현재 심각한 구인난이다. 공고보다 경력자가 적은 상황이며, 경력자 중심의 IT서비스가 합격률이 높게 나오는 이유도 사실 이와 같은 이유가 크다.

사람인에서 분석한 IT 경력 의 구인난(신입은 구직난이다)

경력자들은 자기소개서에 본인의 경력을 나열하는 경우가 허다한데 이렇게 경력을 그대로 분석해버리면 경력 관련 단어가 당연히 합격률이 높게 나오는 사태가 발생한다.

둘째, 팔로워 기업들은 자연어 처리에 대해서 많이 능숙하지 못한 것을 보여준다. 분석한 결과를 보더라도 외부에 공개된 “오픈소스” 형태소 분석기 수준의 분석을 진행한 것으로 보이며, 리포트에는 복합 명사는 전혀 보이지 않은데 단어를 잘개 쪼개다보니 엉뚱한 분석 결과가 나오는 경우가 많다.

그에 반해 사람인LAB은 10년 이상 대기업 및 공공기관에 유사, 표절, 문서 분류, 챗봇, 컨텐츠 기반 추천 등 자연어 처리를 한 TA/Full-Stack 전문가부터 학부 때부터 자연어 처리를 전문적으로 하여 Kaggle에서 높은 순위를 얻거나 국어정보처리시스템 경진대회 대상까지 받은 연구원들 마지막으로 언어학 박사까지 포진 되어 있는 자연어를 한정으로 보더라도 꽤 전문적인 조직이다.

내부적으로 형태소 분석기, 개체명 추출기, 오타 교정, 문단 분리, 문장 이해 등의 모든 기술을 내재화하고 있으며, 추후 다양한 자연어처리 서비스와 데이터를 사람인LAB 블로그를 통해 공개 할 예정이다.

자기소개서에서 중요한점

사람인은 단어기반으로 분석했던 것을 2017년에 이미 했었으나, 당시에 옳지 않다 판단(데이터가 편향적으로 나와서…)하여 홀랜드(Holland)와 헥사코(Hexaco)와 같은 직업 성향으로 전환을 하였고, 현재는 자기소개서를 분석할 때 문장의 의미까지 파악하는 작업을 진행중[2]이다.

그럼 자기소개서를 볼 때 무엇을 봐야 할까? 이와 같은 해답은 기존에 자기소개서를 컨설팅하는 컨설던트들의 말에서 알 수 있다. 혹은 내가 자기소개서를 봤을 때 어떤 요소로 탈락 시켰는지 보면 알 수 있을 것이다.

어휘력

자기소개서를 작성할 때 부족한 어휘력을 가지고 있을 경우 좋은 회사일수록 당연히 떨어질 가능성이 높다.

오타

사람들이 은근히 많이 실수 하는 것이 오타이다. 그러나 오타를 쓴다고 무조건 떨어지지는 않고 핵심적인 오타를 피하는 것이 중요할 것이다. 이게 실수로 쓴 것인지 혹은 정말 몰라서 쓴 것인지를 알아야 되는데 “됬”이나 “어짜피” 등과 같이 많이 실수하는 오타일 경우 오히려 더 떨어질 가능성이 높아진다.

진부한 표현

사람들이 많이 쓰는 것중에 하나가 진부한 표현이다. 예를 들어 “저는 화목한 가정에 태어나 ~~~” 이와 같이 진부한 표현이 들어가면 보자마자 탈락 시키는 사람도 있을 정도이다.

높은 토픽 등장

토픽이란 스킬일 수도 있고, 대회나 학회 등과 같은 단어일 수도 있다. 자기소개서에 토픽을 많이 언급하게 되면 전문적으로 보일 수 있다.

등등 사실 적자면 끊임없이 적을 수 있지만, 너무 많은 요소들이 있기 때문에 우선 이 정도로만 써보도록 한다. 자세한 내용들은 사람인LAB 블로그 포스팅에 자기소개서에 관련된 포스팅을 자주 쓸 예정이므로 참고하면 좋을 것이다.

참고문헌

[1] 조선일보, “이력서에 ‘여성’ 들어가면 감점”…아마존 AI 채용, 도입 취소[2] Polaris : 자기소개서 코칭을 위한 자연어 처리 프로젝트

--

--