공공 데이터를 활용한 기업별 평균 연봉 데이터 구축

김태현
saraminlab
Published in
5 min readNov 22, 2021

공공 데이터(Open Data)는 데이터베이스, 전자화된 파일 등 공공기관이 법령 들에서 정하는 목적을 위하여 생성 또는 취득하여 관리하고 있는 광(光) 또는 전자적 방식으로 처리된 자료 또는 정보이다.

정부는 공공 데이터 포털을 운영하고 있으며, 이를 통해 공공기관이 생성 또는 취득하여 관리하고 있는 다양한 공공 데이터를 적극적으로 개방하고 있다. 공공 데이터 포털에서는 2021년 11월 21일 기준 65,633건의 공공 데이터를 파일데이터, 오픈 API 등 다양한 형태로 제공하고 있다.

공공 데이터 포털 메인화면

이번 포스팅에서는 공공 데이터 포탈에서 제공하는 데이터 중 아래 두 가지 데이터를 활용하여 기업별 평균 연봉 데이터를 구축하는 방법에 대해서 설명하고자 한다.

1) 금융감독원_사업보고서 주요정보_직원현황
2) 국민연금공단_국민연금 가입 사업장 내역

1) 금융감독원_사업보고서 주요정보 직원현황

증권을 발행하거나 상장한 기업들은 공시의무를 가지고 있다. 공시의무가 있는 기업은 K-IFRS, 종속회사 보유, 자산총액, 별도기준, 연결기준에 따라 다르지만 사업연도 종료 후 최대 120일 이내 사업보고서를 제출하여야 한다. 따라서 공시의무가 있는 기업들은 오픈 API를 이용하면 정확한 평균 연봉 데이터를 주기적으로 수집할 수 있다.

직원 현황 조회 API 응답 결과
(OpenAPI ) 직원 현황 정보 응답 결과

직원 현황 정보 API의 응답 결과에는 직원수, 연간 급여 총액(연봉*직원수), 1인 평균 급여액(평균연봉) 등이 포함되어 있다. 여기서 1인 평균 급여액은 연간 총 지급된 연봉, 인센티브, 각종 수당 등 총 보수 총액을 월 평균 인원으로 나눈 금액이다. 즉, 영끌* 기준 세전 평균 연봉이라고 보면 된다. 이는 기업에서 직접 제출한 자료이므로 신뢰도가 높은편이다.

*영끌) ‘영혼까지 끌어모으다’를 줄여부르는 신조어

다만 사람이 직접 입력하는 데이터이다 보니 값이 비어있거나 잘못 입력된 데이터가 존재한다. 그러므로, 데이터를 수집한 후 기술 통계(Descriptive statistics)를 이용하여 데이터 분석하고 정제하는 과정이 필요하다. 이러한 과정을 거치게 되면 공시의무를 가진 약 2,700개 기업에 대해 1인 평균 급여액 데이터를 구축할 수 있다.

2) 국민연금공단_국민연금 가입 사업장 내역

공시의무가 없는 기업에 대해서는 공공 데이터 중 국민연금 가입 사업장 내역 데이터를 활용하여 기업별 평균 연봉을 추정할 수 있다.

국민연금이란 사회사회보험의 일종으로 의무적 4대 보험 중 하나이다. 따라서 1인 이상의 근로자를 고용한 사업장이라면 모두 국민연금 당연 적용사업장에 해당하기 때문에 의무적으로 가입하여야 한다.

공공 데이터 포털에서는 매월 국민연금에 가입한 사업장 내역을 제공하고 있으며 해당 데이터는 약 530,000건으로 가입자수와 당월 고지금액이 명시되어 있다. 국민연금은 기준 월 소득금액의 9% (근로자 4.5%, 사업주 4.5%)를 납부하기 때문에 당월고지금액과 가입자수를 이용하면 각 사업장(기업)의 대략적인 평균 연봉을 계산할 수 있다.

(파일데이터) 국민연금 가입 사업장 내역

다만 국민연금 데이터에도 사소한 문제가 몇 가지 존재한다.
첫 번째 문제는 공시정보의 문제와 마찬가지로 일부 사업장의 경우 가입자 수 대비 당월고지금액이 비정상적으로 높거나 낮은 경우가 존재한다. 이러한 경우 사분범위(InterQuartile Range) 정보를 이용하여 필터링(Filtering)을 적용함으로써 이상치(Outlier)를 제거하였다.

두 번째 문제는 사업자 번호를 앞 여섯 자리 까지 밖에 제공하지 않는다는 것이다. 완전한 사업자 번호가 없으면 국민연금 데이터에서 추출한 연봉정보와 사람인 기업정보를 정확하게 맵핑(Mapping)할 수 없게 된다. 정확한 데이터 제공을 위해 사업자 번호 앞 여섯 자리와 함께 사업장명, 우편번호 데이터를 함께 사용하여 기존 기업정보 데이터와 맵핑하는 방법으로 기업별 평균 연봉 데이터를 구축하였다.

세 번째 문제는 국민연금 납부액의 경우 상한액과 하한액이 존재한다는 점이다. 2020년 기준 국민연금 기준소득월액의 상한액, 하한액은 각각 503만 원, 32만 원으로 해당 범위를 벗어나는 근로자가 많을수록 국민연금 당월고지금으로 추정한 평균 연봉은 부정확해진다. 이러한 문제를 해결하기 위해 공시정보와 국민연금으로 추정한 평균 연봉 값들에 대해 회귀분석(Regression)을 수행하고 보정함수를 적용하였다.

지금까지 공공 데이터를 활용해 기업별 평균 연봉 데이터를 구축하는 방법에 대해서 알아보았다. 사람인에서는 기업별 평균 연봉 이외에도 연령별, 직종별, 직급별 연봉 통계를 제공하고 있는데 이를 분석 방법은 다음 포스팅에서 설명하도록 하겠다.

--

--