[데이터 분석] 코로나 전후 자영업자 소득 추이 분석 및 시각화 코드 공개

이원재(LEE, Wonjae)
2 min readApr 9, 2022

--

Post-corona Korean small businesses’ income analysis using julia language and VegaLite package

자료: 가계동향조사 마이크로데이터(DOI 10.23333/P.101006.001)

코로나 전후 자영업자 소득 추이를 분석 및 시각화한 코드와 데이터를 공개한다. 원 글 “코로나 시기에도 자영업자 평균소득은 계속 늘었다. 어떻게 그럴 수 있었을까?”를 쓰기 위해 진행한 데이터 수집 및 코딩 작업에 대한 기록이다.

우선 사용할 패키지와 분석 대상 데이터를 가져와 데이터프레임화한다. 여기서 읽는 파일은 통계청 가계동향조사 2019~2021년 마이크로데이터를 longform 데이터프레임으로 구축한 것이다.

데이터와 코드는 깃허브에 올려두었다. 분석 결과가 뜻밖이어서 여러 모로 검증했으나 결과는 같았다. 기본적 해석을 원 글에 해두었으나, 다양한 분석이 필요할 것 같다.

재난지원금과 손실보상금 등의 정책 수립을 목표한 바대로 진행하려면 데이터를 잘 뜯어보고 상황을 명징하게 파악해야 한다. 있는 그대로 현실을 인정하고 정책을 수립하지 않으면, 나중에 엉뚱한 결과가 나올 수 있다.

관심있는 분들에게 조금이나마 도움이 될 수 있으면 좋겠다는 마음에서, 그리고 코멘트를 받으면 좋겠다는 마음에서 사용한 데이터와 코드를 공개한다.

언어는 julia를 사용했는데, 큰 규모의 데이터 처리 속도가 빨라 적합했던 것 같다. 또 시각화는 VegaLite 패키지를 사용했는데, Grammar of Graphics를 사용하는 패키지라서 진입장벽은 있지만 일단 진입하면 이해는 쉬운 패키지이다. 다만 파이프연산을 통해 데이터프레임을 가공하는 데는 아직 r이 더 익숙하고 간편한 것 같다.

--

--