Analizando Salarios de la EPH con R

Pablo Seibelt
Ciencia y Datos
Published in
5 min readApr 29, 2019

Introducción

El INDEC libera cada trimestre la base de datos de la Encuesta Permanente de Hogares, o EPH, la misma es una encuesta que se hace en hogares de todo el país y nos permite analizar estadísticamente a la población de nuestro pais. Desafortunadamente las encuestas realizadas entre 2007 y 2015 tienen muchos problemas metodologicos segun nos indican desde la pagina del INDEC, pero tenemos datos detallados desde 2016-2do trimestre en adelante.

Descargue los datos del tercer trimestre de 2018 (Es decir, Jul-Sep 2018) y arme un script en R para procesar los datos, investigando la fuente de datos vi que habia algunos datos que vienen de PDFs, la base de datos requiere bastante “masajeo” para analizarla, cree en base a los PDFs archivos CSV con los codigos de ocupaciones, y los códigos de actividad del mercosur. Ambos archivos csv están disponibles en el repositorio de este proyecto: https://github.com/sicarul/eph-salarios.

Algo importante a tener en cuenta es que el ritmo de la inflación desde que estos datos fueron capturados hace necesario leer los datos en forma relativa y no absoluta.

Aclaraciones de metodología

El análisis que hice se enfoca en el salario de la ocupación principal de las personas encuestadas, sin considerar el hogar al que forman parte, es decir, solo mire la base individuos. Seguro se pueden sacar otras cosas interesantes cruzando ambas tablas.

Para evitar analizar de la misma manera a alguien que trabaja 10 horas con alguien que trabaja 40 horas, voy a analizar el salario por hora, estimado en base a el salario mensual reportado y la cantidad de horas que trabajaron en la última semana, multiplicado por la cantidad de semanas promedio del año (30 / 7 =~ 4.28)

La edad

Usando la función equal_freq de funModeling, separe a los individuos de por lo menos 18 años de edad, en 4 grupos de igual cantidad de miembros, de todas las personas con una ocupación principal. Podemos ver cómo a medida que pasa el tiempo, los salarios promedio por hora van aumentando, lo cual entiendo tiene que ver con los años de experiencia permitiendo acceder a cargos de mayor responsabilidad y paga.

En todos los casos en que vean estos gráficos de cajas (box-plot) utilice la metodología de los percentiles 2 y 98 para los “bigotes”. Esto significa que la línea negra dentro de la caja indica la mediana (el percentil 50), mientras que la caja en sí delimita los cuartiles 2 y 3 (o percentiles 25 y 75), y los bigotes muestran como es el 2% inferior, y el 2% superior de la distribución. Los datos han sido ponderados según el valor PONDIIO incluido en la encuesta.

Si queremos analizar cómo impacta el nivel de formalidad en los salarios, podemos ver algo muy interesante en los rangos de edad de 39 años en adelante; aquellos que entregan factura tienen un “techo” muchisimo mas alto que el resto, sin embargo su ingreso promedio es menor al resto.

También podemos ver que en todos los rangos etarios los mejores salarios promedio son de aquellos que reciben un recibo legal, es decir aquellos que están en blanco.

La edad y la ocupación

Se pueden hacer estos gráficos con todas las ocupaciones, pero en este post decidi solo hacerlo para cuatro ocupaciones que elegi arbitrariamente, bajando el código pueden ejecutarlo para todas las otras. Es llamativo como la edad modifica el salario de formas muy distintas según la ocupación.

Poniendo GPS al salario

Los mayores salarios del país se encuentran en el área de Ushuaia / Rio Grande, probablemente (Conjetura mia) por los beneficios impositivos que gozan los habitantes de esa zona. Por el otro lado, los peores salarios se encuentran en Santiago del estero.

Aclaracion: Respecto a este tema, me comentaron varios acerca del costo de vida en la zona de Ushuaia, y es cierto, no lo tuve en cuenta en este analisis. Los beneficios que puedan tener los habitantes en esa zona son contrarrestados por los costos de vida mas altos de la zona, factor que no tengo en cuenta en este analisis, pero seria interesante para un analisis futuro, cruzar salarios con costos de vida.

Inactividad

Dentro de la EPH, hay una categoría llamada “Inactividad”, separado de los desempleados, puede ser interesante entender cómo se componen y comportan quienes están clasificados en cada uno de los tipos de inactivos.

Podemos ver dentro de las categorías de inactividad, cuantos de ellos buscaron trabajo en los últimos 12 meses, seria util saber que significa el caso “Otros”, y no entiendo porque el bajo % de pensionados buscando trabajo (Obviamente no hablo de las ultimas dos categorías de edad que deben ser en su mayoría o totalidad jubilados).

Analizando los mismos datos por ubicación, hay algo llamativo acerca del porcentaje de gente buscando trabajo de los que están en inactividad, y es que el porcentaje es muy bajo tanto en Ushuaia como en Santiago del estero, los que ya vimos que son las areas de mayor y menor remuneración promedio del país.

En la ciudad el % también es bajo, sin embargo es más alto al mirar los partidos del gran buenos aires. Esto habría igual que tomarlo con pinzas ya que las muestras al desglosar tanto los datos son bastante chicas.

Cierre

Como mencione al principio, el código utilizado en R para analizar la EPH están en este proyecto de github: https://github.com/sicarul/eph-salarios.

Hay muchas cosas para analizar en este dataset, y además se puede ver la evolucion a traves del tiempo, espero que este código les sirva a otros que quieran analizar desde otras perspectivas al EPH. El código es de libre uso sin necesidad de citar fuentes.

Es la primera vez que analizo un dataset de encuestas del INDEC, así que cualquier error que vean en mi análisis les agradezco que me lo comenten para corregirlo, muchas gracias por leer!

--

--

Pablo Seibelt
Ciencia y Datos

Software Developer, Data Science Specialist & Otaku - Wiring data at @Auth0 - I only know i know nothing - http://www.sicarul.com