¿Qué necesitas saber ANTES de buscar trabajo como Data Scientist en LATAM?

Luis Ramirez
Ciencia y Datos
Published in
7 min readApr 4, 2018

La demanda de profesionales capacitados en análisis de datos se ha incrementado exponencialmente en los últimos 10 años. No sólo existe una gran demanda de profesionales sino que es uno de los trabajos mejor pagados en el área de la tecnología.

Fuente: Indeed Trends

Esta afirmación se realiza a partir de una tendencia observada en Estados Unidos y algunos países de Europa y Asia. Sin embargo, ¿qué podemos decir acerca de este campo laboral en latinoamérica?

El propósito de este artículo es mostrar la tendencia observada en latinoamérica y los factores que la determinan, desde los países donde posee mayor alcance hasta las competencias necesarias para obtener estos trabajos y el número de vacantes disponibles. Usualmente los datos publicados en Estados Unidos sobre índices de empleo provienen de fuentes oficiales como el Bureau of Labor Statistics, donde la información está disponible en tablas y puede descargarse en diversos formatos. Sin embargo, este sistema no se mantiene en latinoamérica y resulta más complicado aun al tratarse de varios países, por lo tanto, para este estudio se utilizaron fuentes secundarias, particularmente Indeed, Numbeo, Kaggle y Stack Overflow.

La idea inicial fue recolectar información de Indeed sobre las vacantes de trabajo disponibles en América latina: país, ciudad, descripción del trabajo y salario. Esto sería automatizado mediante web scraping, sin embargo se presentaron tres obstáculos para completar este paso.

  • La plataforma no está disponible en todos los países: por esta razón el estudio se centra en Chile, Brasil, Colombia, Argentina, Perú, México y Ecuador.
  • El término “data scientist” no tiene un equivalente directo en español: la traducción literal, científico de datos, es poco usada. Es por ello que en la búsqueda se incluyeron los términos estrechamente relacionados como Machine Learning, análisis de datos e inteligencia artificial
  • Los detalles de la vacante se alojan en dominios externos a Indeed: para la mayoría de los trabajos, la descripción detallada de las ofertas no se encuentra en Indeed, sino en publicaciones independientes. Esto hizo inviable obtener las descripciones de los trabajos ya que implicaría escribir un script de extracción de datos independiente para cada caso.

Debido a las dificultades de obtener la información necesaria de Indeed, se utilizó una fuente adicional para complementar los datos, la encuesta realizada en el 2017 por Kaggle, una de las plataformas más grandes relacionadas con el análisis de datos. Esta encuesta la respondieron 16.000 miembros de la comunidad, de los cuales 847 pertenecen a los países de interés de este artículo. Para casos puntuales como el género y formación académica se utilizaron datos de una encuesta similar realizada por Stack Overflow (SO), con el objetivo de comparar los resultados ya que esta última incluye un rango más amplio de profesiones relacionadas con la computación. Es importante aclarar que de SO las respuestas no fueron filtradas por país, como en el caso de kaggle.

Finalmente, del sitio web Numbeo se obtuvo un conjunto de datos relacionados al costo de vida e ingresos promedio para cada uno de estos países. De aqui, vemos que surgen dos grupos: El primero, conformado por Argentina, Chile y Brasil, tienen tanto el mayor costo de vida como los ingresos promedio más elevados, mientras que el segundo, comprendido por Perú, Ecuador, Colombia y México se ubican por debajo del promedio que ronda los 7000 $. Resulta interesante que para los países del segundo grupo la diferencia entre el costo de vida y los salarios es más estrecha e incluso para ecuador el costo de vida es mayor que los ingresos promedio. Estos valores fueron el punto de comparación para los salarios obtenidos en la encuesta.

De Kaggle, resulta interesante ver cómo dos de los países más desarrollados de la región, Chile y Argentina, poseen un menor número de respuestas, mientras que más de la mitad de las respuestas provienen de Brasil. Parte de este comportamiento puede atribuirse al tamaño de la población de cada país, que sigue el mismo patrón.

La encuesta de kaggle es extensa, pero entre los datos más interesantes que podemos obtener están:

  • Formación requerida.
  • Salario
  • Competitividad
  • Género

Con esto podemos responder la pregunta más frecuentes que nos hacemos al incursionar en un campo laboral: ¿Qué formación debo tener? Para carreras interdiciplinarias y recientes, como data science, pocas universidades ofrecen este titulo y en la mayoria de los casos es al menos un estudio de maestria, por lo que la respuesta no es evidente.

Pues bien, en las encuestas encontramos que la carrera más común entre los científicos de datos es computación, seguida por matemática o estadística e ingeniería eléctrica. Sin embargo, se cubre un amplio rango de carreras incluyendo ciencias sociales y de la salud. Al comprarlo con la encuesta de SO, las principales carreras son comunes en ambas listas: computacion, matematica o estadistica e ingenieria. Sin embargo, para los data scientists las carreras relacionadas a las ciencias duras y aplicadas son más relevantes.

Tan diversos como las carreras son los títulos del cargo que ocupan quienes trabajan como data scientist. Términos como minería de datos, machine learning, analista de datos e incluso administrador de bases de datos son frecuentemente utilizados de manera equivalente con data scientist.

Por otro lado, respecto al grado de estudios, los grupos más grandes poseen maestría o título de pregrado, estos cubren aproximadamente un tercio de la población cada uno.

Al comparar los resultados de la encuesta de Kaggle y SO vemos que hay una diferencia significativa en el nivel de educación, particularmente en los estudios de posgrado.

En cuanto al género, la gran mayoría de la población es masculina, rondando el 90% de los encuestados. Esto es bastante común en carreras relacionadas a ciencias o ingeniería, de hecho si comparamos los resultados con los de SO la distribución de géneros es muy similar.

Respecto a las habilidades demandadas, el lenguaje de programación más común es python, mientras que lenguajes más nuevos diseñados para procesamiento matemático pesado como Julia y Scala aún no se adoptan de manera masiva. Este comportamiento era de esperarse ya que la popularidad de python en el campo ha crecido considerablemente en los últimos años. Sin embargo, los resultados pueden estar sesgados, ya que kaggle da soporte en su plataforma a los dos primeros lenguajes de la lista: Python y R.

En cuanto a los salarios, en la encuesta se pregunta el ingreso anual. Para esta variable sólo se consideran 265 registros, ya que más de la mitad de los encuestados no proporcionó dicha información. También se ignoraron valores extremos, considerando solo como válidos ingresos anuales entre 1.000 y 200.000 $. Si bien el 50% se encuentra entre 13.000 y 45.000 $, los salarios presentan una elevada varianza y existen outliers con salarios mayores a 100.000 $.

Por esta razón se toma el valor medio de los salarios para cada país y estos valores son comparados con los datos obtenidos de numbeo.

Lo más resaltante de esta comparación es que el salario medio de los encuestados por kaggle es muy superior al salario promedio, casi cuatro veces mayor. Esto puede atribuirse, en parte, a las carreras y grados académicos que poseen quienes se desempeñan como data scientist, que cuentan en muchos casos con posgrados y/o carreras tradicionalmente bien remuneradas, como ingenierías y computación.

Otro punto importante es que la relación entre el incremento del salario y el costo de vida se mantiene para todos los casos de este estudio.

Finalmente, respecto al número de vacantes disponibles por país, los resultados son los siguientes:

Número de vacantes por pais. Estos datos fueron tomados de: https://www.indeed.com

De manera que aunque México posee el mayor número de vacantes, debido a su elevada población la relación de vacantes por habitante es bastante baja, mientras que chile surge como la opción más atractiva seguida por Argentina.

Conclusiones

En general, las tendencias reportadas en USA se mantienen en LATAM, los salarios de los data scientist son elevados respecto al promedio, python y R se mantienen como los lenguajes más populares y los estudios de posgrado son más comunes en los data scientist que en el resto de profesionales relacionados a la computación, siendo el más común el título de maestría. Si es conveniente realizar un posgrado para trabajar en el área es tema de discusión, pero ciertamente es más valioso como credencial que en el caso de otros trabajos como desarrollo web, por ejemplo.

Respecto a los países considerados, Chile surge como el más interesante para trabajos en Data Science, presentando el mayor número de vacantes disponibles en relación a su población, y uno de los salarios más apropiados en relacion al costo de vida del pais.

--

--

Luis Ramirez
Ciencia y Datos

Ingeniero electricista con dos años de experiencia en procesamiento de datos.