Data & Analytics

ERIC BERNAL
3 min readApr 24, 2023

--

Data Engineer, ETL, Tecnologías disponibles moderno data stack, data warehouse vs data lake, lake house.

La ingeniería de datos ha experimentado un crecimiento masivo en los últimos años. Más recientemente, de 2021 a 2022, la ingeniería de datos ha crecido un 100 %, superando incluso la del científico de datos (68 %). También tiene el cuarto volumen más alto de ofertas de trabajo en comparación con otros roles tecnológicos. Esto muestra la gran demanda de ingenieros de datos en el mercado laboral actual.

¿Qué es un ingeniero de datos?

El objetivo de un Data Engineering es construir y mantener las estructuras de datos y las arquitecturas tecnológicas necesarias para el procesamiento, ingestión e implementación a gran escala de aplicaciones que usan datos de manera intensiva. Es decir, diseñan y construyen los repositorios de datos en bruto y, a partir de ahí, recogen, transforman y preparan los datos para analizar.

De este modo, el ingeniero de datos tiene las siguientes funciones:

  • Extraer grandes cantidades de datos.
  • Depurar los datos extraídos.
  • Clasificación y organización de los datos.

Funciones y responsabilidades del ingeniero de datos

El papel del ingeniero de datos es extremadamente variado y depende completamente del tamaño de la empresa y de la tecnología e infraestructura que tenga. Las empresas con pilas tecnológicas similares pueden incluso contratar ingenieros de datos para dos propósitos completamente diferentes.

Dicho esto, las funciones y responsabilidades de los ingenieros de datos generalmente se dividen en uno de estos cuatro grupos principales:

  • generalistas
  • Especialistas en almacenamiento de datos
  • Especialistas en programación y pipelines
  • Especialistas en analítica

Las 5 mejores habilidades de ingenieria de datos

La ingeniería de datos es un campo extremadamente amplio y en evolución. Existen tantas herramientas, marcos y tecnologías que es casi imposible conocerlas y dominarlas todas. Las herramientas que elija para aprender pueden depender de la empresa para la que desee entrevistarse o del grupo de ingenieros de datos en el que se encuentre.

1. Habilidades SQL

SQL es la habilidad de ingeniería de datos más importante que debe dominar si desea ingresar al campo. Esto también implica poder trabajar con diferentes versiones de la sintaxis SQL, como NoSQL, PostgreSQL y MySQL.

2. Técnicas de modelado de datos

El modelado de datos implica saber cómo diseñar y trabajar de manera efectiva con bases de datos y almacenes para que sean optimizados y escalables. Una parte clave de la ingeniería de datos es el uso de técnicas de modelado de datos para ejecutar canalizaciones de datos, lo que lo convierte en una habilidad esencial de la ingeniería de datos.

3. Habilidades de Python

En lo que respecta a los lenguajes de programación, Python a menudo se considera uno de los más populares. Con él, puede crear canalizaciones de datos, integraciones, automatización y limpiar y analizar datos. También es uno de los idiomas más versátiles y una de las mejores opciones para aprender primero.

5. Habilidades de servicios en la nube

Modern Data Stack (MDS).

Como ingeniero de datos, hay tantas herramientas y enfoques diferentes disponibles en el mercado.

Es importante mantenerse actualizado y aprender sobre todos ellos. Además de eso, también debe aprender cómo diseñar toda la infraestructura de datos, cómo administrar y escalar el sistema y dominar habilidades avanzadas.

En esta sección, nos centraremos en aprender las habilidades de nivel avanzado necesarias para la ingeniería de datos.

Hay una lista de herramientas sobre las que puede obtener más información y comprender sus casos de uso principales.

Una herramienta que sugiero explorar es DBT (Herramienta de creación de datos), ya que muchas empresas la utilizan y está ganando popularidad en el mercado.

Sin embargo, es importante no apegarse a demasiadas herramientas, solo comprender el caso de uso principal de cada una.

Panorama de Big Data: https://mattturck.com/data2021/

--

--