Primera entrega iniciación en SSIS

¿Qué es una ETL?

Quizá hayas escuchado este término alguna vez, pues bien, hoy veremos qué es y para qué se utilizan.

Oscar Rojas
Inteligencia de Negocios

--

Photo by Adeolu Eletu on Unsplash

ETL es el acrónimo de las palabras en inglés Extract, Transform y Load; que si las traducimos al español seria Extracción, Transformación y Carga. Entonces cuando hablamos de una ETL estamos hablando de un proceso de extracción de datos desde uno o varios orígenes, y una carga a uno o varios destinos. Sin embargo, este proceso de transporte de la información puede o no tener un paso intermedio llamado transformación. Las transformaciones pueden ser, por ejemplo, cambiar un código de base de datos por una descripción que ayude al usuario final a comprender mejor el resultado, o la eliminación de cierta cantidad de decimales en las cifras de ventas, etc.

En estos procesos también suelen adicionarse nuevas columnas a la información extraída, por ejemplo, una columna que muestre la edad de los empleados calculada en base a la fecha de nacimiento y fecha de ejecución del proceso; o el calculo del IVA con base al valor del producto y su categoría.

1. Carga de datos al data warehouse

Los data warehouse o bodegas de datos son lugares en los que se concentra la información corporativa para la medición y toma de decisiones de la compañía; ellos contienen la única versión de la verdad.

2. Limpieza y estandarización de datos

Aunque podemos decir que para la carga de datos al data warehouse es demandante la ejecución de tareas de limpieza y estandarización, estas no son exclusivas para ello. Uno de los pasos de la limpieza de datos puede ser, por ejemplo, la omisión de transacciones que no hayan finalizado correctamente. Y la estandarización se aplica con el fin de darle un único nombre y formato a los datos provenientes de distintos orígenes o que han sufrido cambios con el pasar del tiempo.

3. Unir información de múltiples orígenes de datos

Es común que las compañías cuentes con más de un sistema de información para sus gestiones, y puede que ellos, incluso, almacenen sus datos en diferentes motores de bases de datos. Esto puede dificultar la generación de reportes para la medición de indicadores y toma de decisiones. Para solucionar esto nacen los data warehouse/marts, pero para unir esta información se requiere de una tarea de integración que ejecute la extracción de información de los distintos sistemas, los limpie, los estandarice y los cargue

4. Automatización de tareas administrativas

Las tareas administrativas pueden ser como la generación de archivos Excel con el listado de transacciones de un cliente cada semana, la carga del Excel de ventas al sistema central, etc.

Entre las tareas administrativas también existen unas muy útiles para un DBA (data base administrator), como por ejemplo la reconstrucción de índices, la generación de nuevas particiones de tablas, etc.

En el próximo articulo crearemos nuestro primer proyecto de ETL. Si deseas seguir estos tutoriales, te recomiendo instalar Visual Studio y el SSDT, los pasos de descarga e instalación los puedes encontrar en el siguiente link

--

--

Oscar Rojas
Inteligencia de Negocios

I’m a data passionate, that like to teach to other, and also like to learn from them. Most of my experience are based on Microsoft technology, including Azure.