Primera entrega iniciación en SSIS
¿Qué es una ETL?
Quizá hayas escuchado este término alguna vez, pues bien, hoy veremos qué es y para qué se utilizan.
ETL es el acrónimo de las palabras en inglés Extract, Transform y Load; que si las traducimos al español seria Extracción, Transformación y Carga. Entonces cuando hablamos de una ETL estamos hablando de un proceso de extracción de datos desde uno o varios orígenes, y una carga a uno o varios destinos. Sin embargo, este proceso de transporte de la información puede o no tener un paso intermedio llamado transformación. Las transformaciones pueden ser, por ejemplo, cambiar un código de base de datos por una descripción que ayude al usuario final a comprender mejor el resultado, o la eliminación de cierta cantidad de decimales en las cifras de ventas, etc.
En estos procesos también suelen adicionarse nuevas columnas a la información extraída, por ejemplo, una columna que muestre la edad de los empleados calculada en base a la fecha de nacimiento y fecha de ejecución del proceso; o el calculo del IVA con base al valor del producto y su categoría.
1. Carga de datos al data warehouse
Los data warehouse o bodegas de datos son lugares en los que se concentra la información corporativa para la medición y toma de decisiones de la compañía; ellos contienen la única versión de la verdad.
2. Limpieza y estandarización de datos
Aunque podemos decir que para la carga de datos al data warehouse es demandante la ejecución de tareas de limpieza y estandarización, estas no son exclusivas para ello. Uno de los pasos de la limpieza de datos puede ser, por ejemplo, la omisión de transacciones que no hayan finalizado correctamente. Y la estandarización se aplica con el fin de darle un único nombre y formato a los datos provenientes de distintos orígenes o que han sufrido cambios con el pasar del tiempo.
3. Unir información de múltiples orígenes de datos
Es común que las compañías cuentes con más de un sistema de información para sus gestiones, y puede que ellos, incluso, almacenen sus datos en diferentes motores de bases de datos. Esto puede dificultar la generación de reportes para la medición de indicadores y toma de decisiones. Para solucionar esto nacen los data warehouse/marts, pero para unir esta información se requiere de una tarea de integración que ejecute la extracción de información de los distintos sistemas, los limpie, los estandarice y los cargue
4. Automatización de tareas administrativas
Las tareas administrativas pueden ser como la generación de archivos Excel con el listado de transacciones de un cliente cada semana, la carga del Excel de ventas al sistema central, etc.
Entre las tareas administrativas también existen unas muy útiles para un DBA (data base administrator), como por ejemplo la reconstrucción de índices, la generación de nuevas particiones de tablas, etc.
En el próximo articulo crearemos nuestro primer proyecto de ETL. Si deseas seguir estos tutoriales, te recomiendo instalar Visual Studio y el SSDT, los pasos de descarga e instalación los puedes encontrar en el siguiente link
En el siguiente articulo crearemos nuestro primer paquete, míralo aquí