[es] Data Engineering — Dataform Session

Nicolás Lecaros Marchant
GDG Cloud Santiago
Published in
4 min readOct 6, 2023

¿Qué es Dataform?

Dataform es una herramienta de autoservicio de análisis de datos que permite a los usuarios crear y administrar consultas, modelos y flujos de trabajo de BigQuery. Está diseñado para ser fácil de usar, incluso para personas que no tienen experiencia en programación o análisis de datos.

Dataform se basa en el concepto de tablas, que son una forma de organizar los datos de forma estructurada. Las tablas pueden ser alimentadas por múltiples fuentes, incluyendo bases de datos, archivos y API. Una vez que los datos están en una tabla, pueden ser transformados utilizando una variedad de métodos, incluyendo uniones, filtros y asignaciones. Dataform también permite compartir tablas con otros usuarios, lo que facilita la colaboración en proyectos de transformación de datos y permite el escalamiento.

Dataform puede ayudar a las empresas de todos los tamaños a transformar sus datos de forma eficiente y efectiva.

Beneficios

Estos son algunos de los beneficios de usar Dataform:

  • Dataform es una herramienta basada en la nube, lo que significa que puede acceder a ella desde cualquier lugar con una conexión a Internet.
  • Dataform es una herramienta escalable, lo que significa que puede manejar grandes cantidades de datos.
  • Definición declarativa de transformaciones: Los usuarios pueden definir transformaciones y procesos de preparación de datos en un formato más cercano al lenguaje humano, lo que facilita la comprensión y la colaboración.
  • Dataform es fácil de usar, incluso para los usuarios que no tienen experiencia en transformación de datos ya que se basa en SQL y JavaScript.
  • Control de versiones: Al definir flujos de trabajo como código, se puede utilizar un sistema de control de versiones (como Git) para rastrear los cambios, colaborar en equipo y retroceder a versiones anteriores si es necesario.
  • Automatización de tareas repetitivas: Dataform puede ayudar a automatizar tareas comunes, como la actualización programada de conjuntos de datos, lo que reduce la carga de trabajo manual.
  • Documentación incorporada: Dataform permite agregar comentarios y documentación a las transformaciones, lo que ayuda a otros miembros del equipo a entender el propósito y el funcionamiento de diferentes partes del flujo de trabajo.
  • Compatibilidad e integración con múltiples plataformas de almacenamiento: Dataform puede trabajar con diversas fuentes y destinos de datos, como bases de datos relacionales y warehouses en la nube.
  • Validación y pruebas: Dataform puede proporcionar mecanismos para validar y probar transformaciones antes de implementarlas completamente, lo que ayuda a identificar errores antes de que afecten a los datos en producción.
  • Flujo de trabajo de datos (workflows): Ofrecía un flujo de trabajo de datos completo que permitía la programación, ejecución y supervisión de las operaciones de preparación de datos.
  • Simplifica tu arquitectura de procesamiento de datos: Desarrolla y pon en funcionamiento canalizaciones de datos escalables en BigQuery con SQL desde un único entorno y sin dependencias adicionales.
  • Dataform es una herramienta segura, lo que significa que sus datos están protegidos en tu data warehouse.

Para poder iniciar en Dataform solo debes tener una cuenta en GCP (si aun no eres usuario de GCP puedes registrarte gratis y obtener 💰300 usd en créditos de regalo 🎁) y luego seguir esta serie de pasos para crear tus primeras tablas y vistas en BigQuery.

Dataform cómo un árbol de dependencias

En BigQuery, Dataform realiza las siguientes tareas:

  • Ejecuta comandos SQL, siguiendo el orden del árbol de dependencias que definas. Se pueden armar poderosos Data Pipelines usando solo SQL.
  • Ejecuta consultas de aserción en las tablas y vistas para verificar la precisión de los datos.
  • Ejecuta otras operaciones de SQL como puede ser por ejemplo un proceso almacenado en BigQuery o un modelo de Machine Learning de BigQuery ML.

Precios de Dataform

Dataform es un servicio sin costo. Sin embargo, puede haber costos asociados con el uso del producto.

Cargos de otros servicios de Google Cloud

Dataform ejecuta consultas en BigQuery para crear tablas y vistas nuevas, y ejecutar otros comandos de SQL. Se te cobrará a través de BigQuery por ejecutar estas consultas, por lo que el costo estará en el almacenamiento y procesamiento de tus datos en BigQuery.

Importante: Dataform heredado dejará de estar disponible el 26 de febrero de 2024. Después de esa fecha, ya no podrás acceder a los proyectos heredados. En este documento, se describen las diferencias entre Dataform heredado y Dataform en Google Cloud, y se muestra cómo importar un proyecto heredado a Dataform en Google Cloud.

Link: https://cloud.google.com/dataform/docs/migration

Espero que te haya resultado útil este articulo. Avíseme con un 👏 si te sirvió este artículo.

Visit my website

--

--

Nicolás Lecaros Marchant
GDG Cloud Santiago

I write about #googlecloudplatform, #amazonwebservices and #microsoftazure.