Resumen 3 Construyendo y escalando linaje de datos en Netflix para mejorar la confiabilidad y eficiencia de la infraestructura de datos

Cesar Cam
BigDataLatam
Published in
2 min readOct 21, 2019

Imaginemos que tenemos que tomar una serie de decisiones importantes, pero también nos interesa conocer cuál es el origen y la historia de los datos que soportarían esta toma de decisiones.

Esto llevó a Netflix a desarrollar una visión acerca de cómo generar una arquitectura que nos permita resolver esta situación y así asegurar una mejor toma de decisiones. Esto se logró a través de un aspecto muy importante de su cultura organizacional: Libertad & Responsabilidad, a fin de que lo equipos a cargo de esta tarea, estén lo suficientemente empoderados para poder coronar con éxito esta enorme tarea que requiere arquitectura escalable, diseño robusto, un fuerte equipo de ingeniería y, sobre todo, una increíble colaboración entre funciones; dado que el escenario es complejo (ver imagen) y laboran muchos equipos a la vez.

Se definieron principios que debían guiar el desarrollo del proyecto:

· Asegurar la integridad de los datos.

· Permitir una integración perfecta.

· Diseñar un modelo flexible de datos.

Por supuesto que este tipo de proyecto no puede resolverse utilizando un solo camino, los ingenieros tienen la libertad y sobre todo la responsabilidad de elegir las mejores herramientas y plataformas para alcanzar los objetivos del negocio. Por lo tanto, el enfoque de solución debe considerar diversos orígenes e historias de datos. Eso llevó a dos enfoques: push y pull.

Actualmente, se hace un uso intensivo del modelo pull. En este modelo, se revisan logs y metadata generados por varios motores que recolectan diversos linajes de datos.

En el paradigma del modelo de push, varias herramientas de la plataforma, como la capa de transporte de datos, las herramientas de informes y Presto, publicarán eventos de linaje en un conjunto de temas de Kafka relacionados con el linaje, por lo tanto, hacen que la ingesta de datos sea relativamente fácil de escalar, mejorando la escalabilidad del sistema de linaje de datos.

Finalmente, la arquitectura propuesta es la siguiente:

Después de este modelo, lo que viene es seguir explorando los nuevos retos que plantea la historia de datos.

--

--