Construyendo y escalando linaje de datos en Netflix para mejorar la confiabilidad y eficiencia de la infraestructura de datos

Juan José
BigDataLatam
Published in
2 min readOct 26, 2019

Netflix tiene un grado de precisión del 90% de posibilidades de acierto, sobre los tipos de series o películas favoritas que más le gustan al usuario, debido a la cantidad de datos que tiene de ellos. Y a más datos, más precisión, más capacidad de predicción y mayor índice de acierto.

Proporcionar un sistema de linaje de datos completo y preciso ha permitido a los responsables de la toma de decisiones guiar las inversiones en el camino correcto. Asimismo el eje cultural de Netflix ha permitido que los equipos puedan plantear ideas innovadoras con la finalidad de alcanzar los objetivos planificados-

Netflix más que una compañía de entretenimiento, es ya una gran empresa de data. Su sólido equipo de ingeniería utiliza herramientas y tecnologías para apoyar el desarrollo de arquitecturas técnicas escalables, el cual permita que las tareas de recolección, transformación, modelado y análisis de datos no sean complejas debido a la abrumadora cantidad de información recopilada. Bajo este enfoque se requiere un conjunto de objetivos de diseño el cual ayude a guiar la arquitectura y el trabajo de desarrollo del linaje de los datos el cual se soportan en tres grandes principios.

- Integridad de los datos

- Integración perfecta

- Diseño de un modelo de datos flexible

Estos tres grandes principios permitirán ofrecer un sistema de linaje completo, preciso, fiable y escalable en el dimensionamiento de los datos en Netflix.

En el gráfico podemos observar el flujo de datos que utiliza Netflix

Bajo la perspectiva antes descrita, podemos indicar que a los servidores de Netflix llega información de cómo los usuarios interactúan con el contenido, la cual se enriquecen con metadatos de entidades y relaciones asociadas, haciendo que esta información se vuelva más valiosa, el cual permita definir un modelo genérico de datos para almacenar información más elaborada (linaje). Con este enfoque podemos construir un modelo de datos unificado y el repositorio para ofrecer el apalancamiento adecuado para permitir múltiples casos de uso, como la detección de datos, el servicio SLA y la eficiencia de datos, el cual beneficie a la organización, haciendo que la compañía no escatime en cuanto a la cantidad de datos que analiza. Como nos podemos imaginar, para trabajar con estos datos es necesario tener una arquitectura robusta de Big Data.

En el gráfico podemos observar la arquitectura de datos que utiliza Netflix

En tal sentido Netflix sigue apostando por la transformación tecnológica, con la finalidad de proporcionar un linaje de datos universal para todos los datos dentro de su organización, el cual permita más casos de uso empresarial incluido la mejora de productividad de los equipos de trabajo.

--

--