Camino a ser Data Driven

Pablo Guzzi
Uala Tech
Published in
7 min readJul 27, 2023

Hace ya una serie de intensos años, me dedico a transformar las organizaciones en empresas Data-Driven.

Quien se dedica a esto sabe lo difícil que resulta el desafío. Ser Data Driven puede ser resumido en un tweet como:

Tomar decisiones basadas en datos.

Qué bien suena, ¿no?. Pero cómo conseguimos que no recaiga en una persona, sino que una organización entera se mueva planteando una pregunta insesgada, relevando datos necesarios para responderla, analizando esos datos, y finalmente tomando lo que “sirve” de ese análisis de cara a la toma de decisión.

Si ya hacer un cambio de hábito individualmente cuesta, hay que dimensionar lo que implica cambiar el hábito de una organización entera, ¿cómo lo logramos?

Si me preguntan, creo que una de las cosas más importantes que uno puede generar para lograr el cambio es tener influencia, lograr que las personas más influyentes en una organización sean conscientes de las ventajas de ser data-driven.

Hace un tiempo, y siempre con este objetivo en mente, me encontré en una reunión con los heads de mi compañía. Una gran oportunidad para transmitirles las bondades y ventajas que significa ser data-driven. Para esto, empecé a hacer un research exhaustivo, invertí bastante tiempo en consumir todo lo relacionado con el tema.

Encontré mucha inspiración e ideas, pero nada era exactamente lo que quería, nada parecía que fuera a causar el impacto que necesitaba de cara a concientizar sobre los verdaderos efectos de ser Data-Driven.

Sesgos Cognitivos

Mientras estaba inmerso en esa búsqueda, un excompañero del MBA me envió un video, y me dijo, ¿te acordás de esto? Un video que habíamos visto en una materia que hablaba de sesgos cognitivos. Se trataba de un video de un experimento de la Universidad de Harvard realizado por Daniel Simons en 2010, más de 10 años y viéndolo, seguía más vigente que nunca.

El video consta de pedirle al veedor que en un plano con dos equipos, uno de negro, uno de blanco, ambos equipos pasándose una pelota de básquet, cuenten la cantidad de pases que dan el equipo vestido de blanco. Es la única premisa y objetivo del video: salir con la respuesta a qué cantidad de pases dio el equipo de blanco. Veámoslo.

Si llegaron al final del video prestando atención, muchos de ustedes habrán contado la cantidad de pases correctos, otros, tal vez un par menos o un par más. Pero lo llamativo es que la mitad de ustedes (probabilísticamente hablando), no vieron el gorila.

Aunque hayan visto el gorila, estoy seguro de que se perdieron otros detalles que suceden en el video. Como la jugadora de negro que abandona el escenario, la cortina de fondo cambia de color progresivamente en el video. Incluso alguien podría preguntarse la cantidad de pases que dio el equipo de negro en vez del blanco.

Se preguntarán qué tiene que ver esto con ser Data Driven. La razón por la cual no vemos el gorila mientras contamos los pases es por un efecto psicológico: un sesgo cognitivo. Sesgo que puede insesgarse gracias al poder de los datos y la analítica.

Ahí es donde vino mi humilde momento eureka. Esto podría solucionarse con un algoritmo y erradicar el sesgo que tenemos, no solo eso, podríamos hacer muchísimas más cosas de las que pide exclusivamente el autor.

Es un problema complejo, de hecho no es un solo algoritmo, son varios trabajando en conjunto. Pero me puse hacer justamente una AI que me permitiera responder la pregunta inicial del video, teniendo en cuenta la complejidad de detectar las personas, la pelota, que cuando se entrecruzan o solapan personas o pelota no se confunda el algoritmo, etc.

Me vi tan inmerso que incluso hice muchas cosas más con Computer Visión para poder responder todo tipo de preguntas. Pero primero veamos el resultado:

Es increíble lo que la tecnología nos puede facilitar. Y también el tiempo de desarrollo que consume, y, sin embargo, son muchas más cosas las que me quedaron por hacer, solo por mencionar algunas:

  • Detect Object
  • Tracking Object
  • Heatmap position
  • Analytics Pose
  • Counter of Object
  • Estimation of Age
  • Counter of actions
  • Count Steps
  • Estimation of Weight

Con 30 segundos de video, me di cuenta, que había invertido muchas horas de desarrollo. Me vi totalmente inmerso en mi afán por sacarle todo el jugo posible, y ese es un error muy común. Es bastante frecuente que cuando hay un proyecto de data cueste “dejarlo”. Uno nunca termina de perfeccionarlo, y ahí está uno de los grandes problemas que se tiene.

Mientras me veía inmerso, me olvidé del objetivo, contar los pases de los vestidos de blanco (y tal vez hallar el gorila) y me puse a hacer cientos de cosas más.

Sin embargo, volviendo al punto, el algoritmo cumplía con lo mencionado. Nos permite contar pases automáticamente (e incluso otras cosas) y responder la pregunta que serviría para tomar una decisión (cuántos pases dan los jugadores vestidos de blanco). Dicho sea de paso, el hecho de tener clara la pregunta ya es todo un gran paso que en este caso tenemos resuelto.

El video, en definitiva, sirvió para que los heads entendieran la diferencia entre tomar una decisión de forma intuitiva versus tomarla con datos. Pero la pregunta remanente es, cómo lo llevamos a toda la organización.

Con la influencia lograda no alcanza. Debemos también proporcionar un direccionamiento de esa influencia y herramientas que permitan manejarse de forma data-driven en todo el espectro de la organización.

En este sencillo diagrama podemos ver, de manera resumida, el flujo de datos y las tareas y servicios que un equipo de alta calidad debe lograr: desde la ingesta de datos de alta disponibilidad de diversos tipos, hasta la curación de los datos para hacerlos confiables y la creación de servicios para el consumo y procesamiento de los mismos.

Como parte de este desafío, también encontraremos la importancia de la federación de datos y la creación de una cultura basada en datos. Además, es esencial contar con un buen catálogo de datos y un linaje de datos automatizado para posteriormente poder explotar la información obtenida.

Tal vez ustedes, como profesionales de datos, ya conozcan esto y puedan debatir sobre este tema. Aunque este diagrama puede ser un boceto simple, es importante que genere conocimiento en toda la organización sobre el flujo de datos, especialmente porque la gente de negocios y los stakeholders estarán preocupados por otros objetivos y no necesariamente estarán al tanto de este proceso.

Uno de los puntos de bloqueo más relevantes puede ser la parte relacionada con la explotación de datos y cómo externalizar esta tarea de manera efectiva. Según Forrester, entre el 60 y el 70 por ciento de los datos se quedan sin utilizar, por lo que es crucial federalizar un catálogo de datos que involucre al negocio en la asociación de metadatos y de género.

El compromiso incluso puede ser una llave de cara a la disponibilidad de los datos, acompañado de la democratización del acceso y el discovery, y un linaje lo más automatizado posible para permitir el tratamiento de datos autónomos. Es fundamental monitorear esta parte de manera cuidadosa.

En resumen, para que la idea principal se entienda claramente, necesitamos mostrar un diagrama de datos coherente.

Monetización de datos: El papel del self-service y la analítica

En la era actual de la información, los datos son el nuevo petróleo. Pero al igual que el petróleo, los datos por sí solos no tienen valor, sino que deben ser refinados para obtener su máximo potencial.

Para lograrlo, es necesario construir una cultura de colaboración y enfoque en los objetivos de la organización, para que los equipos de datos puedan trabajar junto con el negocio y generar las soluciones más adecuadas.

El objetivo es monetizar los datos. Lo que implica un esfuerzo colaborativo entre todas las áreas de la organización. La construcción de un repositorio de datos de Google no se logra solo con datos, sino que es necesario el esfuerzo de cada una de las áreas.

En segundo lugar, debemos hablar sobre la habilitación del self-service, que permita la generación de transformaciones de datos confiables, para que cada área tenga los datos que necesita, de la manera en que los necesita. Este concepto está muy asociado al concepto de “thames”, que no ahondaremos aquí por cuestiones de extensión.

El self-service se refiere al procesamiento de los datos, no solo a la parte de los tableros y al cuidado y disposición del guardado. Debemos evitar el rol de “traductor” en la medida de lo posible, ya que esto puede generar personas que “aman” el trabajo, pero que no viven la cultura del lugar. Además, debemos fomentar el data literacy.

El tercer punto crítico es la parte de la analítica. Un estudio de Forbes encontró que los últimos eslabones de las soluciones analíticas, especialmente los más orientados a la toma de acción basada en un modelo o en un algoritmo, son donde más se caen las soluciones. Por lo tanto, es importante que, al plantear un problema, se trabajen juntos para hacer un plan y evitar la falta de foco o esfuerzos mal enfocados.

En resumen, antes de armar un modelo para responder cuántos pases dieron las personas de blanco, preguntemos para qué se va a utilizar esa información.

La idea más valiosa de todas es generar confianza y confiar. Como ejemplo, podemos mencionar la película “Moneyball”, donde un equipo sin presupuesto empezó a comprar jugadores basados en estadísticas. A pesar de pasar por momentos muy difíciles, el equipo siguió confiando y logró el éxito.

En conclusión, nunca olvidemos el objetivo, trabajemos en conjunto y generemos una cultura con enfoque en los desafíos del equipo de datos. Tener equipos con enfoque en la cultura, como ya expresé a lo largo de este artículo, es fundamental. A veces, es crucial que le puedan dar mucha visibilidad a todo lo que hacen y que la estrategia de datos sea lo más transparente y visible para toda la organización.

--

--

Pablo Guzzi
Uala Tech

Chief Data & Analytics Officer at Uala. I ❤️ Data & Analytics