Nuestra metodología: la DataPipeline

Dani Villatoro
Draft · Unlisted

La DataPipeline resume el enfoque de EscuelaDeDatos para hacer proyectos dateros, de principio a fin. Entender este ciclo de acciones te permite dividir el proceso en una serie de pasos y acciones, cada una con su complejidad. La DataPipeline es un trabajo en proceso. Su primera versión sugería sólo cinco pasos, pero nuestra comunidad global está constantemente experimentando con ella y modificándola para reflejar esos pasos clave que están presentes en todo proyecto guiado por datos.

Los pasos son:

definir.

Los proyectos guiados por datos deben empezar definiendo el problema que quieren resolver y sus acciones. Es en esta etapa en la que te hacer preguntas y llegas a los propósitos de tu proyecto. Definir tu problema implica pasar de un tema — contaminación ambiental, por ejemplo — a una o varias preguntas específicas — ¿El uso de bicicletas ha reducido la contaminación del aire? — . Ser específico te fuerza a formular tu pregunta de tal manera que provee pistas hacia los tipos de datos que necesitarás. Lo que te ayuda a definir la ambición de tu proyecto: ¿Los datos que necesito son fáciles de obtener? ¿O algunos datos principales serán difíciles de encontrar?

A través de preguntas clave puedes llegar a definir tu problema, los elementos que observarás o medirás para explicarlo y, consecuentemente, elaborar una hipótesis.

Este primer paso sentará la pauta para las siguientes etapas y te dará una idea de cómo avanzar a lo largo del proceso y sus implicaciones.

Aprende >>

buscar.

Mientras la fase de definición del problema te sugiere qué datos necesitarás, buscar estos datos es otro paso, con mucha o poca dificultad, dependiendo del problema. Hay muchas herramientas y técnicas para hacer eso: desde una simple pregunta en tus redes sociales, hasta usar herramientas como un buscador, portales de datos abiertos o una solicitud de acceso a la información pidiendo datos que están disponibles en esa institución del gobierno. Esta fase puede ser definitiva para el éxito de tu proyecto, ya que si no encuentras los datos, no podrás hacer mayor cosa. Pero esta es la fase en la que también se necesita creatividad para actuar diferente: usar mediciones o indicadores aproximados, buscar datos en espacios menos obvios o entender que los datos no existen y que se tendrán que recolectar o producir (lo que nos lleva a nuestro siguiente etapa).

Aprende >>

recolectar

Producir datos puede ser una tarea corta y fácil, o larga y compleja. Lo importante es diseñar un método replicable y elegir la manera más adecuada al proyecto, ya que de esa elección dependerán sus alcances y conclusiones. Hay muchas maneras de lograrlo: puedes hacer crowdsourcing usando formularios en línea, generar cuestionarios con apps o impresos, hacer scrapping de varias páginas web en las que se encuentra tu información o convertir archivos no abiertos como PDFs en bases de datos filtrables y combinadas.

Aprende >>

verificar.

Obtener los datos no significa que el problema está resuelto. Es necesario verificar si su información es válida, así como revisar los metadatos y la metodología con la que se recolectó este conjunto de información. Es importante también conocer quién organizó este conjunto de datos y si es una fuente con credibilidad en el tema y en la técnica de recolección.

Aprende >>

limpiar.

Es muy común que los datos que se obtienen y validan estén en desorden y tengan problemas de formato: filas duplicadas, nombres de columna que no combinan con los registros, valores que contienen caracteres raros o que impiden el procesamiento de la computadora y otros más. En este paso, necesitamos habilidades y herramientas que nos permitan tener los datos en un formato legible para analizarlo por computadora. Herramientas como OpenRefine, LibreOffice Calc o Excel y conceptos como bases de datos relacionales e identificador único son útiles en esta etapa.

Aprende >>

analizar.

Esta es la parte en la que obtenemos conocimiento sobre el problema que definimos al principio. Al poner en práctica nuestras habilidades estadísticas y matemáticas, podemos entrevistar un conjunto de datos como cualquier periodista entrevista a sus fuentes. Solo que en vez de usar una grabadora y una libreta, analizamos con muchas herramientas y fórmulas. Podemos generar visualizaciones que nos muestren la distribución de diferentes variables o podemos usar paquetes de lenguajes de programación como Pandas (Python) o R. También podemos usar hojas de cálculo como LibreOfficeCalc y Excel, o programas estadísticos como SPSS.

Existen muchas metodologías diferentes para hacer análisis específicos, pero te enseñamos algunos fundamentos sobre el análisis de datos orientado a proyectos para mejorar nuestra sociedad.

Aprende >>

presentar/visualizar.

  • elegir uno

Es necesario presentar los datos: hablar con tu audiencia para que conozca las preguntas que buscabas responder y el medio que te ha permitido llegar a ciertas conclusiones o iniciar una conversación. En esta etapa debemos enfocarnos en entender buenas prácticas para presentar los datos de manera visual y sabernos dar a entender. Trucos, estrategias y conocimiento sobre cómo funcionan nuestros ojos y nuestro cerebro a la hora de estar frente a una visualización. También te compartimos especificaciones técnicas sobre la teoría detrás de diferentes gráficos.

Aprende >>

GRAFICO DATA+PIPELINE — Tubería

¿Por qué una Tubería?

Las tuberías, como conjunto tienen un propósito: llevar un flujo común. En este caso, ese flujo son los datos, pero a lo largo de la tubería y a través de diferentes procesos, estos datos se van transformando para llegar a un punto en el que no estaban antes.

Una tubería, además, es flexible. Es modular, te permite adaptarla a espacios largos o pequeños, cíclicos o estáticos, y el proceso de trabajo con datos es así. En ocasiones, repites pasos y hay etapas que son paralelas o complementarias. Esa diversidad hace que la tubería sea la analogía perfecta para el proceso. Además, es un término muy utilizado en softwares y compañías de procesamiento de datos.

¿Por qué pasos tan simples?

El mundo de los datos se ha tratado como si fuera un espacio solo para los números en el que reinan únicamente estadistas, analistas, financieros y contadores. En realidad, los datos pueden ser mucho más humanos y las ciencias sociales los utilizan todo el tiempo. Sabemos que en un equipo multidisciplinario un enfoque metodológico puede generar una brecha de conocimiento o entendimiento entre el equipo, por lo que con esta serie de verbos rectores, generalizadores, es fácil tender puentes entre personas con distinto expertise.

Latinoamérica no es solo español

Lo sabemos y celebramos, por eso, te compartimos LaDataPipeline en otros idiomas que se hablan en Iberoamérica.

  • Pendiente

TO DO

Definir si es la data pipeline en femenino y usarlo como slang junto, nombre propio

Definir y estandarizar si vamos a llamar a cada verbo paso, fase o etapa y homologar en todo.

Traducir a portugués, kakchiquel y otros idiomas que vayamos teniendo la oportunidad.

Unlisted