El proceso esencial del análisis de Datos

Miguel Magos
Yals
3 min readMay 31, 2017

--

La realidad sobre el estado de la información disponible para el análisis de datos por lo general es muy distante de lo que se espera en un principio de ésta. La limpieza y preprocesamiento de los datos se termina convirtiendo en un gran reto y consume una parte considerable del tiempo disponible para resolver un problema de análisis de datos. Es posible que un primer análisis exploratorio muestre que la información que originalmente se creía disponible no lo esté o que esta se encuentra en diferentes tablas por lo que ahora el data scientists se da a la tarea de unir las tablas en base a una clave en común. Un problema recurrente al unir tablas es que las claves no coinciden en su totalidad por lo que se puede perder una gran cantidad de datos al llevar a cabo la relación.

El análisis de datos no es un proceso lineal sino un proceso iterativo, es decir, un proceso que se repite continuamente hasta obtener el objetivo deseado. Esto se debe a que tiene que irse adaptando a los problemas encontrados a partir de la información y los resultados que vayan surgiendo.

En el libro “The Art of Data Science” de Roger D.Peng y Elizabeth Matsui se presenta un proceso que se puede resumir en 5 principales actividades:

  1. Definir una pregunta
  2. Explorar los datos
  3. Construir modelos
  4. Interpretar los resultados
  5. Comunicar los resultados

A su vez cada una de éstas actividades se puede desglosar en 3 etapas:

  1. Definir expectativas
  2. Buscar información y compararla con las expectativas definidas
  3. De ser necesario replantear las expectativas o buscar nueva información

Cada una de las 5 actividades se puede repetir tantas veces como sea necesario para alcanzar las expectativas definidas en la primera de las tres etapas.

La primera etapa de cada una de las 5 actividades sirve para dejar bien claro cúal es resultado al que se debe de llegar antes de dar por concluida esa actividad. Esto es importante porque en el proceso de análisis de datos, en particular cuando existe mucha información disponible, es muy fácil perder de vista el objetivo original y desviarse hacia nuevos objetivos que, aún si son interesantes, pueden alargar el proceso de manera indefinida. Esta situación es problemática principalmente si existen un deadline del proyecto que cumplir.

La segunda etapa sirve como una validación de que, en efecto, el producto de la actividad en cuestión cumpla con las expectativas definidas durante la primera etapa. De no ser el caso es entonces necesario pasar a la tercera etapa.

La tercera y última etapa únicamente se requiere si, como ya se mencionó previamente, en la segunda etapa se descubrió que no se habían cumplido las expectativas. Esta etapa consiste básicamente en volver a un punto anterior del proceso de análisis de datos, ahora con la información adicional que se fue aprendiendo y que ayude a generar un mejor análisis. Aquí es realmente en donde se encuentra la naturaleza iterativa del proceso.

Si te gustan nuestros artículos por favor suscríbete aquí para avisarte cuando publiquemos uno nuevo. Igual que tú, odiamos el spam y nunca compartiremos tus datos.

--

--