Análisis Exploratorio de Datos (EDA) con pandas_profiling

Sergio Sánchez
tacosdedatos

--

tl;dr: pandas_profiling crea reportes interactivos muy completos de tus datos. Utilizala para arrancar tu proximo proyecto de datos.

¿Qué es lo primero que haces al obtener un nuevo dataset?

Hoy en día lo primero que hago al obtener un nuevo conjunto de datos es lo mismo sin importar si es para un proyecto personal o en el trabajo. Mi flujo de trabajo es más o menos así:

  1. Encuentro un conjunto de datos con el que quiero/me piden trabajar.
  2. Creo un directorio donde va a vivir este proyecto. Normalmente utilizo cookiecutter y una plantilla que creé (repo en GitHub) basada en otras dos plantillas para proyectos de ciencias de datos.
  3. Muevo el dataset al directorio de datos/en_bruto o datos/externos, dependiendo de donde deba ir, y
  4. Abro un jupyter notebook para leer y explorar los datos

Y cuando digo explorar los datos me refiero a explorar los datos. Antes de “utilizarlos” extraigo estadísticas sencillas. Que cuantas columnas y filas tiene, que si todas las columnas estan llenas, que estadísticas básicas de los atributos numéricos, que cuantos valores unicos tiene esta columna, que cual es la distribución de esta otra… tu me entiendes.

--

--

Sergio Sánchez
tacosdedatos

data visualization analyst + public policy wonk + hip hop head from Tijuana, Baja California. Currently located in the San Francisco Bay Area.