Análisis Exploratorio de Datos (EDA) con pandas_profiling
tl;dr: pandas_profiling
crea reportes interactivos muy completos de tus datos. Utilizala para arrancar tu proximo proyecto de datos.
¿Qué es lo primero que haces al obtener un nuevo dataset?
Hoy en día lo primero que hago al obtener un nuevo conjunto de datos es lo mismo sin importar si es para un proyecto personal o en el trabajo. Mi flujo de trabajo es más o menos así:
- Encuentro un conjunto de datos con el que quiero/me piden trabajar.
- Creo un directorio donde va a vivir este proyecto. Normalmente utilizo
cookiecutter
y una plantilla que creé (repo en GitHub) basada en otras dos plantillas para proyectos de ciencias de datos. - Muevo el dataset al directorio de
datos/en_bruto
odatos/externos
, dependiendo de donde deba ir, y - Abro un jupyter notebook para leer y explorar los datos
Y cuando digo explorar los datos me refiero a explorar los datos. Antes de “utilizarlos” extraigo estadísticas sencillas. Que cuantas columnas y filas tiene, que si todas las columnas estan llenas, que estadísticas básicas de los atributos numéricos, que cuantos valores unicos tiene esta columna, que cual es la distribución de esta otra… tu me entiendes.