Cleaning Data con Python
Como analista o programador, cuando recibes un nuevo proyecto ,nos toca revisar las especificaciones e información, y en esto está también revisar la base de datos, los datasets, la matrix.
Si estás en el rol de analista o ingeniero de datos, debes saber que es la primera etapa donde comenzamos a explorar todos los detalles de esta información. En general, se dice que para un proyecto que tiene como objetivo desarrollar un algoritmo o modelo predictivo (Machine Learning o tradicional), 80% es el tiempo de limpieza y tratamiento de datos. En la experiencia ese tiempo es relativo a la cantidad de datos y variables que se necesiten ,por lo que es importarte conocer técnicas que ordenen los datos y no generen resultados extraños más adelante.
El día 20 de Marzo participé desde Hangout compartiendo este tema con la comunidad Pyladies La Paz, el cual dí una introducción de la limpieza de datos, explicando su propósito y principales características que se deben revisar . Además, usando Python y las librerías Pandas y Numpy con algunas funciones muy útiles para :
- Explorar los datos
- Ordenar los datos
- Revisar los tipos de datos
- Revisar datos duplicados
- Detectar y reemplazar datos missing
Les comparto los slides y el código.
Anímate a compartir un tema en :
Gracias por leer! :)