Cleaning Data con Python

Victoria Ubaldo
Tips & Tools
Published in
2 min readApr 3, 2019

--

Como analista o programador, cuando recibes un nuevo proyecto ,nos toca revisar las especificaciones e información, y en esto está también revisar la base de datos, los datasets, la matrix.

Si estás en el rol de analista o ingeniero de datos, debes saber que es la primera etapa donde comenzamos a explorar todos los detalles de esta información. En general, se dice que para un proyecto que tiene como objetivo desarrollar un algoritmo o modelo predictivo (Machine Learning o tradicional), 80% es el tiempo de limpieza y tratamiento de datos. En la experiencia ese tiempo es relativo a la cantidad de datos y variables que se necesiten ,por lo que es importarte conocer técnicas que ordenen los datos y no generen resultados extraños más adelante.

El día 20 de Marzo participé desde Hangout compartiendo este tema con la comunidad Pyladies La Paz, el cual dí una introducción de la limpieza de datos, explicando su propósito y principales características que se deben revisar . Además, usando Python y las librerías Pandas y Numpy con algunas funciones muy útiles para :

  • Explorar los datos
  • Ordenar los datos
  • Revisar los tipos de datos
  • Revisar datos duplicados
  • Detectar y reemplazar datos missing

Les comparto los slides y el código.

Anímate a compartir un tema en :

PyLadies La Paz

Pyladies Lima

Women Techmakers Lima

Gracias por leer! :)

--

--

Victoria Ubaldo
Tips & Tools

SW Engineer & DS enthusiast. Books, dogs, travel and code. WTM Ambassador Lima.