Data Visualization con pandas

Patricia Carmona
Ironhack
Published in
3 min readApr 13, 2020
Photo by Michael Payne on Unsplash

La visualización es una de las mejores herramientas disponibles en el análisis de datos, ya que es la mejor forma de resumen y representación de los datos para interpretarlos y conocer la relación que guardan entre ellos.

Python dispone de diferentes librerías de visualización. Lo importante es hacer uso de aquellos gráficos que representen el cruce de datos de la mejor forma. Esto permitirá que se entienda bien el análisis que se realiza.

Para conocer las posibilidades de cada librería, trabajo con un set de datos de Kaggle sobre Food Preferences, por si te apetece ponerlo en práctica. Es un set de datos muy usable, por lo que puedes ponerte manos a la obra en cuanto lo importes.

En este post te presento los pasos básicos para visualizar gráficos con pandas.

Primeros pasos

El primer paso es conocer el DataFrame con unos métodos básicos para reconocer si hay registros nulos, duplicados o el tipo de dato que registra cada serie.

df.shape                  #288 registros y 8 series
df.isnull().sum() #En la serie Gender hay 4 registros nulos
df.duplicated().sum() #No hay registros duplicados
df.describe() #Las series son categóricas excepto Age

Una vez eliminados los registros nulos, el DataFrame está listo para que trabajemos con él.

A tener en cuenta

El DataFrame con el que vamos a trabajar consta en su mayoría de series categóricas, eso significa que no son variables numéricas. Para realizar una gráfica se necesita, generalmente, que al menos uno de los datos que se representan sea numérico. Por ello, con este DataFrame vamos a hacer mucho uso de métodos como .value_counts() o .sum(), para disponer de valores numéricos que representar.

¿Qué tipo de gráfica utilizar en cada caso?

No todas las gráficas sirven para representar visiblemente todos los conjuntos de datos. A la hora de decidir qué gráfico seleccionar tienes que responder a dos preguntas:

  1. ¿Qué pregunta quieres responder con el gráfico?
  2. ¿Qué tipo de dato quieres representar?

Los gráficos se dividen en 4 grandes grupos:

Tipo de gráfica para cada representación

Visualizaciones básicas con pandas plot

La librería pandas incluye unos métodos de visualización que son útiles para realizar algunas gráficas básicas. Para ello, solo tenemos que añadir plot seguido del tipo de gráfica que queremos representar.

df['Gender'].value_counts().plot.pie()
Gráfica de tarta
df['Nationality'].value_counts().plot.bar()
Gráfica de barra

Para una primera aproximación, la librería de pandas es genial.

Personalización de las gráficas

En la documentación de plot encontrarás diferentes parámetros que añadir a cada tipo de gráfica para personalizarla: tamaño del gráfico, colores, título, leyenda, etiquetas, fuente de la tipografía, etc.

Lo bueno de esta personalización es que es muy similar entre librerías.

En el repositorio de este proyecto puedes encontrar el proceso de Data Wrangling y el código de desarrollo de los gráficos. ¡Seguimos!

--

--

Patricia Carmona
Ironhack

Data Analyst. Improving the relation brands-users.