Data Visualization con pandas
La visualización es una de las mejores herramientas disponibles en el análisis de datos, ya que es la mejor forma de resumen y representación de los datos para interpretarlos y conocer la relación que guardan entre ellos.
Python dispone de diferentes librerías de visualización. Lo importante es hacer uso de aquellos gráficos que representen el cruce de datos de la mejor forma. Esto permitirá que se entienda bien el análisis que se realiza.
Para conocer las posibilidades de cada librería, trabajo con un set de datos de Kaggle sobre Food Preferences, por si te apetece ponerlo en práctica. Es un set de datos muy usable, por lo que puedes ponerte manos a la obra en cuanto lo importes.
En este post te presento los pasos básicos para visualizar gráficos con pandas.
Primeros pasos
El primer paso es conocer el DataFrame con unos métodos básicos para reconocer si hay registros nulos, duplicados o el tipo de dato que registra cada serie.
df.shape #288 registros y 8 series
df.isnull().sum() #En la serie Gender hay 4 registros nulos
df.duplicated().sum() #No hay registros duplicados
df.describe() #Las series son categóricas excepto Age
Una vez eliminados los registros nulos, el DataFrame está listo para que trabajemos con él.
A tener en cuenta
El DataFrame con el que vamos a trabajar consta en su mayoría de series categóricas, eso significa que no son variables numéricas. Para realizar una gráfica se necesita, generalmente, que al menos uno de los datos que se representan sea numérico. Por ello, con este DataFrame vamos a hacer mucho uso de métodos como .value_counts() o .sum(), para disponer de valores numéricos que representar.
¿Qué tipo de gráfica utilizar en cada caso?
No todas las gráficas sirven para representar visiblemente todos los conjuntos de datos. A la hora de decidir qué gráfico seleccionar tienes que responder a dos preguntas:
- ¿Qué pregunta quieres responder con el gráfico?
- ¿Qué tipo de dato quieres representar?
Los gráficos se dividen en 4 grandes grupos:
Visualizaciones básicas con pandas plot
La librería pandas incluye unos métodos de visualización que son útiles para realizar algunas gráficas básicas. Para ello, solo tenemos que añadir plot seguido del tipo de gráfica que queremos representar.
df['Gender'].value_counts().plot.pie()
df['Nationality'].value_counts().plot.bar()
Para una primera aproximación, la librería de pandas es genial.
Personalización de las gráficas
En la documentación de plot encontrarás diferentes parámetros que añadir a cada tipo de gráfica para personalizarla: tamaño del gráfico, colores, título, leyenda, etiquetas, fuente de la tipografía, etc.
Lo bueno de esta personalización es que es muy similar entre librerías.
En el repositorio de este proyecto puedes encontrar el proceso de Data Wrangling y el código de desarrollo de los gráficos. ¡Seguimos!