Extraer datos de Bigquery para analizar datos de licores — con Pandas

Michell Fabian Garcia Mendez
Datapath
Published in
6 min readFeb 17, 2024

I.Índice

➔ Introducción

➔ Contexto general de BigQuery y Python usando la librería Pandas

➔ Exportar datos de BigQuery a Python

➔ Conclusiones

➔ Referencias Bibliográficas

Introducción

En un mundo impulsado por datos, la capacidad de almacenar, gestionar y analizar grandes volúmenes de información se ha vuelto fundamental para empresas de todos los tamaños y sectores. En este contexto, Google BigQuery emerge como una herramienta poderosa que permite a las organizaciones explorar y obtener insights valiosos a partir de sus datos de manera eficiente y escalable.

BigQuery, desarrollado por Google Cloud, es un servicio de almacenamiento y análisis de datos totalmente administrado en la nube. Utiliza el poder del almacenamiento de datos a gran escala y el procesamiento distribuido para ofrecer un rendimiento rápido y confiable en la ejecución de consultas SQL sobre conjuntos de datos de cualquier tamaño.

Con BigQuery, los usuarios pueden cargar datos de diversas fuentes, como archivos CSV, JSON, Google Sheets, entre otros, y realizar consultas complejas en cuestión de segundos. Además, ofrece características avanzadas como la capacidad de procesamiento por lotes y en tiempo real, integración con herramientas de análisis y visualización populares, y la posibilidad de compartir datos de manera segura con otros usuarios.

Contexto general de BigQuery y Python usando la librería Pandas

Una de las ventajas clave de BigQuery es su capacidad para integrarse fácilmente con herramientas de análisis y visualización populares, como Pandas, una biblioteca de Python ampliamente utilizada para el análisis de datos. Exportar datos de BigQuery a Python con Pandas permite a los usuarios realizar análisis avanzados, crear visualizaciones impactantes y obtener insights valiosos de sus conjuntos de datos.

El proceso de exportación de datos de BigQuery a Python generalmente implica ejecutar consultas SQL dentro de BigQuery para seleccionar los datos relevantes y luego cargar los resultados en un DataFrame de Pandas. Una vez que los datos están en Python, los usuarios pueden utilizar toda la gama de funcionalidades que ofrece Pandas para limpiar, transformar y analizar los datos según sus necesidades específicas.

Desde la creación de tablas resumidas hasta la generación de gráficos y visualizaciones interactivas, la combinación de BigQuery y Pandas brinda a los usuarios una gran flexibilidad y potencia para explorar y comprender sus datos de manera más profunda. Esto facilita la identificación de patrones, tendencias y relaciones ocultas que pueden ser fundamentales para la toma de decisiones informadas y estratégicas en diversos contextos empresariales, científicos o académicos.

Exportar datos de BigQuery a Python

Exportar datos de BigQuery a Python es un proceso relativamente sencillo utilizando la biblioteca google-cloud-bigquery junto con pandas.

• Conecta a BigQuery desde Python utilizando la biblioteca google-cloud-bigquery.

• Configura las credenciales de autenticación de tu cuenta de servicio en Python.

• Conecta a BigQuery desde Python utilizando la biblioteca google-cloud-bigquery.

• Ejecuta una consulta SQL para obtener los datos que deseas.

  • Guarda los resultados en un DataFrame de pandas.

Reemplazar “bigquery_licores.json” con tu archivo JSON de credenciales de la cuenta de servicio.

Para acceder a Google Colab y utilizar Python junto con Pandas

• Abre tu navegador web y ve a https://colab.research.google.com.

• Inicia sesión con tu cuenta de Google. Si no tienes una, puedes crear una de forma gratuita.

• Una vez que hayas iniciado sesión, puedes crear un nuevo cuaderno haciendo clic en “Archivo” -> “Nuevo cuaderno” o “Archivo” -> “Subir cuaderno” para cargar uno desde tu dispositivo.

• En el cuaderno de Google Colab, puedes escribir tu código Python directamente en las celdas del cuaderno.

• Para utilizar Pandas, simplemente importa la biblioteca en una celda de código con import pandas as pd.

  • Y para cargar nuestra base de datos podemos usar tanto Drive como también añadirlo si lo tenemos en una carpeta en específico.

Importamos lo que vamos a necesitar para analizar nuestra base de datos

Este código utiliza la función pd.read_excel() de la biblioteca Pandas para leer un archivo de Excel y cargarlo en un DataFrame de Pandas.

Luego aplicaremos un data.head() para poder visualizar nuestra base de datos.(no se podrá ver toda la base de datos si es demasiado grande, pero si podrás trabajar con los datos).

Y con un data.shape podremos los rows y columns q tenemos realmente.

Explicado esto ya podemos iniciar a crear nuestras tablas o graficos.

El zid_code de cada city.

Nombre de la categoría por categoría.

Histograma de ventas.

Ventas a largo del tiempo

Ítem descripción de cada producto

Distribución de ventas por categoría (top10)

Conclusiones

En resumen, hemos explorado cómo exportar datos desde BigQuery a Python utilizando diferentes métodos, como el uso de la API de BigQuery directamente desde Python, el uso de Google Colab para ejecutar consultas y cargar datos, y cómo trabajar con archivos exportados, como archivos CSV o Excel, en Python utilizando la biblioteca Pandas.

Al utilizar BigQuery junto con Python, podemos aprovechar la potencia del análisis de datos en la nube para manejar grandes volúmenes de datos y realizar análisis complejos. Luego, podemos utilizar las capacidades de Python y las bibliotecas como Pandas, Matplotlib y Seaborn para visualizar y analizar estos datos de manera efectiva, generando tablas, gráficos y otros análisis que nos permiten extraer información valiosa y tomar decisiones informadas.

En conclusión, la combinación de BigQuery y Python ofrece una poderosa herramienta para el análisis de datos a escala, permitiendo a los usuarios trabajar con datos grandes de manera eficiente y realizar análisis avanzados con facilidad.

Referencias Bibliográficas

--

--