Explora los datos - WiDS Datathon 2020

Nathaly Alarcón
Jan 16 · 3 min read

La competencia de Women in Data Science ya está disponible en Kaggle. En este post te brindamos un notebook básico que te permitirá empezar a resolver el reto.

Para empezar a resolver la Datathon, es necesario familiarizarse con el problema, para ello, es necesario analizar los datos. Usaremos las funcionalidades de Google Colaboratory para crear nuestro notebook inicial.

Paso 1. Regístrate a la competencia en Kaggle. https://www.kaggle.com/c/widsdatathon2020

Paso 2. Obtén tu Api Key Token de Kaggle.

Sigue las instrucciones de la imagen.

Ve a “My Account” y en la sección de “API” selecciona la opción “Create New API Token”.

Cuando selecciones la opción “Create New API Token” se descargará de manera automática el archivo: kaggle.json.

Paso 3. Abre el notebook en Google Colaboratory

Accede a nuestro repositorio de Github: https://github.com/nathalyAlarconT/WiDS_Datathon_2020/blob/master/BasicDataExploration_WiDSDatathon2020.ipynb y selecciona la opción “Open in Colab”

Abre el notebook del repositorio con Google Colaboratory

También puedes abrir el notebook directamente desde Colab con el siguiente link: https://colab.research.google.com/drive/1_BdTVhBoE0GqVrNHV3r16nqLsioL9Qt0

Paso 4. Configura tu token de Kaggle en el notebook

Copia el contenido del archivo kaggle.json que descargaste en el paso 2. en la sección: “Configura tu ApiKey de Kaggle” del notebook.

!pip install kaggle
!mkdir ~/.kaggle
!touch ‘/root/.kaggle/kaggle.json’
###############################################
# IMPORTANTE
# Copia en la siguiente línea el contenido de tu archivo kaggle.json
api_token = {“username”:”username”,”key”:”TOKEN_HERE”}
###############################################with open(‘/root/.kaggle/kaggle.json’, ‘w’) as file:
json.dump(api_token, file)!chmod 600 /root/.kaggle/kaggle.json

Paso 5. Ejecuta todas las celdas del notebook

Para ejecutar todas las celdas desde Google Colab ve al menú: “Entorno de Ejecución” y haz clic en “Ejecutar todas”.

Ejecutar todas las celdas del notebook.

Paso 6. Explora los datos.

El notebook está diseñado para que puedas explorar los datos de manera visual. Hemos usado los formularios de Google Colab para crear listas desplegables y para que puedas interactuar con los gráficos.

Vista de los histogramas
Vista de los Boxplots.
Vista de los Scatterplots.

El código del notebook se encuentra documentado, puedes usarlo de base para seguir explorando el dataset con más visualizaciones, empezar a crear tus modelos y realizar las predicciones.

Con la comunidad @WiDS_LaPaz nos reuniremos los fines de semana para resolver el reto, síguenos en nuestras redes para estar al tanto.

Happy Coding! :)

WiDSLaPaz

Somos parte de la comunidad global de Mujeres en Ciencia de Datos #WiDS2018 Buscamos la democratización de Inteligencia Artificial y Machine Learning.

Nathaly Alarcón

Written by

I code in my sleep - ♡ I love Coffee ♡ - Data Scientist

WiDSLaPaz

WiDSLaPaz

Somos parte de la comunidad global de Mujeres en Ciencia de Datos #WiDS2018 Buscamos la democratización de Inteligencia Artificial y Machine Learning.

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade