Explora los datos - WiDS Datathon 2020

Nathaly Alarcón
Jan 16, 2020 · 3 min read

La competencia de Women in Data Science ya está disponible en Kaggle. En este post te brindamos un notebook básico que te permitirá empezar a resolver el reto.

Para empezar a resolver la Datathon, es necesario familiarizarse con el problema, para ello, es necesario analizar los datos. Usaremos las funcionalidades de Google Colaboratory para crear nuestro notebook inicial.

Paso 1. Regístrate a la competencia en Kaggle. https://www.kaggle.com/c/widsdatathon2020

Paso 2. Obtén tu Api Key Token de Kaggle.

Sigue las instrucciones de la imagen.

Image for post
Image for post
Ve a “My Account” y en la sección de “API” selecciona la opción “Create New API Token”.

Cuando selecciones la opción “Create New API Token” se descargará de manera automática el archivo: kaggle.json.

Paso 3. Abre el notebook en Google Colaboratory

Accede a nuestro repositorio de Github: https://github.com/nathalyAlarconT/WiDS_Datathon_2020/blob/master/BasicDataExploration_WiDSDatathon2020.ipynb y selecciona la opción “Open in Colab”

Image for post
Image for post
Abre el notebook del repositorio con Google Colaboratory

También puedes abrir el notebook directamente desde Colab con el siguiente link: https://colab.research.google.com/drive/1_BdTVhBoE0GqVrNHV3r16nqLsioL9Qt0

Paso 4. Configura tu token de Kaggle en el notebook

Copia el contenido del archivo kaggle.json que descargaste en el paso 2. en la sección: “Configura tu ApiKey de Kaggle” del notebook.

!pip install kaggle
!mkdir ~/.kaggle
!touch ‘/root/.kaggle/kaggle.json’
###############################################
# IMPORTANTE
# Copia en la siguiente línea el contenido de tu archivo kaggle.json
api_token = {“username”:”username”,”key”:”TOKEN_HERE”}
###############################################with open(‘/root/.kaggle/kaggle.json’, ‘w’) as file:
json.dump(api_token, file)!chmod 600 /root/.kaggle/kaggle.json

Paso 5. Ejecuta todas las celdas del notebook

Para ejecutar todas las celdas desde Google Colab ve al menú: “Entorno de Ejecución” y haz clic en “Ejecutar todas”.

Image for post
Image for post
Ejecutar todas las celdas del notebook.

Paso 6. Explora los datos.

El notebook está diseñado para que puedas explorar los datos de manera visual. Hemos usado los formularios de Google Colab para crear listas desplegables y para que puedas interactuar con los gráficos.

Image for post
Image for post
Vista de los histogramas
Image for post
Image for post
Vista de los Boxplots.
Image for post
Image for post
Vista de los Scatterplots.

El código del notebook se encuentra documentado, puedes usarlo de base para seguir explorando el dataset con más visualizaciones, empezar a crear tus modelos y realizar las predicciones.

Con la comunidad @WiDS_LaPaz nos reuniremos los fines de semana para resolver el reto, síguenos en nuestras redes para estar al tanto.

Happy Coding! :)

Medium is an open platform where 170 million readers come to find insightful and dynamic thinking. Here, expert and undiscovered voices alike dive into the heart of any topic and bring new ideas to the surface. Learn more

Follow the writers, publications, and topics that matter to you, and you’ll see them on your homepage and in your inbox. Explore

If you have a story to tell, knowledge to share, or a perspective to offer — welcome home. It’s easy and free to post your thinking on any topic. Write on Medium