Explora los datos - WiDS Datathon 2020

Nathaly Alarcon Torrico
WiDSLaPaz
Published in
3 min readJan 16, 2020

La competencia de Women in Data Science ya está disponible en Kaggle. En este post te brindamos un notebook básico que te permitirá empezar a resolver el reto.

Para empezar a resolver la Datathon, es necesario familiarizarse con el problema, para ello, es necesario analizar los datos. Usaremos las funcionalidades de Google Colaboratory para crear nuestro notebook inicial.

Paso 1. Regístrate a la competencia en Kaggle. https://www.kaggle.com/c/widsdatathon2020

Paso 2. Obtén tu Api Key Token de Kaggle.

Sigue las instrucciones de la imagen.

Ve a “My Account” y en la sección de “API” selecciona la opción “Create New API Token”.

Cuando selecciones la opción “Create New API Token” se descargará de manera automática el archivo: kaggle.json.

Paso 3. Abre el notebook en Google Colaboratory

Accede a nuestro repositorio de Github: https://github.com/nathalyAlarconT/WiDS_Datathon_2020/blob/master/BasicDataExploration_WiDSDatathon2020.ipynb y selecciona la opción “Open in Colab”

Abre el notebook del repositorio con Google Colaboratory

También puedes abrir el notebook directamente desde Colab con el siguiente link: https://colab.research.google.com/drive/1_BdTVhBoE0GqVrNHV3r16nqLsioL9Qt0

Paso 4. Configura tu token de Kaggle en el notebook

Copia el contenido del archivo kaggle.json que descargaste en el paso 2. en la sección: “Configura tu ApiKey de Kaggle” del notebook.

!pip install kaggle
!mkdir ~/.kaggle
!touch ‘/root/.kaggle/kaggle.json’
###############################################
# IMPORTANTE
# Copia en la siguiente línea el contenido de tu archivo kaggle.json
api_token = {“username”:”username”,”key”:”TOKEN_HERE”}
###############################################with open(‘/root/.kaggle/kaggle.json’, ‘w’) as file:
json.dump(api_token, file)!chmod 600 /root/.kaggle/kaggle.json

Paso 5. Ejecuta todas las celdas del notebook

Para ejecutar todas las celdas desde Google Colab ve al menú: “Entorno de Ejecución” y haz clic en “Ejecutar todas”.

Ejecutar todas las celdas del notebook.

Paso 6. Explora los datos.

El notebook está diseñado para que puedas explorar los datos de manera visual. Hemos usado los formularios de Google Colab para crear listas desplegables y para que puedas interactuar con los gráficos.

Vista de los histogramas
Vista de los Boxplots.
Vista de los Scatterplots.

El código del notebook se encuentra documentado, puedes usarlo de base para seguir explorando el dataset con más visualizaciones, empezar a crear tus modelos y realizar las predicciones.

Con la comunidad @WiDS_LaPaz nos reuniremos los fines de semana para resolver el reto, síguenos en nuestras redes para estar al tanto.

Happy Coding! :)

--

--

Nathaly Alarcon Torrico
WiDSLaPaz

I code in my sleep - ♡ I love Coffee ♡ - Data Scientist — Google Developer Expert in Machine Learning - Google Cloud Champion Innovator