WiDSLaPaz
Published in

WiDSLaPaz

Comando de Kaggle para descargar el dataset a través del API.
Ve a “My Account” y en la sección de “API” selecciona la opción “Create New API Token”.
Contenido del archivo kaggle.json
# Required libraries
import json
import zipfile
import os
import pandas as pd
from PIL import Image
import random
root_path = ‘/content’
!pip install kaggle
!mkdir ~/.kaggle
!touch ‘/root/.kaggle/kaggle.json’
###############################################
# IMPORTANTE
# Copia en la siguiente línea el contenido de tu archivo kaggle.json
api_token = {“username”:”username”,”key”:”TOKEN_HERE”}
###############################################
with open(‘/root/.kaggle/kaggle.json’, ‘w’) as file:
json.dump(api_token, file)
!chmod 600 /root/.kaggle/kaggle.json
!kaggle competitions download -c widsdatathon2019
Contenido del dataset de Kaggle en Colab
for file in os.listdir():
if file.endswith(‘.zip’):
zip_ref = zipfile.ZipFile(file, ‘r’)
zip_ref.extractall()
zip_ref.close()
df_training = pd.read_csv(root_path+’/traininglabels.csv’)
tr_nsamples = len(df_training)
print(“Nro de registros en el dataset de training: “, tr_nsamples)
df_training.head()
Contenido del archivo: traininglabels.csv
# Visualize random samples
n_sample = random.randint(0,(tr_nsamples — 1))
print(“Sample id:”, n_sample)print(df_training.iloc[n_sample])
Image.open(root_path+’/train_images/’+df_training.iloc[n_sample][‘image_id’])
Imágenes aleatorias del dataset. A la derecha la imagen contiene plantaciones de palma (has_oilpalm = 1). A la izquierda la imagen no contiene plantaciones de palma (has_oilpam = 0)
tr_path = root_path+’/training_ready’
tr_path_train_im = root_path+’/train_images’
os.makedirs(tr_path, exist_ok=True)for index, row in df_training.iterrows():
tr_class = row[‘has_oilpalm’]
tr_image = row[‘image_id’]
# Create the class folder if it doesn’t exists yet.
os.makedirs(tr_path+’/’+str(tr_class), exist_ok=True)
# Copy files
os.system(‘cp ‘+tr_path_train_im+’/’+tr_image+’ ‘+tr_path+’/’+str(tr_class)+’/’+tr_image)
Imágenes de training separadas en sus respectivos folders.

--

--

--

Somos parte de la comunidad global de Mujeres en Ciencia de Datos #WiDS2018 Buscamos la democratización de Inteligencia Artificial y Machine Learning.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
Nathaly Alarcón

Nathaly Alarcón

I code in my sleep - ♡ I love Coffee ♡ - Data Scientist

More from Medium

SGPN paper explained

Introducing Notate ML

Capture ‘em all (Nyquist Frequency)

How I manage hundreds of NBA models