Como importar um dataset do Kaggle para o Google Colab
Com esse passo a passo irei demonstrar como importar um dataset do Kraggle para o Google Colab.
Os primeiros passos serão diretamente no Kaggle.
- Cadastre-se no site do Kaggle;
- Após o aceite e confirmações, clique no balão do canto superior direito para acessar suas configurações
- Role a página para baixo e vá até Create New API Token:
4. Salve o arquivo .json em uma pasta conhecida, pois você será solicitado a fazer o upload desse arquivo no Google Colab;
5. Vá até a competição da qual você deseja utilizar o dataset;
6. Clique no botão Join Competition:
7. No menu superior clique em Data (1) e depois clique no botão copiar link (2). Esse link será utilizado no Google Colab
Agora podemos ir para a aba do Google Colab.
No Google Colab iremos copiar o código abaixo:
Caso seja necessário remova o # da linha 1 para atualizar a biblioteca do Kaggle;
As linhas 2 e 3 são serão utilizadas para enviar o arquivo kaggle.json baixado no passo 3 anteriormente;
As linhas 6 a 11 irão criar uma pasta para download do material diretamente do kaggle no notebook e alterar as configurações de permissão para evitar alertas da biblioteca do kaggle;
Na linha 14 você deverá colar a linha referente ao passo 7, o endereço do dataset que você deseja utilizar. No exemplo apresentado estou fazendo a utilizada do dataset house-prices-advanced-regression-techniques. Atenção ao ! no início da linha, necessário para que seja executada a linha de comando;
A linha 17 irá descompactar o arquivo baixado.
Agora é utilizar o comando do pandas para fazer a leitura do arquivo .csv desejado:
Nesse exemplo estou utilizando o dataset de treino (train.csv)
Por enquanto é apenas isso. Não deixe de conferir nos próximos stories onde irei mostrar como enviar o resultado diretamente do Google Colab para o Kaggle.
Para acessar esse projeto e outros mais veja:
Meu portfólio de projetos: Github