Cara Efektif untuk Mengelola File di Google Colab

Fahmi Salman
Miloo Community
Published in
3 min readSep 4, 2020

Tips menggunakan third-party storage di Google Colab

Photo by Viktor Talashuk on Unsplash

Di artikel sebelumnya, kita sudah membahas mengenai apa itu Google Colab, serta kelebihan dan kekurangan dari Google Colab. Dari artikel sebelumnya juga sudah kita bahas bahwa kekurangan dari Google Colab adalah media penyimpanannya yang hanya sementara dikarenakan session yang diberikan cukup terbatas.

Jika kita hanya menggunakan Google Colab sekali-sekali, atau file yang kita unggah cukup kecil mungkin tidak masalah. Yang jadi masalah adalah jika kasus kita adalah kita sering menggunakannya dan file yang harus kita unggah juga besar. Hal tersebut mungkin akan sangat mengganggu jika kita harus mengunggah setiap saat file atau model yang dibutuhkan setiap kali kita menggunakan Google Colab.

Untuk mengatasi hal tersebut, di postingan ini saya akan memberikan tips mengenai cara efektif untuk mengelola file di Google Colab.

Google Drive

Cara pertama yang bisa dilakukan adalah menghubungkannya dengan Google Drive. Jadi data yang akan kita gunakan atau pernah kita gunakan akan disimpan di Google Drive. Untuk menghubungkan Google Colab dengan Google Drive adalah dengan menggunakan kode di bawah ini.

from google.colab import drive
drive.mount('/content/drive')

Atau kita bisa juga dengan menekan icon berikut.

Setelah kita menekan icon tersebut, biasanya terdapat cell baru berisi kode diatas, kemudian run kode tersebut. Setelah kode tersebut dijalankan, maka kita akan diminta memasukan kode autentikasi. Kode autentikasi tersebut bisa kita dapat dengan melakukan klik pada tautan yang diberikan. Setelah itu copy-paste kode autentikasi tersebut.

Jika autentikasi berhasil, semua file dan folder di Google Drive Anda akan dapat diakses dari folder bernama “My Drive”.

Sebagai tambahan, jumlah penyimpanan yang tersedia sesuai dengan penyimpanan Google Drive masing-masing. Jadi pastikan bahwa Google Drive memiliki cukup ruang untuk melakukan penyimpanan.

Git

Jika kita tidak dapat menggunakan Google Drive karena drive penyimpanan penuh. Kita juga dapat menggunakan git sebagai media penyimpanan. Salah satunya kita bisa menggunakan Github. Github memiliki batas penyimpanan 100 GB per repositori dan 100 MB per file. Hal tersebut akan sangat berguna, apalagi jika dibandingkan dengan Google Drive versi gratis yang hanya menyediakan penyimpanan 15GB.

Untuk melakukan clone pada remote git, Anda dapat melakukannya dengan perintah git secara umum dengan menambahkan tanda seru di awal. Sebagai tambahan, penggunaan tanda seru diawal untuk membedakan perintah python dan perintah Linux. Sebagai contoh:

!git clone https://github.com/keras-team/keras.git

Jika ingin melakukan push ke git remote, ada beberapa konfigurasi yang harus dilakukan. Pertama-tama adalah menginisiasi git repository.

!git init

Lalu, set global email dan username.

!git config — global user.email “You@Your.com”
!git config — global user.name “Username”

Tambahkan file

!git add .

Commit

!git commit -m "first commit"

Dan inilah line paling penting, ketika kita menambahkan git remote origin, kita harus meneruskan credential Github kita.

!git remote add origin https://<username>:<password>github@github.com/<username>/reponame.git

Dan yang terakhir, push.

!git push -u origin master

Wget

Google Colab dibuat pada mesin Linux berbasis Debian, oleh karena itu cara termudah untuk mengunduh data melalui jaringan adalah wget. Kita dapat mengunggah file di suatu tempat, setelah itu Anda dapat mengunduh dari notebook cell code dan menggunakan perintah shell ini: wget.

Misalnya jika kita ingin mengambil data wikipedia. Kita dapat langsung mengunduhnya ke Google colab Anda dengan menggunakan perintah berikut.

!wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles-multistream-index.txt.bz2

Jika kamu memiliki metode lain yang biasa kamu gunakan, kamu dapat menuliskannya di komentar. Sekian yang bisa saya sampaikan, semoga bermanfaat!

--

--