Dataset I/O

Pandas Dataframe

Dadan Dahman W.
Howdy Sysinfo
3 min readFeb 18, 2022

--

Pandas menyediakan berbagai method untuk membaca file, terdapat banyak file yang dapat dibaca/dapat disimpan oleh Pandas, tapi ada beberapa file yang paling umum dan sering digunakan oleh praktisi data seperti berikut ini:

  1. CSV (Comma Separated Values), antar data dalam satu baris dipisahkan oleh comma, “,”.
  2. TSV (Tab Separated Values), antar data dalam satu baris dipisahkan oleh “Tab”.
  3. Excel
  4. Google BigQuery
  5. SQL Query
  6. JSON (Java Script Object Notation)

Comma Separated Values atau CSV adalah suatu format data dalam basis data di mana setiap record dipisahkan dengan tanda koma (,) atau titik koma (;). Selain sederhana, format ini dapat dibuka dengan berbagai text-editor seperti Notepad, Wordpad, ataupun Microsoft Excel.

CSV dan TSV pada hakikatnya adalah tipe data text dengan perbedaan terletak pada pemisah antar data dalam satu baris. Pada file CSV, antar data dalam satu baris dipisahkan oleh comma, “,”. Namun, pada file TSV antar data dalam satu baris dipisahkan oleh “Tab”.

Read Dataset — CSV/TSV

Fungsi .read_csv digunakan untuk membaca file yang value-nya dipisahkan oleh comma (default), terkadang pemisah value-nya bisa di set ‘\t’ untuk file tsv (tab separated values).

Read Dataset — Excel

File Excel dengan ekstensi *.xls atau *.xlsx cukup banyak digunakan dalam menyimpan data. Pandas juga memiliki fitur untuk membaca file excel.

Read Dataset — JSON

Method .read_json() digunakan untuk membaca URL API yang formatnya JSON dan mengubahnya menjadi dataframe pandas. Method ini dapat digunakan seperti yang dicontohkan berikut ini:

Read Dataset — SQL

Fungsi .read_sql() atau .read_sql_query() digunakan untuk membaca query dari database dan translate menjadi pandas dataframe, contoh case ini database sqlite.

Jika menggunakan .read_sql_query

Read Dataset — Google BigQuery

Untuk data yang besar (big data), umumnya digunakan Google BigQuery. Layanan ini dapat digunakan jika telah memiliki Google BigQuery account.

Fungsi .read_gbq() digunakan untuk membaca Google BigQuery table menjadi dataframe pandas.

project_id=”XXXXXXXX” adalah ID dari Google BigQuery account.

--

--