Dataset I/O
Pandas Dataframe
Pandas menyediakan berbagai method untuk membaca file, terdapat banyak file yang dapat dibaca/dapat disimpan oleh Pandas, tapi ada beberapa file yang paling umum dan sering digunakan oleh praktisi data seperti berikut ini:
- CSV (Comma Separated Values), antar data dalam satu baris dipisahkan oleh comma, “,”.
- TSV (Tab Separated Values), antar data dalam satu baris dipisahkan oleh “Tab”.
- Excel
- Google BigQuery
- SQL Query
- JSON (Java Script Object Notation)
Comma Separated Values atau CSV adalah suatu format data dalam basis data di mana setiap record dipisahkan dengan tanda koma (,) atau titik koma (;). Selain sederhana, format ini dapat dibuka dengan berbagai text-editor seperti Notepad, Wordpad, ataupun Microsoft Excel.
CSV dan TSV pada hakikatnya adalah tipe data text dengan perbedaan terletak pada pemisah antar data dalam satu baris. Pada file CSV, antar data dalam satu baris dipisahkan oleh comma, “,”. Namun, pada file TSV antar data dalam satu baris dipisahkan oleh “Tab”.
Read Dataset — CSV/TSV
Fungsi .read_csv
digunakan untuk membaca file yang value-nya dipisahkan oleh comma (default), terkadang pemisah value-nya bisa di set ‘\t’ untuk file tsv (tab separated values).
import pandas as pd# File CSV
df_csv = pd.read_csv("https://raw.githubusercontent.com/dadandw/heart_failure_data/main/heart_failure_clinical_records_dataset.csv")
print(df_csv.head(3)) # Menampilkan 3 data teratas# File TSV
df_tsv = pd.read_csv("https://raw.githubusercontent.com/dadandw/heart_failure_data/main/heart_failure_clinical_records_dataset.csv", sep='\t')
print(df_tsv.head(3)) # Menampilkan 3 data teratas
Read Dataset — Excel
File Excel dengan ekstensi *.xls atau *.xlsx cukup banyak digunakan dalam menyimpan data. Pandas juga memiliki fitur untuk membaca file excel.
import pandas as pd# File xlsx dengan data di sheet "test"
df_excel = pd.read_excel("https://github.com/dadandw/heart_failure_data/blob/main/heart_failure_dataset.xlsx", sheet_name="heart_failure_dataset")
print(df_excel.head(4)) # Menampilkan 4 data teratas
Read Dataset — JSON
Method .read_json()
digunakan untuk membaca URL API yang formatnya JSON dan mengubahnya menjadi dataframe pandas. Method ini dapat digunakan seperti yang dicontohkan berikut ini:
import pandas as pd# File JSON
url = "https://raw.githubusercontent.com/dadandw/heart_failure_data/main/heart_failure_data.json"
df_json = pd.read_json(url)
print(df_json.head(10)) # Menampilkan 10 data teratas
Read Dataset — SQL
Fungsi .read_sql()
atau .read_sql_query()
digunakan untuk membaca query dari database dan translate menjadi pandas dataframe, contoh case ini database sqlite.
import pandas as pd
import mysql.connector# membuat koneksi ke database
my_conn = mysql.connecter.connect(host = "relational.fit.cvut.cz",
port = 3306,
user = "guest",
passwd = "relational",
database = "financial",
use_pure = True)
# buatlah query sql untuk membaca loanmy_query = """
SELECT *
FROM loan;
"""
Jika menggunakan .read_sql_query
# gunakan .read_sql_query untuk membaca tabel
df_loan = pd.read_sql_query(my_query, my_conn)# menggunakan read_sql
df_loan = pd.read_sql(my_quey, my_conn)
Read Dataset — Google BigQuery
Untuk data yang besar (big data), umumnya digunakan Google BigQuery. Layanan ini dapat digunakan jika telah memiliki Google BigQuery account.
Fungsi .read_gbq()
digunakan untuk membaca Google BigQuery table menjadi dataframe pandas.
import pandas as pd# buat query
query = """
FROM 'bigquery-public-data.covid19_jhu_csse_eu.summary'
LIMIT 1000;
"""# baca data dari bigquery
df_covid19 = pd.read_gbq(query, project_id = "XXXXXXX")
project_id=”XXXXXXXX”
adalah ID dari Google BigQuery account.
Referensi :