Exploratory Data Analysis adalah . . .

Lintang Gilang Pratama
Lintang Gilang
Published in
5 min readDec 7, 2020
Photo by Kunal Shinde on Unsplash

Exploratory Data Analysis (EDA) adalah secara ringkas dapat diartikan sebagai suatu proses pemahaman data untuk memperoleh informasi sebanyak-banyak nya.

Bagaimana cara melakukan Exploratory Data Analysis (EDA)? Seorang analyst akan menggunakan banyak tehnik dalam melakukan EDA dan metode yang akan digunakan akan berbeda-beda, sehingga tidak terdapat aturan baku dalam melakukan suatu analisa data, namun secara garis beras terbagi menjadi empat tahapan yaitu :
1. Mencari tahu tipe dan ukuran data melalui Data Dictionary
2. Analisa deskriptif
3. Membuat list pertanyaan untuk ditanyakan pada data
4. Visualisasi Data

Contoh Exploratory Data Analysis (EDA)

Pada tulisan ini akan diberikan contoh EDA dengan dataset titanic dari website kaggle

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv('train.csv', index_col = 'PassengerId')

Mencari tahu tipe data melalui Data Dictionary

Data dictionary adalah informasi mengenai data seperti arti, relasi dengan data yang lain, asal data, penggunaan dan format. biasnya diperoleh dari Data Warehouse. Data Dictionary untuk data titanic adalah

  1. Survived : 0 = No, 1 = Yes
  2. Pclass : Kelas (1 = 1st, 2 = 2nd, 3 = 3rd)
  3. Name : Nama penumpang
  4. Sex : Gender penumpang
  5. Age : Usia penumpang
  6. SibSp : Jumlah saudara atau pasangan
  7. Parch : Jumlah anak atau orang tua
  8. Ticket : Nomor tiket
  9. Fare : Harga pembelian tiket
  10. Cabin : Nomor kabin
  11. Embarked : Kota keberangkatan (C = Cherbourg, Q = Queenstown, S = Southampton)
df.columns
df.info()

Berikut adalah contoh informasi yang diperoleh adalah

  1. Data terdiri dari 7 data kategorik (object) yaitu Survived, Pclass, Name, Sex, Ticket, Cabin dan Embarked
  2. Data terdiri dari 4 data numerik yaitu Age, SibSp, Parch dan Fare
  3. Pada feature Age terdapat 177 missing value
  4. Pada feature Cabin terdapat 687 missing value
  5. Pada feature Embarked terdapat 2 missing value

Pada tahap ini analyst akan mengambil keputusan apakah data perlu dicleansing? apakah missing value akan didrop atau di-impute? feature mana saja yang dapat dianalisa?

Analisa deskriptif

df.describe()
df.Survived.value_counts("Survived")
df.Survived.value_counts("Pclass")
df.Survived.value_counts("Sex")
pd.crosstab(df.Pclass, df.Survived)
pd.crosstab(df.Sex, df.Survived)

Berikut adalah contoh informasi yang diperoleh pada Analisa Deskritif adalah

  1. Rata-rata usia penumpang adalah 29 tahun dengan std ± 14 tahun
  2. Diketahui 61% Penumpang titanic selamat
  3. 55% penumpang titanic adalah kelas-3
  4. Gender paling banyak adalah “male”
  5. Penumpang kelas-3 kebanyak tidak selamat
  6. Walaupun “male” adalah gender paling banyak namun gender yang banyak tidak selamat adalah “male”

Membuat list pertanyaan untuk ditanyakan pada data

Membuat list pertanyaan merupakan tahap yang paling krusial dimana analyst membuat suatu hipotesis atau pertanyaan dari data untuk mendapat informasi, sehingga analyst banyak menghabiskan waktu dalam tahapan ini karena pertanyaan yang dibuat harus relevan dengan data dan terkadang dituntut untuk “out off the box”. Pertanyaan yang dibuat bisa termasuk analisa deskriptif yang belum dilakukan, analisa analisa sebab-akibat, melakukan klasifikasi data dan sebagai nya, sehingga untuk membuat suatu pertanyaan yang baik dibutuhkan knowledge dan pengalaman yang tinggi, tahapan ini dapat dilakukan diawal dan saat melakukan analisa data. Setelah pertanyaan atau hipotestis dibuat, seorang analyst akan melakukan olah data untuk mendapat jawaban dari pertanyaan tersebut, jika proses analisa menggunakan programming tentu akan membutuhkan waktu yang lebih lama.

“proses pembuatan list pertanyaan sebaik ditulis tidak hanya dikepala saja”

Contoh pertanyaan
1. Jika wanita adalah gender yang paling banyak selamat dan penumpang kelas 3 kebanyakan tidak selamat, apakah wanita dikelas 3 juga paling banyak selamat dikelas nya?
2. Jika suatu kapal dalam keadaan darurat biasanya yang diutamakan adalah wanita dan anak-anak, apakah wanita dan anak-anak yang paling banyak selamat?
3. Apakah terdapat suatu ciri-ciri penumpang yang selamat dan tidak selamat?
4. Apakah data ini termasuk data kru kapal? Bagaimana cara deteksi mana yang merupakan kru kapal?
5. Metode machine learning apa yang cocok untuk data untuk prediksi selamat atau tidak? Kenapa?

Photo by Scott Graham on Unsplash

Visualisasi Data

Pengambilan suatu keputusan haruslah didasarkan pada data dan fakta yang ada. Agar data tersebut lebih mudah dipahami, maka data harus divisualisasikan

“Un bon croquis vaut mieux qu’un long discours” (Napoleon, Kaisar Perancis)

“Sketsa yang bagus lebih baik daripada pidato yang panjang”

Sketsa yang dimaksud Napoleon adalah data yang telah divisualisasikan dengan baik sehingga bisa dipahami. Di sini jelas bahwa visualisasi data diperlukan supaya penyampaian informasi jauh lebih efektif. Visualisasi data dapat dilakukan saat dan sesudah melakukan analisa

Contoh Visualisasi Data

cat_var = ['Pclass','Sex']fig, axes = plt.subplots(1,2, figsize=(10,5))
for cat, ax in zip(cat_var, axes.flatten()):
sns.countplot(cat, data=df, hue='Survived',ax=ax)

Terimakasih

Lintang Gilang

--

--