Exploratory Data Analysis (EDA)

Rusnandi Fikri
Leap Telkom
Published in
5 min readApr 3, 2023

Ketika dihadapkan dengan data pada sebuah usecase, banyak dari kita yang masih kebingungan tahapan awal apa yang harus dilakukan untuk mengolah data tersebut. Tentunya untuk mengolah data lebih lanjut, hal yang perlu kita lakukan adalah mengenali data tersebut lebih dalam lagi.

Pastinya banyak pertanyaan tentang data tersebut apabila kita belum mendalami lebih lanjut. Misalkan, berapa ya nilai rata-rata kolom A? Atau mungkin pertanyaan tentang ada atau tidaknya korelasi antara variabel A dengan variabel B. Pertanyaan-pertanyaan ini dapat kita jawab apabila kita lebih dalam lagi mengenali data kita. Hal ini dapat dilakukan dengan melihat karakteristik data dari bentuk distribusinya, melihat statistik deskriptif, mencari korelasi antar variabel, dsb.

Nah, segala macam hal yang kita lakukan untuk mengenali data inilah yang sering kita sebut dengan Exploratory Data Analysis (EDA). Dengan melakukan EDA inilah nantinya kita juga bisa memperoleh ide lebih lanjut tentang proses apa saja yang lebih baik kita lakukan untuk mengolah data kedepannya. Jadi, untuk yang masih bingung tentang data yang dimiliki atau pengolahan apa saja yang perlu kita lakukan pada data kita kedepannya, bisa dimulai dulu dengan melakukan EDA.

Mengenal EDA dan Metode Analysisnya

Exploratory Data Analysis (EDA) merupakan salah satu bagian dari proses data science. EDA dilakukan untuk lebih memahami data yang kita miliki sebelum melakukan proses selanjutnya seperti feature engineering dan modeling.

Exploratory Data Analysis dapat dilakukan dengan menggunakan berbagai tools seperti python, R, tableau, dan lain sebagainya. EDA memungkinkan kita untuk lebih memahami karakteristik dan isi data dengan melihat distribusi, frekuensi, korelasi, dll.

Secara umum EDA terbagi menjadi beberapa metode atau analisis yaitu:

  1. Analisis Satu Variabel (Univariate Analysis)
  2. Analisis Dua Variabel (Bivariate Analysis)
  3. Analisis Multi Variabel (Multivariate Analysis)

Kenapa kita perlu melakukan analisis univariate / bivariat / multivariate pada EDA?

Jawabannya adalah agar tujuan dari tindakan kita tercapai dengan benar. Sebagai Data Scientist umumnya melakukan dua hal utama yaitu machine learning dan inferensi statistik (tidak terbatas pada ini, aktivitas lain misalkan membuat data mart, membuat dashboard dsb).

Analisis Satu Variabel (Univariate Analysis)

Analisis univariat adalah teknik analisis statistik yang fokus pada satu variabel saja. Analisis ini digunakan untuk mendapatkan pemahaman yang lebih dalam tentang karakteristik dan distribusi dari satu variabel. Ini karena fokus pada satu variabel saja, univariate analysis ini tidak memungkinkan untuk melihat hubungan antar variabel.

Pada univariate analysis ini hal yang dapat kita lakukan pertama adalah melihat distribusi data. Hal ini dapat memberikan kita visualisasi tentang bentuk data yang kita miliki. Perlu diperhatikan juga bentuk distribusi datanya apakah simetris seperti gambar berikut:

ataukah bentuk datanya memiliki skew kanan/kiri.

Bentuk distribusi perlu diperhatikan karena biasanya pengolahan data dengan distribusi normal akan berbeda dengan pengolahan data yang memiliki distribusi skewed-right/ left. Atau mungkin ada kebutuhan untuk dilakukan transformasi data apabila kita memiliki distribusi yang skewed-right/ left dan ingin dijadikan distribusi normal. Hal ini biasanya dilakukan dengan log-transform.

Hal selanjutnya yang dapat dilakukan dengan univariate analysis adalah melihat statistik deskriptif dari data yang kita miliki. Nilai-nilai yang biasanya dilihat yaitu mean, median, modus, minimum, maksimum, q1, q3, dan banyaknya data.

Setelah itu kita dapat mengidentifikasi outlier. Hal ini sering dilakukan ketika kita ingin mengamati data bernilai ekstrim (memiliki nilai yang jauh dari pola nilai secara umum). Proses ini biasanya dilakukan dengan menggunakan boxplot.

Analisis Dua Variabel (Bivariate Analysis)

Analisis bivariat adalah teknik analisis statistik yang fokus pada dua variabel yang berkaitan. Analisis ini digunakan untuk menemukan korelasi atau hubungan antara dua variabel dan melihat bagaimana variabel yang satu mempengaruhi variabel yang lain.

Hal yang biasa dilakukan pada bivariate analysis yaitu mengidentifikasi korelasi antar dua variabel. Apabila datanya bersifat numerik, korelasi dapat diidentifikasi dari:

  • scatter plot
  • heatmap

Koefisien korelasi dapat kita hitung nilainya dengan menggunakan berbagai formula sesuai dengan karakteristik data dan kebutuhan yang ada. Beberapa metode yang dapat kita gunakan untuk menghitung korelasi yaitu Koeff Korelasi Pearson, Koeff Korelasi Kendall Tau, Koeff Korelasi Peringkat Spearman, dsb.

Analisis Multi Variabel (Multivariate Analysis)

Salah satu teknik yang digunakan dalam EDA adalah multivariate analysis. Multivariate analysis merupakan teknik analisis yang digunakan untuk menganalisis hubungan antara dua atau lebih variabel dalam satu dataset. Tujuan dari multivariate analysis adalah untuk menemukan pola atau hubungan antarvariabel yang tidak dapat ditemukan dengan analisis univariat atau bivariat.

Jenis-jenis multivariate analysis:

  • Principal Component Analysis (PCA)
  • Factor Analysis (FA)
  • Cluster Analysis (CA)
  • dan sebagainya

Principal Component Analysis (PCA)

PCA adalah metode untuk mereduksi dimensi dari data dengan memproyeksikan data ke dalam ruang yang lebih rendah. PCA mengidentifikasi variabel yang memiliki hubungan kuat dan menjadikannya sebagai variabel baru yang disebut dengan komponen utama. Komponen utama ini dapat menjelaskan variabilitas dari dataset yang asli.

Factor Analysis (FA)

FA adalah metode yang digunakan untuk mengidentifikasi variabel laten atau tidak terlihat yang berkontribusi pada pola dalam data. Variabel laten ini diidentifikasi berdasarkan korelasi antarvariabel dalam dataset. FA dapat digunakan untuk mengurangi dimensi dari dataset dan mengidentifikasi faktor-faktor yang mempengaruhi hubungan antarvariabel.

Cluster Analysis (CA)

CA adalah metode yang digunakan untuk mengelompokkan objek atau variabel berdasarkan kemiripannya. CA dapat membantu mengidentifikasi pola atau kelompok dalam data yang serupa dalam karakteristik. Dalam CA, objek atau variabel diklasifikasikan ke dalam kelompok atau cluster berdasarkan nilai variabel-variabel yang saling terkait.

Summary

Analisis EDA (Exploratory Data Analysis) adalah proses eksplorasi data yang bertujuan untuk memahami karakteristik dan struktur data, serta menemukan pola dan informasi yang mungkin tersembunyi dalam data. Ada tiga jenis analisis EDA, yaitu analisis univariat, bivariat, dan multivariat.

Masih banyak lagi metode-metode lain yang masih dalam ruang lingkup EDA selain dari tulisan in. Kita bebas menggunakan metode manapun yang berkenaan dengan EDA sesuai dengan kebutuhan usecase yang kita kerjakan.

Haloo perkenalkan saya Rusnandi Fikri sebagai Data Scientist Telkom Indonesia. Tertarik berkolaborasi dan bergabung bersama saya? Cek lowongan tersedianya di Careers Telkom.

--

--