Memahami Exploratory Data Analysis (EDA)

Tiarianda
5 min readMar 26, 2023

--

Saat ini, Data science menjadi faktor penting dalam proses analisis data. Belajar data science dapat dilakukan secara otodidak baik secara online atau offline. Salah satu metode terbaik untuk mempelajari data science adalah dengan langsung terjun dalam proyek dengan data dunia nyata. Melalui proyek data science, kita dapat memahami setiap proses yang dibutuhkan untuk membuat model Machine Learning atau bahkan hanya untuk menganalisis data dan menemukan insight. Tahap penting yang selalu dilakukan dalam setiap proyek Data Science dan Machine Learning adalah Exploratory Data Analysis atau biasa disingkat EDA.

Apa itu Exploratory Data Analysis (EDA)?

Exploratory data analysis adalah proses menganalisis sekumpulan data untuk meringkas karakteristik utamanya agar pengguna lebih memahami dataset yang akan digunakan. EDA bertujuan untuk mendeteksi kesalahan dari awal, dapat mengidentifikasi outlier, mengetahui hubungan antar data serta dapat menggali faktor-faktor penting dari data. Exploratory Data Analysis (EDA) sering menggunakan Python dan R karena kedua bahasa pemrograman ini sangat populer di dunia data science. Proses EDA ini sangat bermanfaat dalam proses analisis statistik. Secara umum terdapat beberapa teknik exploratory data analysis yaitu dengan menggunakan :

  1. Statistik deskriptif, yaitu mendeskripsikan atau merangkum data sehingga menghasilkan informasi secara umum tanpa bertujuan untuk menarik kesimpulan. Statistik deskriptif dapat menampilkan beberapa informasi penting seperti nilai rata-rata, median, modus, standar deviasi, variansi dan kecekungan. Statistik deskriptif ini dapat ditampilkan dalam berbagai bentuk seperti tabel, diagram, grafik, dll.
  2. Univariate analysis, yaitu menganalisis kolom secara terpisah dan melihat distribusi datanya. Univariate analysis secara umum terbagi dua, yaitu numerik dan kategorik. Analisis ini digunakan juga dengan tujuan untuk mengambil kesimpulan dengan menggunakan beberapa analisis inferensial yang mungkin digunakan. Terbagi menjadi : Analisis Univariat-Non Grafis, merupakan bentuk analisis data yang paling sederhana, di mana data yang dianalisis hanya terdiri dari satu variabel sehingga tidak berurusan dengan penyebab atau hubungan. Tujuan utama dari analisis univariat adalah untuk menggambarkan data dan menemukan pola-pola yang ada di dalamnya. Analisis Univariat-Grafis, metode ini diperlukan karena metode non grafis tidak bisa memberikan gambaran yang lengkap tentang data. Contoh grafik yang sering digunakan adalah steam and leaf, histogram, boxplot, dll.
  3. Multivariate analysis, yaitu menggabungkan beberapa kolom dengan tujuan menemukan hubungan antara satu kolom dengan kolom lainnya. Analisis multivariat ini melibatkan variabel dalam jumlah lebih atau sama dengan tiga variabel. Terbagi menjadi : Analisis Multivariate-Non Grafis, merupakan bentuk analisis yang menggunakan dua variabel atau lebih, sehingga Exploratory Data Analysis yang digunakan untuk menunjukkan hubungan antara variabel-variabel tersebut. Analisis Multivariat-Grafis, menggunakan grafik untuk menunjukkan hubungan antara variabel. Contoh grafik yang bisa digunakan adalah scatter plot, run chart, heat map, bubble chart, dll.

Pentingnya Exploratory Data Analysis

Ketika melakukan analisis data, exploratory data analysis (EDA) merupakan proses yang penting dan sebaiknya tidak dilewatkan. EDA memungkinkan pengguna untuk menghemat waktu dalam proses analisis data, mendeteksi kesalahan dalam data seperti missing value, outliers, duplikasi, encoding, data noisy, dan data tidak lengkap.

Jika EDA tidak dilakukan, maka mungkin terjadi kesalahan berulang dalam proses analisis dan hasil analisis yang kurang valid dan relevan dengan tujuan bisnis. Dengan melakukan EDA, pengguna dapat melihat data secara keseluruhan sebelum membuat asumsi apa pun, sehingga dapat mengidentifikasi kesalahan-kesalahan dalam data sejak awal. Oleh karena itu, EDA merupakan proses penting yang harus dilakukan sebelum memulai analisis data.

Teknik Teknik dalam Exploratory Data Analysis

Descriptive Analysis

Descriptive analysis adalah salah satu teknik dalam Exploratory Data Analysis yang digunakan untuk menggambarkan karakteristik dasar dari data. Tujuan utama dari descriptive analysis adalah untuk memberikan gambaran umum tentang data, seperti ukuran sampel, rata-rata, median, modus, standar deviasi, rentang, dan sebagainya.

Metode yang biasanya digunakan dalam descriptive analysis adalah statistik deskriptif dan visualisasi data. Statistik deskriptif dapat memberikan informasi numerik tentang data, seperti central tendency (mean, median, mode), dispersion (range, variance, standard deviation), dan distribusi (skewness, kurtosis). Sementara itu, visualisasi data dapat membantu kita memahami pola dan hubungan dalam data dengan membuat grafik atau diagram seperti histogram, box plot, scatter plot, dan sebagainya.

Dalam descriptive analysis, tidak ada hipotesis yang diuji atau model yang dibangun. Namun, analisis ini memberikan pemahaman awal yang penting tentang data sebelum melakukan analisis yang lebih kompleks seperti inferential analysis atau machine learning.

Diagnostic Analysis

Diagnostic analysis adalah teknik dalam data analysis yang digunakan untuk mengidentifikasi penyebab atau faktor yang berkontribusi terhadap suatu peristiwa atau fenomena yang diamati dalam data. Metode ini melibatkan analisis lebih dalam dan kompleks daripada descriptive analysis, karena mengharuskan analis untuk mempertimbangkan faktor-faktor yang mungkin mempengaruhi hasil atau kejadian tertentu.

Teknik yang digunakan dalam diagnostic analytic meliputi regresi, analisis multivariat, dan teknik pemodelan statistik lainnya. Regresi adalah teknik yang digunakan untuk mengukur hubungan antara satu atau beberapa variabel independen dengan variabel dependen. Analisis multivariat memungkinkan analis untuk mempertimbangkan banyak variabel dalam analisis, dan dapat mengidentifikasi hubungan yang kompleks dan interaksi antara variabel-variabel tersebut. Pemodelan statistik juga dapat digunakan untuk mengembangkan model prediktif yang dapat digunakan untuk memperkirakan hasil yang mungkin terjadi dalam situasi tertentu.

Diagnostic analysis biasanya digunakan dalam situasi ketika analis ingin mengidentifikasi faktor-faktor yang mempengaruhi hasil atau kejadian tertentu, misalnya dalam analisis penyebab kecelakaan atau analisis kinerja bisnis. Tujuan akhir dari diagnostic analytic adalah untuk memberikan wawasan dan pemahaman yang lebih dalam tentang data, yang dapat membantu pengambilan keputusan yang lebih baik.

Predictive Analysis

Predictive analysis adalah teknik analisis data yang digunakan untuk membuat prediksi tentang hasil atau kejadian yang belum terjadi berdasarkan data historis. Metode ini melibatkan penggunaan algoritma Machine Learning dan Statistical Modeling untuk menganalisis data historis, mengidentifikasi pola dan tren, dan menggunakan informasi ini untuk membuat prediksi tentang masa depan.

Dalam predictive analysis, analis mencoba untuk membangun model prediktif yang dapat digunakan untuk memperkirakan hasil masa depan berdasarkan data yang tersedia. Metode yang digunakan dalam predictive analytics meliputi regresi, decision trees, neural networks, dan model time-series.

Predictive analysis dapat diterapkan di berbagai bidang, seperti bisnis, kesehatan, keuangan, dan lainnya. Contoh penggunaannya adalah untuk memprediksi penjualan di masa depan berdasarkan data historis penjualan, memprediksi kemungkinan keterlambatan penerbangan berdasarkan data cuaca dan jadwal penerbangan sebelumnya, dan memprediksi risiko kesehatan seseorang berdasarkan riwayat kesehatan dan faktor risiko lainnya.

Tujuan utama dari predictive analysis adalah untuk membantu pengambilan keputusan dengan memberikan informasi yang akurat dan berguna tentang hasil yang mungkin terjadi di masa depan. Dengan memiliki prediksi yang lebih baik tentang masa depan, perusahaan atau organisasi dapat mengambil keputusan yang lebih baik, mengoptimalkan proses bisnis, dan meningkatkan kinerja secara keseluruhan.

Prescriptive analysis

Prescriptive analysis adalah teknik analisis data yang digunakan untuk memberikan rekomendasi tentang tindakan atau keputusan yang harus diambil berdasarkan hasil analisis data dan informasi yang tersedia. Metode ini melibatkan kombinasi dari beberapa teknik analisis data, seperti descriptive analysis, diagnostic analysis, dan predictive analytics, untuk mengidentifikasi solusi terbaik yang meminimalkan risiko dan mengoptimalkan hasil.

Dalam prescriptive analysis, analis mengidentifikasi berbagai opsi yang tersedia dan mempertimbangkan konsekuensi dari setiap opsi. Kemudian, menggunakan model matematis dan algoritma, mereka memperkirakan hasil dari setiap opsi dan memilih opsi yang memberikan hasil terbaik. Prescriptive analysis seringkali dilakukan dalam kombinasi dengan teknologi seperti Artificial Intelligence dan Machine Learning untuk mengoptimalkan proses dan meningkatkan akurasi hasil.

Contoh penggunaan dari prescriptive analysis adalah untuk memberikan rekomendasi tentang pengelolaan rantai pasokan, optimasi pemanfaatan sumber daya, rencana pemasaran, dan keputusan investasi. Dengan mengoptimalkan keputusan dan tindakan yang diambil, perusahaan atau organisasi dapat mengurangi risiko dan meningkatkan efisiensi serta profitabilitas.

Tujuan utama dari prescriptive analysis adalah untuk memberikan solusi dan rekomendasi yang lebih baik dan lebih akurat kepada pengambil keputusan, sehingga mereka dapat membuat keputusan yang lebih baik dan meminimalkan risiko serta meningkatkan kinerja organisasi secara keseluruhan

Arsitektur Exploratory Data Analysis

Taboada, Guillermo & Seruca, Isabel & Sousa, Cristina & Pereira, Ángeles. (2020). Exploratory Data Analysis and Data Envelopment Analysis of Construction and Demolition Waste Management in the European Economic Area. Sustainability. 12. 4995. 10.3390/su12124995.

--

--