DATA BIAS, NOISE, & OUTLIER

Data and Analytics
7 min readApr 23, 2022

--

Pendahuluan

Exploratory Data Analysis (EDA) merupakan tahap awal yang sangat penting pada saat ingin menganalisa suatu data, sehingga dapat menghasilkan analisa yang baik. Proses ini bertujuan untuk mengidentifikasi pola suatu data, pendeteksian noise dan outlier data, serta menggali informasi penting lainnya dari data. Oleh karena itu, untuk mencapai hasil analisa yang baik dan akurat, kita harus mengatasi masalah-masalah yang sering muncul di dalam kumpulan data seperti data bias, data noise, dan data outlier. Pada pembahasan ini, penulis akan membahas pengertian dari masing-masing masalah yang telah disebutkan, bagaimana cara mengidentifikasi dan mengatasi masalah yang sering muncul pada saat kita melakukan EDA.

A. Data Noise

Masalah umum yang sering dijumpai ketika menganalisa suatu data adalah ditemukannya data noise. Data noise merupakan jenis data yang mengandung suatu error, yaitu nilai atribut yang tidak benar dan menyimpang dibandingkan nilai lainnya. Data ini dapat terjadi karena adanya kesalahan pengukuran, kesalahan dalam proses pelabelan atau input, transmisi data yang tidak sempurna serta inkonsistensi seperti adanya duplikasi data yang sama dengan format yang berbeda, kesalahan penamaan, dan lain sebagainya.

Tabel 1 Jenis Kelamin
Tabel 2 Salary

Tabel 1 dan Tabel 2 adalah contoh noise di dalam data, dapat dilihat bahwa jenis kelamin Ayu di input dengan simbol N dan salary bernilai negatif. Hal ini dapat menyebabkan dalam kesalahan analisa pada proses selanjutnya.

Beberapa contoh lainnya dari data noise adalah sebagai berikut:

· Misalkan rating sebelumnya di input dengan notasi “1,2,3” sedangkan saat. ini di input dengan notasi “A,B,C”.

Misalkan rating sebelumnya di input dengan notasi “1,2,3” sedangkan saat ini di input dengan notasi “A,B,C”.

B. Outliers

Outlier atau pencilan diartikan sebagai nilai dalam data yang tampak menyimpang atau tidak representatif, atau dengan kata lain memiliki nilai yang ekstrim. Menurut Kleinbum dkk (2008) outlier merupakan sesuatu yang langka atau observasi yang memiliki titik ekstrim dari kumpulan data [1]. Titik ekstrim dalam observasi ini merupakan nilai yang jauh atau berbeda dengan sebagian besar nilai lain dalam kelompoknya, misalnya nilai tersebut terlalu kecil atau terlalu besar. Berbeda dengan noise data, outlier merupakan data yang valid dan bukan noise [6].

Masalah outlier yang muncul di dalam data sudah lama menjadi perhatian, karena nilai ini yang dapat mengurangi dan mendistorsi informasi dalam kumpulan data. Sehingga diperlukan suatu cara untuk mendeteksi dan menangani outlier di dalam data. Gambar 1 menunjukkan contoh outlier yang terdapat pada data multivariat.

Gambar 1 Outlier data multivariat (Source: https://www.quora.com/What-is-the-definition-of-an-outlier)

Dapat dilihat bahwa outlier menunjukkan nilai yang berbeda secara signifikan jika dibandingkan dengan nilai lainnya. Contoh lain misalnya dalam suatu observasi terdapat 4 total data yang merupakan kesalahan pengukuran, dimana kesalahan pengukuran adalah nilai yang digaris bawahi pada nilai berikut:

Tiga dari empat kesalahan pengukuran menghasilkan nilai yang tidak signifikan dibandingkan dengan nilai lainnya, dengan demikian tidak dianggap sebagai outlier. Oleh karena itu, dalam observasi ini hanya nilai 17,64 yang merupakan outlier. Oleh karena itu, penulis akan membahas mengenai penyebab adanya outliers di dalam data, apa saja efek yang ditimbulkan dari outlier, bagaimana cara mengidentifikasi outlier, dan cara mengatasi outlier.

Penyebab Munculnya Outlier

Beberapa hal penyebab munculnya outlier dalam kumpulan data adalah sebagai berikut:

Measurement Error — Hal ini disebabkan pada saat pengukuran, sebagai contoh misalnya alat pengukuran yang digunakan rusak.

Data Entry Error — Hal ini disebabkan oleh faktor human errors seperti kesalahan selama proses pengumpulan data, perekaman, atau entri data yang dapat menyebabkan outlier dalam data.

Experimental Error — Hal ini disebabkan pada saat proses ekstraksi data pada saat eksperimen dijalankan.

Data Preprocessing Error — Ini disebabkan pada saat memanipulasi atau ekstraksi pada saat data dikumpulkan.

Sampling Error — Hal ini terjadi ketika seseorang mengekstrasi atau menggabungkan data dari sumber yang salah.

Intentional Outlier — Ini adalah outlier dummy yang dibuat untuk menguji suatu metode.

Natural Outlier — Jika penyebab munculnya suatu outlier muncul bukan karena kesalahan, maka outlier tersebut adalah terjadi secara alami.

Pengaruh Outlier pada Kumpulan Data

Beberapa dampak yang paling sering muncul pada kumpulan data yang mengandung outlier adalah sebagai berikut:

  1. Meningkatkan error variansi dan mengurangi kekuatan uji statistik.
  2. Dapat menyebabkan bias dan atau mempengaruhi estimasi suatu model.
  3. Berpengaruh terhadap asumsi model regresi serta model statistik lainnya.
  4. Membuat parameter model berubah secara drastis, sehingga dapat berpengaruh pada nilai akurasi suatu model dan selanjutnya dalam menyebabkan kesalahan prediksi model.

Cara Mengidentifikasi Outlier pada Kumpulan Data

Salah satu cara untuk mendeteksi kemunculan outlier di dalam data adalah menggunakan visualisasi. Dalam analisis data, visualisasi data digunakan untuk menyajikan data secara grafis yang bertujuan untuk memberikan wawasan terhadap data tersebut.

Ada dua jenis outlier pada kumpulan data, yaitu univariate outliers dan multivariate outliers. Univariate outliers dapat dideteksi menggunakan Boxplot, asumsi normalitas atau asumsi distribusi lainnya. Sedangkan multivariate outliers dapat dideteksi menggunakan DBSCAN Clustering atau Isolation Forest [6].

Salah satu contoh analisa visualisasi adalah Boxplot Analysis. Box dan Whisker Plot (Box Plot) merupakan cara untuk menampilkan distribusi data secara visual melalui kuartilnya. Garis memanjang sejajar dari kotak dikenal sebagai whisker, yang digunakan untuk menunjukkan variabilitas di luar kuartil atas dan bawah. Outlier atau pencilan di plot digambarkan sebagai titik yang sejajar dengan whisker. Untuk memahami lebih jelas mengenai boxplot akan ditampilkan mengenai anatomi boxplot pada Gambar 2.

Gambar 2 Anatomy Boxplots (Source: https://datavizcatalogue.com/methods/box_plot.html)

Outlier dapat diidentifikasi menggunakan boxplot, yang disebut juga sebagai “boxplot outliers” yang didefinisikan sebagai berikut ini [5]:

dengan

Dimana Q3 merupakan kuartil-3 dan Q1 merupakan kuartil-1.

Studi Kasus

Misalkan diberikan nilai ujian Matematika siswa kelas 9 sebagai berikut: 70, 75, 80, 85, 87, 79, 35, 100, 75, 72, 70, 85, 81, 82, 85, 80, 79, 77, 70, 71. Tunjukkan nilai mana yang merupakan outlier!

Pertama-tama kita akan mengurutkan nilai ujian matematika dari terkecil ke terbesar untuk mendapatkan nilai Q1, Q3, dan IQR. Berikut ini merupakan urutan data terkecil ke terbesar:

35, 70, 70, 70, 71, 72, 75, 75, 77, 79, 79, 80, 80, 81, 82, 85, 85, 85, 87, 100

Gambar 3 Boxplot Nilai Ujian Matematika

Dari Gambar 3 terlihat bahwa terdapat 2 data yang merupakan outlier pada data nilai ujian Matematika. Selanjutnya, kita akan menentukan Outlier menggunakan persamaan (1) dan (2) sebagai berikut:

Sehingga kita peroleh bahwa data yang merupakan outlier pada nilai ujian Matematika kelas 9 adalah 35 dan 100.

Cara Mengatasi Outlier

Setelah kita mengetahui bagaimana cara identifikasi suatu outlier dalam kumpulan data, selanjutnya akan kita bahas bagaimana untuk mengatasi masalah tersebut. Penjelasan mengenai cara mengatasi outlier adalah sebagai berikut:

  1. Trimming/removing the outlier

Outlier dalam suatu kumpulan data merupakan masalah yang perlu diperhatikan, menghapus atau menghilangkan data outlier perlu dilakukan. Akan tetapi, dalam analisis multivariat, penghapusan data yang terlalu banyak dalam suatu analisis tidak bisa dilakukan, sehingga diperlukan cara lain untuk mengatasi data outlier tersebut [3].

2. Mean/Median imputation

Tabachnick dan Fidell (2007) menyarankan untuk mengganti data yang hilang dengan nilai mean atau nilai median [4].

3. Quantile based flooring and capping

Dalam teknik ini, outlier dibatasi pada nilai tertentu di atas nilai persentil ke-90 atau diturunkan pada faktor di bawah nilai persentil ke-10.

C. Bias Data

Bias data adalah suatu faktor pengaruh yang dapat berkontribusi terhadap hasil analisa yang salah atau tidak tepat.

Secara umum terdapat beberapa jenis bias dalam data, diantaranya adalah sebagai berikut:

1. Response atau Activity Bias: Jenis bias ini terjadi pada konten yang dibuat oleh respons suatu kelompok yang tidak mencerminkan respons suatu populasi secara keseluruhan. Atau dapat dikatakan bias ini muncul pada saat pemberian label jenis data yang serupa secara tidak konsisten.

2. Selection bias due to feedback loops: Bias ini terjadi ketika model itu sendiri memengaruhi pembuatan data yang digunakan untuk melatihnya karena tidak ada proses validasi kembali oleh data yang dihasilkan pada prediksi model tersebut.

3. Omitted Variable bias: Bias ini sering terjadi pada saat preprocessing data, yaitu menghapus data berharga yang dianggap tidak terlalu penting.

4. Bias Sampel: Bias ini terjadi ketika dataset tidak mencerminkan populasi secara keseluruhan.

5. Bias Pengukuran: Bias ini terjadi pada saat pengumpulan dataset yaitu pengukuran yang salah menghasilkan distorsi data.

6. Bias Pengamat: Bias ini terjadi ketika data yang dikumpulkan berdasarkan pemikiran subjektif tentang studi seorang pengamat, baik secara sadar atau tidak sadar.

Bias dalam data menghasilkan bias model yang bersifat diskriminatif sehingga diperlukan preprocessing data yang baik untuk menghasilkan Analisa yang akurat.

Daftar Pustaka

[1] Kleinbum, D., Kupper, L., Nizam, A., & Keith, M. 2008. Applied Regression Analysis and Other Multivariable Methods. USA: Thomson.

[2] Komorowski, Matthieu & Marshall, Dominic & Salciccioli, Justin & Crutain, Yves. (2016). Exploratory Data Analysis. 10.1007/978–3–319–43742–2_15.

[3] Cousineau, Denis & Chartier, Sylvain. (2010). Outliers detection and treatment: A review. International Journal of Psychological Research. 3. 10.21500/20112084.844.

[4] Tabachnick, B. G., dan L. S. Fidell. (2007). Using Multivariate Statistics (5th ed.).

California: Pearson Education Inc.

[5] Tukey, J. W. (1977). Exploratory data analysis. Reading: Addison-Wesley.

[6] https://tau-data.id/eda-01/

--

--

Data and Analytics
0 Followers

Karya-karya Hasil Pemikiran Tim AI dan Data Analytics PT Media Kode Indonesia